Bagel

13小时前发布 15 0 0

开源统一多模态AI用于理解、生成、编辑。

收录时间:
2025-06-25

Open-source unified multimodal AI for understanding, generation, editing.

什么是BAGEL?

BAGEL由字节跳动Seed开发,是一个Apache 2.0开源的统一多模态模型,旨在实现先进的图像/文本理解、生成、编辑和导航。它提供的能力与像GPT-4o和Gemini 2.0等专有系统相媲美。BAGEL可以进行微调、蒸馏,并可以部署在任何地方,通过其原生的多模态架构提供精确、准确和逼真的输出。

如何使用 BAGEL?

用户可以通过其统一的多模态接口使用BAGEL,接受图像和文本输入,并以混合格式输出。用户可以进行多轮对话,生成高保真图像和视频帧,执行图像编辑,应用风格迁移,导航虚拟环境,并通过提供提示与模型进行互动,利用其组合和思维模式。

BAGEL 的核心功能

统一多模态模型
图像/文本理解
图像/文本生成(逼真图像、视频帧)
图像编辑(保留视觉身份和细节)
风格迁移
导航(在多种环境中)
组合能力(多轮对话)
思维模式(通过推理增强生成和编辑)
基于大型语言模型初始化的预训练
专家混合变换器架构(MoT)

Bagel相关导航

Bagel 暂无评论

none
暂无评论...