字节发布豆包视觉理解、3D 生成等新模型,豆包音乐模型可生成 3 分钟作品
xxn
阅读:26929
2024-12-18 12:00:39
评论:0
近日,在火山引擎 Force 大会上,字节跳动发布了豆包视觉理解模型,为企业提供多模态大模型能力。豆包视觉理解模型支持千 tokens 输入,价格仅为 3 厘,一元钱即可处理 284 张 720P 的图片,据官方称比行业平均价格便宜 85%。
此次活动中,豆包 3D 生成模型正式亮相。结合火山引擎数字孪生平台 veOmniverse 使用,可完成智能训练、数据合成和数字资产制作,被称为“一套支持 AIGC 创作的物理世界仿真模拟器”。
豆包大模型旗下的多款产品也迎来了更新:
豆包通用模型 pro:全面对齐 GPT-4o,仅使用后者价格的 1/8;
音乐模型:可生成 3 分钟的完整作品;
文生图模型 2.1 版本:精准生成汉字、一句话 P 图,已接入即梦 AI 和豆包 App。
未来,豆包将推出具备更长视频生成能力的豆包视频生成模型 1.5 版,豆包端到端实时语音模型也将很快上线,解锁多角色演绎、方言转换等新功能。
广告声明:文内含对外跳转链接,用于传递更多信息,节省甄选时间,结果仅供参考。
声明
1.本站遵循行业规范,任何转载的稿件都会明确标注作者和来源;2.本站的原创文章,请转载时务必注明文章作者和来源,不尊重原创的行为我们将追究责任;3.作者投稿可能会经我们编辑修改或补充。