输入“/”快速插入内容

豆包大模型视觉、语音能力升级!文生图更懂“国风”,TTS“拿捏”情绪

2024年8月12日修改
豆包大模型团队|阅读原文
转载请联系原作者取得授权
2024 火山引擎 AI 创新巡展 ・ 成都站于近日正式举办。活动现场发布了豆包・图生图模型,以及升级版的豆包 ・ 文生图模型、豆包 ・ 语音合成模型、豆包 ・ 声音复刻模型。
本文介绍了升级版文生图、语音合成、声音复刻模型特征,包括图像生成方面更深刻理解主客体关系、空间构造等特点,语音合成方面准确表达情绪、保留吞音、口音等能力。来自豆包大模型团队视觉、语音方向的同学还展望了未来文生图及语音合成方面的发展趋势。
日均 tokens 使用量突破 5000 亿——近日,2024 火山引擎 AI 创新巡展・成都站上,豆包大模型最新进展对外公布。一同发布的,还有豆包・图生图模型,以及升级版豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。
今年 5 月,字节跳动发布豆包大模型家族。据后续第三方 FlagEval 大模型评测平台发布的榜单显示,豆包大模型(Doubao-Pro-4k)在闭源大模型的“客观评测”中,以综合评分 75.96 分排名第二,仅次于 GPT-4 ,是得分最高的国产大模型。在“主观评测”中,豆包大模型同样排名第二。
2 个多月过去,平均每家企业客户日均大模型 tokens 使用量较发布时增长了 22 倍。爆发式增长的背后,也是豆包大模型模型能力和应用效果受到认可的体现。
豆包大模型团队为本次发布的主要能力提供了技术支持,本文将介绍这些主要能力细节,解读背后涉及的技术内核。
1.更懂“国风”的文生图模型
本次文生图模型升级能力体现在三个方面:
其一, 新一代模型能够深度理解复杂 prompt ,包括多主体、反现实、主客体关系等内容,图文匹配更精准。
prompt:摄影作品,超现实主义,电影质感,一只超级巨大的猫咪,陆家嘴,超级可爱,躺在上海的街头,小汽车,猫咪和大楼一样高,和马路一样宽,堵住了马路,马路上很多车辆来来往往,汽车和猫爪一样大
其二,模型也更善于从光影明暗、氛围色彩和人物美感三个方向提升画面质感。