加载失败，

豆包大模型视觉、语音能力升级！文生图更懂“国风”，TTS“拿捏”情绪

2024年8月12日修改

豆包大模型团队｜阅读原文

转载请联系原作者取得授权

2024 火山引擎 AI 创新巡展・成都站于近日正式举办。活动现场发布了豆包・图生图模型，以及升级版的豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。

本文介绍了升级版文生图、语音合成、声音复刻模型特征，包括图像生成方面更深刻理解主客体关系、空间构造等特点，语音合成方面准确表达情绪、保留吞音、口音等能力。来自豆包大模型团队视觉、语音方向的同学还展望了未来文生图及语音合成方面的发展趋势。

日均 tokens 使用量突破 5000 亿——近日，2024 火山引擎 AI 创新巡展・成都站上，豆包大模型最新进展对外公布。一同发布的，还有豆包・图生图模型，以及升级版豆包・文生图模型、豆包・语音合成模型、豆包・声音复刻模型。

附件不支持打印

加载失败，

豆包大模型视觉、语音能力升级！文生图更懂“国风”，TTS“拿捏”情绪​