输入“/”快速插入内容

AIGC Weekly #79

🔗 原文链接： https://quail.ink/op7418/p/aigc-wee...

⏰ 发表时间：2024-07-08

上周精选 ✦

上周的WAIC看了一圈最大的一个内容就是快手可灵的更新了，在第一版模型刚推出一个月之后就提供了升级版的模型，同时快速上线了网页版，这个效率非常不快手。​

基础模型更新，新模型输出分辨率为720P，模型的美观度一致性以及运动幅度都有一定的提高，与Runway相差不多了，再结合全面的控制方式的加入，可灵确实是现在最强的视频生成模型了。​

每个赛道上最强模型的概念以及认知是必须要争取的，一旦建立这个认知品牌后续的推广和增长都会顺利很多，目前看来可灵很有希望站住视频生成这个赛道。​

其他的项目更新有：

•
支持设置视频的创意幅度，幅度越高与原图片或者提示词相差越多​

•
支持运镜控制，普通运镜支持控制运镜幅度，大师运镜幅度是自动的​

•
增加反向提示词的输入​

•
图生视频支持首尾帧控制​

•
文生视频支持单次生成10秒长度的视频​

新版可灵的效果推荐看坤导的《山海奇镜》预告，我的快速测试在这里，以及如何快速获得首尾帧图片。

可灵模型目前是限时免费的，新模型也就是高表现模式每天三次。​

common.docs_name - LarkCCM_Docs_Menu_Image

WAIC 信息集合

阶跃星辰发布多款模型

阶跃星辰在 WAIC 上发布了三个模型，主打的多模态能力。

Step-2：万亿参数的 MoE 模型，目前还需要申请才能体验，批准的挺快的，不过开放平台过于简陋连一个playground都没有，想体验只能自己调用。​

Step-1.5V：千亿参数多模态模型，除了图片理解能力提升外，也支持视频理解。​

Step-1X：图像生成模型，DiT 架构，600M、2B、8B 三种不同的参数量，对中国文化和元素进行了优化。​

商汤打造类似GPT-4o的实时语音演示

商汤发布“ 日日新 SenseNova 5.5 ”模型系列，而且还有类似GPT-4o的日日新5o这名字起的实在离谱。在现场也演示了实时的语音对话演示，还是没有GPT-4o那么流畅，有点回合制的感觉不过也很好了。​

模型训练基于超过 10TB tokens 高质量训练数据，包括大量高质量的人工合成数据，构建了高阶思维链。模型采用混合端云协同架构，拥有 6000 亿参数 ，可最大限度发挥云边端协同，达到 109.5 字 / 秒 的推理速度。​
他们还发布了一个可以让一张照片直接动起来的小程序Vimi，包括了肢体动作、面部表情加上声音都能控制，小程序目前还在内测。​

AIGC Weekly #79 ​

AIGC Weekly #79