输入“/”快速插入内容

AIGC Weekly #79

⏰ 发表时间:2024-07-08
上周精选 ✦
上周的WAIC看了一圈最大的一个内容就是快手可灵的更新了,在第一版模型刚推出一个月之后就提供了升级版的模型,同时快速上线了网页版,这个效率非常不快手。
基础模型更新,新模型输出分辨率为720P,模型的美观度一致性以及运动幅度都有一定的提高,与Runway相差不多了,再结合全面的控制方式的加入,可灵确实是现在最强的视频生成模型了。
每个赛道上最强模型的概念以及认知是必须要争取的,一旦建立这个认知品牌后续的推广和增长都会顺利很多,目前看来可灵很有希望站住视频生成这个赛道。
其他的项目更新有:
支持设置视频的创意幅度,幅度越高与原图片或者提示词相差越多
支持运镜控制,普通运镜支持控制运镜幅度,大师运镜幅度是自动的
增加反向提示词的输入
图生视频支持首尾帧控制
文生视频支持单次生成10秒长度的视频
新版可灵的效果推荐看坤导的《 山海奇镜 》预告,我的 快速测试 在这里,以及如何快速获得 首尾帧图片
可灵模型目前是限时免费的,新模型也就是高表现模式每天三次。
WAIC 信息集合
阶跃星辰在 WAIC 上发布了三个模型,主打的多模态能力。
Step-2:万亿参数的 MoE 模型,目前还需要申请才能体验,批准的挺快的,不过开放平台过于简陋连一个playground都没有,想体验只能自己调用。
Step-1.5V:千亿参数多模态模型,除了图片理解能力提升外,也支持视频理解。
Step-1X:图像生成模型,DiT 架构,600M、2B、8B 三种不同的参数量,对中国文化和元素进行了优化。
商汤发布“ 日日新 SenseNova 5.5 ”模型系列,而且还有类似GPT-4o的日日新5o这名字起的实在离谱。在现场也演示了实时的语音对话演示,还是没有GPT-4o那么流畅,有点回合制的感觉不过也很好了。
模型训练基于超过 10TB tokens 高质量训练数据,包括大量高质量的人工合成数据,构建了高阶思维链。模型采用混合端云协同架构,拥有 6000 亿参数 ,可最大限度发挥云边端协同,达到 109.5 字 / 秒 的推理速度。
他们还发布了一个可以让一张照片直接动起来的小程序Vimi,包括了肢体动作、面部表情加上声音都能控制,小程序目前还在内测。