输入“/”快速插入内容

AI 助力视频内容可搜索性的新变革

2024年12月8日修改
在当今数字化时代,视频内容已成为信息传播的重要形式。然而,大量的视频数据却面临着难以搜索和利用的问题。幸运的是,AWS(亚马逊网络服务)和 Google 等科技巨头正在利用人工智能技术为可搜索视频内容带来新的突破。
Twelve Labs 作为一家专注于多模态人工智能以理解视频内容的初创公司,与 AWS 合作开发了一项技术,使得搜索视频如同搜索文本一样简便。据 Twelve Labs 的联合创始人兼首席执行官 Jae Lee 估计,全球近 80%的数据是以视频形式存在的,但其中大部分是无法搜索的。该技术能够同时分析多种数据格式,包括视频、音频和文本,并以超过 100 种语言提供可搜索的内容。用户可以通过搜索动作、物体和背景声音等元素来查找视频中的特定内容。此外,该技术还能够对视频进行分类、总结,并将视频片段分割成章节。
这项独特的技术为内容创作者带来了极大的便利。例如,体育联盟可以利用该技术对大量的比赛录像进行简化和分类,以便更轻松地搜索和检索特定的画面用于现场直播。媒体和娱乐公司则可以根据每个观众的兴趣,从电视节目中创建个性化的精彩片段,比如将一部惊悚系列剧中某位喜爱演员的所有动作场景进行整合。
在拉斯维加斯举行的 AWS re:Invent 活动上,两家公司宣布了这项为期三年的合作协议,并展示了该技术。现在,开发者可以通过对话式查询轻松找到运动员表现的特定视频片段或从档案中检索电影场景。Twelve Labs 使用 AWS 技术来训练其多模态基础模型,据称能够将训练速度提高 10%,同时将训练成本降低超过 15%。Twelve Labs 的 Marengo 和 Pegasus 基础模型提供文本摘要和音频翻译,可在 AWS Marketplace 上使用,为媒体、娱乐、游戏、体育等大量依赖视频的行业创建语义视频搜索和文本生成的应用程序。
该公司利用 Amazon SageMaker HyperPod 来训练其基础模型,这些模型能够同时理解包括视频、图像、语音和文本在内的不同数据格式。这使得可以更深入地研究模型,以获得针对特定数据类型的见解。训练工作负载分布在多个 AWS 计算实例上,以并行方式工作,这意味着 Twelve Labs 可以连续数周甚至数月不间断地训练其基础模型。
与此同时,Google 也在视频领域有所动作。据报道,Google 正在为 YouTube 测试一种视频格式,SEO 顾问 Glenn Gabe 在 X 帖子中称其为“基于查询的 YouTube 视频易于理解的摘要”。该试点项目最近已向一些搜索者推出。一位 YouTube 创作者向 Gabe 提供了有关此“新的、高度可视化的视频搜索轮播”的信息:当人们搜索与您的视频相关的查询时,Google 搜索中可能会出现一个轮播,其中包含您和其他 YouTube 创作者的内容。该功能为用户提供了一种扩展轮播中特色内容的方式,并可以查看视频的文本和图像摘要。摘要使用人工智能创建,并将突出显示与给定搜索查询最相关的视频部分。Gabe 表示,与他联系的人还提到,该功能还通过扩展摘要鼓励人们参与内容,促使人们在 YouTube 上观看视频或探索您的频道。
总的来说,AI 技术正在为视频内容的可搜索性和可用性带来革命性的变化。这不仅将极大地提高视频数据的利用价值,也将为各个行业带来更多的创新和发展机会。随着技术的不断进步,我们可以期待在未来看到更多令人惊叹的应用和成果,让视频内容更好地服务于人们的生活和工作。