输入“/”快速插入内容

AI 助力可搜索视频内容的新变革

2024年12月9日修改
在当今数字化时代,视频内容已成为信息传播的重要形式。然而,大量的视频数据却面临着难以搜索和利用的问题。幸运的是,亚马逊网络服务(AWS)和谷歌等科技巨头正在利用人工智能(AI)技术,为可搜索视频内容带来新的突破。
Twelve Labs 是一家专注于多模态 AI 以理解视频内容的生成式人工智能初创公司,它与 AWS 合作开发了一项技术,使得搜索视频如同搜索文本一样简便。Twelve Labs 的联合创始人兼首席执行官 Jae Lee 估计,全球近 80%的数据是以视频形式存在的,但其中大部分是无法搜索的。该技术能够同时分析多种数据格式,包括视频、音频和文本,并以超过 100 种语言提供可搜索的内容。搜索范围涵盖了动作、物体和背景声音等。这项技术还可以对视频进行搜索、分类场景、总结,并将视频片段分割成章节。其独特之处在于,内容创作者可以使用自然语言搜索,精确地访问到节目或游戏中的特定时刻或事件。
例如,体育联盟可以利用这项技术来简化和分类大量的比赛录像,使其更容易为现场直播搜索和检索特定的画面。媒体和娱乐公司可以使用该技术根据每个观众的兴趣,从电视节目中创建个性化的精彩片段,比如将一部惊悚系列剧中某位喜爱演员的所有动作场景进行汇编。
AWS 和 Twelve Labs 宣布了一项为期三年的合作协议,并在拉斯维加斯的 AWS re:Invent 活动上展示了这项技术。现在,开发者可以通过对话式查询找到运动员表现的特定视频片段,或者从档案中搜索到电影场景。Twelve Labs 使用 AWS 技术来训练其多模态基础模型,据称可以将训练速度提高 10%,同时将训练成本降低超过 15%。Twelve Labs 的 Marengo 和 Pegasus 基础模型提供文本摘要和音频翻译,它们在 AWS Marketplace 上可用,可为媒体、娱乐、游戏、体育等依赖大量视频的行业创建语义视频搜索和文本生成的应用程序。该公司使用 Amazon SageMaker HyperPod 来训练其基础模型,这些模型能够同时理解包括视频、图像、语音和文本在内的不同数据格式,从而可以更深入地研究模型,以获得针对特定数据类型的见解。训练工作负载分布在多个 AWS 计算实例上,以并行方式工作,这意味着 Twelve Labs 可以连续数周甚至数月不间断地训练其基础模型。
与此同时,谷歌也在视频领域有所动作。据报道,谷歌正在为 YouTube 测试一种视频格式,SEO 顾问 Glenn Gabe 在 X 帖子中称其为“根据查询提供易于理解的 YouTube 视频摘要”。该试点项目最近已向一些搜索者推出。一位 YouTube 创作者向 Gabe 提供了有关此“新的、高度可视化的视频搜索轮播”的信息:当人们搜索与您的视频相关的查询时,Google 搜索中可能会出现一个轮播,其中包含您和其他 YouTube 创作者的内容。该功能为用户提供了一种扩展轮播中特色内容的方式,并可以查看视频的文本和图像摘要。摘要使用 AI 创建,并将针对给定的搜索查询突出显示视频中最相关的部分。Gabe 表示,与他联系的人还提到,该功能还通过扩展摘要鼓励人们参与内容,促使人们在 YouTube 上观看视频或探索您的频道。
总的来说,AI 技术正在为视频内容的搜索和利用带来革命性的变化。无论是 AWS 和 Twelve Labs 的合作,还是谷歌在 YouTube 上的尝试,都为我们展示了人工智能在视频领域的巨大潜力。随着这些技术的不断发展和完善,我们有理由相信,未来的视频内容将更加易于搜索和访问,为用户提供更好的体验,同时也为内容创作者和相关行业带来更多的机遇和挑战。