输入端:AI训练中的知产侵权

2024年6月30日修改
使用受版权保护作品训练AI的侵权问题
争议主体主要是著作权作者和大模型公司。
争议发生的原因主要是:
1.
权利人海量但授权机制不明晰;
2.
各方对人工智能输入端构成合理使用的法律依据不同。
《生成式人工智能著作权侵权纠纷的证明之道》,http://www.legalweekly.cn/whlh/2024-03/07/content_8969546.html
《TMI法律资讯 | 日本法项下对生成式AI与著作权相关问题的探讨:AI开发、学习阶段》,https://mp.weixin.qq.com/s/VIxYfdnjQ8fpOon-N_5Q0w
张湖月:美国一系列诉讼的核心争议点集中于利用受版权保护的作品来训练AI是否构成侵权。主流观点认为,这种做法可受到合理使用的豁免,因为AI生成内容具有转化性。然而,在某些案例中,AI生成的内容可能与原作品高度重叠,例如美国“纽约时报”案。针对此类情况,OpenAI辩称之所以出现重叠是因为指令本身具有很强的诱导性。
James Grimmelmann:在美国,围绕“合理使用”有两大发展趋势。第一,转化性使用,即对他人作品进行创意性改编。第二,复制他人材料用于完全没有艺术表达性的目的,比如研究的收藏库、搜索引擎。这些系统吸纳许多受版权保护的作品,但其复制出来的产物并没有与原作品竞争。然而,生成式AI融合两者。它不仅广泛吸纳版权作品进行训练,同时生成具有表达性的衍生作品。因此,这两种合理使用的情形都不完全适用于生成式AI,但它又与两者都存在关联。
Jason M. Schultz:在判断是否构成合理使用时,需要结合最终生成的内容本身进行评估。即使某公司仅利用纽约时报的网页来训练一个AI系统,最后也可能生成数百万种不同的表达方式;在这些表达中,可能仅0.1%存在侵权行为。一个关键的争论焦点在于:AI公司自动爬取数据进行训练与寻求版权持有人单独授权之间的区别是什么。与此相关的有两点:第一,竞争。为了促进不同AI之间的竞争,不能仅让世界上最富有的公司获得训练数据,而向所有版权人购买授权的费用非常高昂。第二,偏见。如果AI能使用更广泛的数据进行训练,就能避免产生偏颇的语言。例如,在美国,左派反对AI使用其数据进行训练,而右派则非常愿意。如果实行授权制,训练数据是否会被右派观点所主导呢?此外,AI生成的内容在很大程度上取决于指令内容,法院很难评估AI是否真的复制了某本书。如果用户极力逼迫AI进行复制,确实有可能实现,但实际上有多少人会这么做呢?这也引发了一个问题:如果AI生成的内容确实构成实质性相似,那么应该由谁负责?是用户还是人工智能服务提供商?
James Grimmelmann & Jason M.Schultz:该问题不存在普遍适用的答案。用户使用AI的目的和情况各不相同,必须针对具体问题进行分析。版权法应对私人空间予以适当宽容。在北京互联网法院的案例中,当AI生成的内容被上传至公共领域时,问题的性质就不同了,尤其是涉及不公平竞争的情况。总之,当前生成式AI仍处于发展初期,任何版权问题都没有确切答案,只能依靠更多司法判例来丰富我们的知识储备。一个合理的制度应促使大型和初创公司都能茁壮成长,不依赖庞大的供应商,保障所有人平等地使用AI,并鼓励合理竞争。如果法律仅允许大公司与另一个大公司打交道,这并不能解决问题,艺术家也无法获得合理回报。此外,所谓的版权方经济利益受损,可能是因为更多的人能够与他们展开竞争,而不仅仅是因为某个人通过ChatGPT窃取了他们的作品。
人工智能的训练过程
OpenAI这样说明自己训练AI的技术步骤:首先,抓取互联网上公开可用的信息,或者是根据第三方商业协议获得信息;第二步,向模型“投喂”输入信息;第三步,模型将文本信息分解成一个个单词长度的token,计算哪些token经常一起出现,并转换为一串统计概率;Transformer架构进一步分析所有文本,比如哪个单词对于理解一句话的意思最重要,让AI捕捉到语言的深层结构和模式;最后将这些统计关系留在模型中,完成大模型的预训练。
简而言之,大模型记住的是统计关系,而不是文本本身。OpenAI表示,大模型的每串数字(即权重)反映了不同单词在不同情况下的统计关系。当有人发出指令时,大模型调用权重预测下一个词和句子——不会通过数据库重新访问版权作品,也不会直接复制粘贴作品的内容。

加载失败,