输入“/”快速插入内容

AI 聊天机器人存在的人类偏见问题及研究

2024年12月9日修改
随着人工智能技术的不断发展,AI 聊天机器人在为人们提供服务的同时,也暴露出了一些问题。近期,特拉华大学的研究人员发表在《科学报告》杂志上的一项研究发现,AI 聊天机器人存在一些人类偏见。
这项研究始于 2023 年 1 月,当时 ChatGPT 开始迅速流行,人们开始担忧人工智能是否会对人类文明(至少是人类写作)产生影响。研究人员 Xiao Fang、Ming Zhao 与博士生 Minjia Mao 以及研究人员 Hongzhe Zhang 和 Xiaohang Zhao 合作,他们对 AI 大型语言模型(如广受欢迎的 ChatGPT)是否会对某些人群产生有偏见的内容感兴趣。
在如何衡量偏见这个问题上,研究人员面临着挑战,因为偏见是主观的。以往的研究可能会简单地通过计算特定群体相关词汇的数量来判断是否存在偏见,但这种方法存在缺陷。例如,一篇关于男子足球队的文章中,自然会有很多涉及男性的语言,但这并不意味着该文章存在性别偏见。
为了克服这一问题,研究人员将大型语言模型的输出与以严谨著称的新闻媒体(如路透社和《纽约时报》)的文章进行了比较。他们以超过 8000 篇文章的标题作为语言模型的提示,让其创建自己的版本。博士生 Mao 在这方面发挥了重要作用,他编写代码自动输入这些提示。
然而,研究人员并没有假设路透社和《纽约时报》的文章是完全没有倾向的。关键是,虽然这些新闻媒体并非完美无缺,但 AI 语言模型的表现更差,在某些情况下,它们对少数群体的语言选择偏见程度比新闻媒体高出 40%至 60%。研究人员还使用软件来测量语言的情感,发现其毒性更强。
研究人员分析的模型包括 Grover、Cohere、Meta 的 LLaMa 和 OpenAI 的几个不同版本的 ChatGPT。(在 GPT 版本中,较新的模型表现较好,但仍然存在偏见。)通过使用新闻文章的标题作为提示,研究人员可以比较 AI 与原始记者的处理方式。例如,AI 可能会就同一主题撰写文章,但在词汇选择上更倾向于白人,而对少数群体的关注较少。他们还在句子和文章层面进行了比较,而不仅仅是逐字比较。研究人员选择了一个名为 TextBlob 的代码包来分析情感,对“粗鲁、不尊重和亵渎”进行评分。
更进一步,研究人员还促使语言模型编写明确有偏见的文章,就像试图传播种族主义的人可能会做的那样。除了 ChatGPT 外,其他语言模型毫不犹豫地生成了这些文章。ChatGPT 在这方面表现得相对较好,但也并非完美无缺,约有 10%的时间会允许有意偏见的文章出现。一旦研究人员找到了绕过其防护措施的方法,其产生的结果甚至比其他模型更加偏见和歧视。
目前,Fang 和他的团队正在研究如何“消除”语言模型的偏见。他们认为,这应该是一个积极的研究领域。正如人们可能对为商业用途设计的聊天机器人所期望的那样,这些语言模型将自己呈现为友好、中立和有帮助的向导,但这项及相关研究表明,这些看似礼貌的语言模型仍然可能携带其创建者在编码和训练过程中产生的偏见。
这些模型可能会被用于市场营销、招聘广告或新闻文章摘要等任务中,而偏见可能会悄然进入其结果中。因此,用户和公司应该对此保持警惕。
总之,AI 聊天机器人存在的人类偏见问题需要引起我们的重视。我们需要进一步研究和探索如何解决这一问题,以确保人工智能技术的健康发展和合理应用,避免其对社会产生负面影响。同时,我们也应该加强对人工智能技术的监管和评估,确保其符合道德和伦理标准,为人类社会带来更多的益处。