随着大语言模型(LLMs)在近年来取得显著进展,它们的能力日益增强,进而引发了一个关键的问题:如何确保他们与人类价值观对齐,从而避免潜在的社会负面影响?
模型如ChatGPT依赖于基于人类反馈的强化学习(RLHF),这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈,提出了一种解决方案。然而,RLHF面临着成本高昂、难以优化等问题,以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的依赖,Anthropic推出了Constitutional AI,旨在要求语言模型在回答时遵循一系列人类规则。同时,OpenAI的研究通过采用弱模型监督强模型的方法,为超人类水平模型的对齐提供了新的视角。尽管如此,由于用户给出的指令千变万化,将一套固定的社会规则应用于LLMs显得不够灵活;而且,弱模型对强模型的监督提升效果尚不明显。
为了解决这些大语言模型价值对齐的挑战,上海交通大学、上海人工智能实验室的Multi-Agent Governance & Intelligence Crew (MAGIC)团队发表了新工作《Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation》,提出了一种原创的自我对齐策略——社会场景模拟。这种方法的核心思想是,人类社会价值观的形成和发展源于社会各方参与者之间的互动和社会影响。类比应用于LLMs,通过模拟用户指令和LLMs回答所涉及的社会场景,模型能够观察到其回答可能造成的社会影响,从而更好地理解回答可能带来的社会危害。
本研究此设计了一个名为MATRIX的社会模拟框架。这一名称的灵感源自于科幻经典《黑客帝国》,其中MATRIX是一个复杂的虚拟现实世界,它精准地模拟人类社会与互动。借鉴这一概念,MATRIX框架旨在让LLM以一人分饰多角的方式,面对任意用户指令及LLM回答,自动生成模拟社会。这样,LLM不仅能评估其给出的回答在模拟社会中的影响,还能通过观察这些互动的社会影响,自我评估并修正其行为。通过MATRIX,LLM以一种贴近人类的方式进行自我对齐。理论分析表明,社会场景模拟能够生成更具针对性和相关性的反思,从而超越基于预定义规则的Constitutional AI,产生更加对齐的回答。实验结果显示,针对有害问题的回答,社会模拟加持的13B模型不仅能够超越多种基线方法,且在真人测评上超越了GPT-4。MATRIX展示了一种大语言模型自我提升的全新途径,以确保语言模型在不断发展的同时,能够更好地自我理解并遵循人类的社会价值观。这不仅为解决模型自我对齐问题提供了新的视角,也为未来语言模型的道德和社会责任探索开辟了新的可能。