输入“/”快速插入内容

⼤模型社会模拟器MATRIX,价值对齐胜过GPT4

2024年8月20日修改
导语
如何确保大模型与人类价值观对齐,从而避免潜在的社会负面影响?为了解决大语言模型价值对齐的挑战,上海交通大学、上海人工智能实验室的 Multi-Agent Governance & Intelligence Crew (MAGIC) 团队发表新工作,提出一种原创的自我对齐策略——社会场景模拟。这个名为MATRIX的社会模拟框架是一个复杂的虚拟现实世界,它精准地模拟人类社会与互动。模型能够观察到其回答可能造成的社会影响,从而更好地理解回答可能带来的社会危害。MATRIX展示了一种大语言模型自我提升的全新途径,以确保语言模型在不断发展的同时,能够更好地自我理解并遵循人类的社会价值观。这不仅为解决模型自我对齐问题提供了新的视角,也为未来语言模型的道德和社会责任探索开辟了新的可能。
研究领域:价值对齐,大语言模型,社会场景模拟
随着大语言模型(LLMs)在近年来取得显著进展,它们的能力日益增强,进而引发了一个关键的问题:如何确保他们与人类价值观对齐,从而避免潜在的社会负面影响?
模型如ChatGPT依赖于基于人类反馈的强化学习(RLHF),这一方法通过鼓励标注者偏好的回答并惩罚不受欢迎的反馈,提出了一种解决方案。然而,RLHF面临着成本高昂、难以优化等问题,以及在超人类水平模型面前显得力不从心。为了减少乃至消除对人类监督的依赖,Anthropic推出了Constitutional AI,旨在要求语言模型在回答时遵循一系列人类规则。同时,OpenAI的研究通过采用弱模型监督强模型的方法,为超人类水平模型的对齐提供了新的视角。尽管如此,由于用户给出的指令千变万化,将一套固定的社会规则应用于LLMs显得不够灵活;而且,弱模型对强模型的监督提升效果尚不明显。
为了解决这些大语言模型价值对齐的挑战,上海交通大学、上海人工智能实验室的Multi-Agent Governance & Intelligence Crew (MAGIC)团队发表了新工作《Self-Alignment of Large Language Models via Monopolylogue-based Social Scene Simulation》,提出了一种原创的自我对齐策略——社会场景模拟。这种方法的核心思想是,人类社会价值观的形成和发展源于社会各方参与者之间的互动和社会影响。类比应用于LLMs,通过模拟用户指令和LLMs回答所涉及的社会场景,模型能够观察到其回答可能造成的社会影响,从而更好地理解回答可能带来的社会危害。
本研究此设计了一个名为MATRIX的社会模拟框架。这一名称的灵感源自于科幻经典《黑客帝国》,其中MATRIX是一个复杂的虚拟现实世界,它精准地模拟人类社会与互动。借鉴这一概念,MATRIX框架旨在让LLM以一人分饰多角的方式,面对任意用户指令及LLM回答,自动生成模拟社会。这样,LLM不仅能评估其给出的回答在模拟社会中的影响,还能通过观察这些互动的社会影响,自我评估并修正其行为。通过MATRIX,LLM以一种贴近人类的方式进行自我对齐。理论分析表明,社会场景模拟能够生成更具针对性和相关性的反思,从而超越基于预定义规则的Constitutional AI,产生更加对齐的回答。实验结果显示,针对有害问题的回答,社会模拟加持的13B模型不仅能够超越多种基线方法,且在真人测评上超越了GPT-4。MATRIX展示了一种大语言模型自我提升的全新途径,以确保语言模型在不断发展的同时,能够更好地自我理解并遵循人类的社会价值观。这不仅为解决模型自我对齐问题提供了新的视角,也为未来语言模型的道德和社会责任探索开辟了新的可能。
社会模拟器MATRIX
MATRIX,作为一个由LLM驱动的社会模拟框架,旨在自动模拟问题及其回答的社会影响。MATRIX融合了社会角色、社会物体和社会调节器,以支持逼真的社会模拟。
社会角色及物体:MATRIX包含多个社会角色和物体,全部由同一LLM操控。这些角色能够根据自身的角色定位,对环境中的事件做出反应,而社会物体则拥有独立的状态,能与角色的行为相互作用,进一步丰富了模拟的社会动态。
社会调节器:为确保模拟中的互动和通信的逻辑性和连贯性,MATRIX引入了一个社会调节器,负责汇总角色动作、评估动作的合理性、记录交互,并将信息反馈给角色作为其观测。
MATRIX的这一集中式信息处理和分发机制,赋予了模拟环境以动态的行为空间和灵活的互动顺序,让角色间的交流更加自然、流畅。