OpenAI安全大佬，华人科学家翁荔B站首秀！人类如何培养出下一代聪明且安全的AI技术

2024.11.05

B站真的啥也能学到！

11月B站的哔哩哔哩超级科学晚活动，竟然请来了OpenAI的研究副总裁（安全）——翁荔！

她是OpenAI的华人科学家，也是ChatGPT的贡献者之一。

她毕业于北京大学信息管理系，即现在的北京大学数字人文实验室，是2005级本科生。

毕业后，她赴美攻读博士学位，并曾在Facebook工作。

自2018年起，翁荔加入了OpenAI，并在GPT-4项目中主要参与预训练、强化学习&对齐、模型安全等方面的工作。

翁荔还提出过著名的Agent 公式：Agent = 大模型 + 记忆 + 主动规划 + 工具使用。

图片

她超高质量的blog，得到了很多AI圈人士的追更。

今年7月，她利用一天休息日，写了万字 blog，提出了大模型的“外在幻觉”概念。

图片

上下文幻觉：模型输出应与源内容在上下文中保持一致。

外部幻觉：模型输出应以预训练数据集为依据。然而，考虑到预训练数据集的规模，逐个生成并检索以识别冲突的成本太高。如果我们将预训练数据集视为世界知识的代理，我们实际上是在努力确保模型输出是基于事实且可由外部世界知识验证的。

图片

在这场B站首秀中，翁荔站在舞台上，以《AI安全与“培养”之道》为主题进行了演讲分享。

图片

“AI技术是一个双刃剑，它带来了便利与挑战并行，我们的参与至关重要。让我们携手培养出一个既聪明又负责的AI伙伴。”她说。

以下是经过整理的演讲全文：

大家好，我是翁荔。今天我想与大家探讨一个既深刻又有趣的话题：AI安全，以及我们如何像培养下一代一样，培育出既聪明又安全的人工智能。

继ChatGPT横空出世以来，AI技术如同搭乘了高速列车，迅速渗透并影响着我们的日常。

AI每天都在进化，需要我们用心引导与教育，以确保其更好地服务于人类，同时确保安全无虞。一个既安全又智能的AI无疑将为我们的生活带来诸多裨益。

试想，一个能洞察你生活习惯的智能家居系统，能根据你的需求自动调节室内温度风险。或是一个时刻关注你健康状况的AI助手，能为你提供量身定制的健康建议。

AI不仅能显著提升我们的生活质量，还能开辟新的就业领域，提升工作效率。然而这一切均建立在AI安全的基础之上。正如自动驾驶技术一样，它能极大的提升生活便利性，但是一旦出错，后果可能不堪设想。

随着AI应用日益智能化与自主化，如何确保AI的行为符合人类价值观，真正做到以人为本，成为了AI安全与对齐研究的核心议题。

1.AI安全的强化学习

人类在成长过程中会不断学习进步，但也会遇到成长的烦恼。AI同样如此，它可能会因为数据偏见而变得狭隘，也可能因为对抗性攻击而被恶意利用。悉心教育，也就是AI安全和对齐研究，才能使AI成长过程更加顺利。

让我们以健康领域的应用为例，很多疾病研究的数据往往以男性群体为主，这可能导致AI在处理女性的健康问题时风险评估不准确。此外，数据本身也有可能存在偏见，比如有研究表明，女性心脏病症状更容易被归结成焦虑等心理问题而造成诊断遗漏。因此我们需要通过对AI安全和对齐的研究来减少这种偏见。

AI学习的基础是数据，数据是它的实物。要想让AI变得聪明可靠，我们必须确保它营养均衡，也就是提供他多样、全面、正确的数据，帮助他能够正确的理解这个复杂的世界并减少偏差。

在使用人类标注的数据时，我们可以依赖于群体智慧，也就是the wisdom of the crowd，即同一个数据点被多人标注多数票获胜，这种方法简单而有效。

有意思的是，1907年的一篇自然科学杂志中的文章，作者追踪了一场年度展览会上的一个有趣的竞有奖竞猜。展览会上人们选出一头肥牛，让大家来猜测牛的重量。最接近真实数据的人将获得大额的奖金。作者发现最中间值往往是最接近真实的the medium value。而这个数估计值也被称为vox popular，它是拉丁语中the voice of the people，也就是人民的声音的意思。在这篇将近120年前的科学文章中，作者总结道，我认为这个结果比人们预期的更能证明民主判断的可信度。这也是最早提到群体智慧如何发生作用的科学文献。

而至于如何把高质量标注的数据喂给AI，基于人类反馈的强化学习，也就是reinforcement learning from human feed back （RLHF）技术起到了关键作用。在了解RLHF之前，让我们快速了解一下什么是RL reinforce learning。

强化学习是一种机器学习方法，它主要通过奖惩机制来让模型学会完成任务，而不是依靠直接告诉模型如何去做这件任务。想象一下它就好像你需要训练小狗，如果小狗做对了一个动作，比如坐下你就给它一块骨头饼干，错了就不给奖励。这样小狗就会因为想吃到更多的饼干，而学会如何正确的做下。同理AI也在这种奖惩机制中学习，通过不断的尝试并得到反馈，找到最佳的行动策略。

一个早期的研究表明，强化学习能利用少量人类反馈，快速有效的教会智能体做复杂的动作，比如学会如何后空翻。同样的方法也可以用于训练大语言模型。当我们看到针对同一问题的不同AI回答时，我们可以告诉模型哪一个回答更好、更正确、更符合人类价值观。这样我们就像家长纠正孩子一样，能够调节AI的学习过程。

此外我们还可以使用模型本身作为输出I输出质量的评分者。比如在Antropic发表的《Constitutional AI》中，模型就通过对自己行为的自我评价进行改进。或者在对其强化学习中，我们可以制定非常详细的行为规则来告诉AI，何时拒绝用户的请求，如何表达同理心等等。

然后我们在强化学习的奖励机制中，非常精准的来给予相应的评分和奖励。这个过程中一个更加强大的AI有能力更精准的判断他是否有在遵循人类的价值观和行为准则。总之强化学习技术就像一把钥匙，帮助我们打开AI高质量学习和发展的大门。在培养AI更懂我们的过程中，普通人也能发挥重要的作用。

在文档写作上我们可以采用两个小技巧：

首先设定详细的背景和角色，就像导演为演员准备剧本一样，让AI在丰富的情境中捕捉我们的意图。

其次，精心挑选关键词，构建逻辑清晰的文档结构，使文档既美观又实用。在视频音乐制作领域，我们可以通过使用专业术语来引导AI比如黄金分割构图或和弦进行，将创意转化为现实。同时别忘了感情的投入，因为这是赋予灵作品灵魂的关键。简而言之，通过细致的指导和情感的融入，我们可以帮助AI创作出既丰富又富有感染力的作品。

2.对齐——AI模型的“紧箍咒”

在西游记中，孙悟空有紧箍咒约束行为，我们应该给AI模型也带上紧箍咒，也就是教会AI安全基本准则约束和道德标准，让其遵守行为规范，以人类利益为先，成为我们贴心的伙伴，而不是冰冷的机器人。

让AI学习基本原则和道德准则，可以使模型在面对复杂问题时运用推理得出正确的结论。比如在open AI最近发表的o1 preview模型中，我们通过思维链推理加强了模型的鲁棒性(robustness）, 使得模型可以更好的抵抗越狱攻击。

扩展性监督（scalable overside）在AI对其研究中也非常重要。随着AI模型扩大，需要结合自动化工具和人类监督，有效的监督其行为，确保它朝着正确的方向发展。

在一组研究中，我们用监督学习训练语言模型，对网络文本摘要进行批评，比如提供这个摘要非常准确，或者这个摘要遗漏了要点等等。评论相比对照组，我们发现有AI帮助的标注员比没有帮助的能多。导出摘要中约50%的问题，而且多数批评都参考了模型提供的内容。总之给AI设定标准并进行有效监督，可以提升它对人们的帮助。

其实AI的安全不仅仅是研究者的责任，它需要每一个人的参与。

以B站为例，这个充满活力的社区聚集了众多AI爱好者和创作者，我们在这里分享见解、讨论问题，甚至监督AI的表现，共同影响着AI的成长。

我们每个人都应该成为AI的大家长，不仅监督和反馈AI的表现，还参与塑造一个安全可信的人工智能世界。

AI技术是一个双刃剑，它带来了便利与挑战并行，我们的参与至关重要。让我们携手培养出一个既聪明又负责的AI伙伴。

感谢大家的聆听，希望今天的分享能激发大家对于安全的热情和兴趣。也感谢B站提供这个平台，让我们共同为AI的未来贡献力量。

新聞

OpenAI安全大佬，华人科学家翁荔B站首秀！人类如何培养出下一代聪明且安全的AI技术

1.AI安全的强化学习

2.对齐——AI模型的“紧箍咒”

程序员职业发展中要避免的11大误区

2025年及以后CIO需要关注的七个趋势