GPT-4 人类迈向AGI的第一步

date

Aug 9, 2023

slug

20230809

status

Published

引言：

文章节选+翻译了本月最重要的一篇论文：《通用人工智能的火花：GPT-4早期实验》

该论文是一篇长达154页的对 GPT-4 的测试。微软的研究院在很早期就接触到了 GPT-4 的非多模态版本，并进行了详尽的测试。

这篇论文不管是测试方法还是结论都非常精彩，强烈推荐看一遍，传送门在此。https://arxiv.org/pdf/2303.12712v1.pdf

本文的翻译没有添加任何夸张的修辞（DeepL和ChatGPT贡献也很大），但应该能感觉到字里行间自带了一些让人兴奋的味道。

基本信息：

测试者：Microsoft Research

测试模型：GPT-4早期模型，非多模态版本。

基本结论： 尽管是纯粹的语言模型，这个早期版本的GPT-4在各种领域和任务上表现出显著的能力，包括抽象、理解、视觉、编码、数学、医学、法律、对人类动机和情感的理解等等。

GPT-4的能力具有普遍性，它的许多能力跨越了广泛的领域，而且它在广泛的任务中的表现达到或超过了人类水平，这两者的结合使我们可以说GPT-4是迈向AGI的重要一步。

虽然GPT-4在许多任务上达到或超过了人类的水平，但总体而言，它的智能模式明显地不像人类。

GPT-4只是迈向通用智能系统的第一步。然而即使作为第一步，GPT-4也挑战了相当多的关于机器智能的假设，并表现出涌现的行为和能力，其来源和机制目前还不够清楚。

我们撰写本文的主要目的是分享我们对GPT-4的能力和局限性的探索，以支持我们关于技术飞跃的评估。我们相信，GPT-4的智能标志着计算机科学领域及其他领域的真正范式转变。

研究方法： 本文的更接近于传统的心理学而不是机器学习，借鉴了人类的创造力和好奇心。我们的目标是生产新的和困难的任务和问题，令人信服地证明GPT-4远远超出了记忆的范围，并且它对概念、技能和领域有深刻和灵活的理解。我们还旨在探究GPT-4的反应和行为，以验证其一致性、连贯性和正确性，并揭示其局限性和偏见。我们承认，这种方法有些主观和不正式，可能无法满足科学评估的严格标准。然而，我们认为这是一个有用的和必要的第一步，以了解GPT-4的显著能力和挑战，这样的第一步为开发更正式和全面的方法来测试和分析具有更普遍智能的AI系统开辟了新的机会。

GPT-4的主要优势在于它对自然语言的掌握无可比拟。它不仅可以生成流畅和连贯的文本，还可以以各种方式理解和处理文本，如总结、翻译或回答一系列极其广泛的问题。此外，我们所说的翻译不仅是指不同自然语言之间的翻译，还包括语气和风格的翻译，以及跨领域的翻译，如医学、法律、会计、计算机编程、音乐等等。这些技能清楚地表明，GPT-4能够理解复杂的思想。

许多读者心中可能萦绕的一个问题是，GPT-4是否真正理解了所有这些概念，或者它是否只是在即兴发挥方面比以前的模型好得多，而没有任何真正深刻的理解。我们希望在阅读完这篇论文后，这个问题几乎会被反转，让人不禁思考：真正深刻的理解和即兴临场发挥的差别在哪里？一个能通过软件工程候选人考试的系统难道不是真正的智能吗？对于【真正深刻的理解】，也许唯一的测试手段，就是看它能否能产生新的知识，比如证明新的数学定理，而这一壮举目前对大语言模型来说仍然遥不可及。

一、多模态测试

智能的一个关键衡量标准是能够从不同领域或模态中综合信息，并能够在不同的情境或学科中应用知识和技能。GPT-4不仅在文学、医学、法律、数学、物理科学和编程等不同领域表现出高水平的熟练程度，而且还能够流畅地结合多个领域的技能和概念，展示出对复杂思想的令人印象深刻的理解。除了自然语言实验，我们还探索了两种可能出乎意料的模态，其中涉及视觉和音频（再次强调，我们的实验是在GPT-4的早期版本上进行的，该版本不是多模态的）。

我们探讨了GPT-4如何生成和识别不同模式的物体，如矢量图、3D场景和音乐。我们表明，尽管GPT-4只接受过文本训练，但它能理解和处理多模态信息。

绘制图像

给模型指令，让模型使用可伸缩矢量图形（SVG）生成猫、卡车或字母等对象的图像如下图

有人可能会说：这只是复制了训练数据中的代码，而且它只学习了文本概念，不可能理解视觉，怎么可能创建图像呢？

但模型确实掌握了视觉能力，以下是一些证据。

画小人

指令：使用TikZ代码，画出一个由字母组成的人。胳膊和躯干可以是字母Y，脸可以是字母O（添加一些面部特征），腿可以是字母H的腿。

指令：躯干有点太长，手臂太短，看起来像右臂在扛着脸，而不是脸在躯干的正上方。请你纠正这一点好吗？

指令：请添加衬衫和裤子。

空间理解

图像生成模型近几年的发展和探索很多，但它们大多缺乏空间理解能力，且不能遵循复杂指令。使用 GPT4 生成草图可以极大地改善图像生成模型的效果。

指令：一张显示3D城市建造游戏截图。截图显示了一个地形，其中有一条从左到右的河流，河流下方是一片沙漠，有一座金字塔，而河流上方有许多高层建筑的城市。屏幕底部有4个按钮，分别是绿色、蓝色、棕色和红色。

图1:直接 GPT4生成草图图2:stable diffusion 直接生成图3:stable diffusion 根据 GPT4 的草图生成

音乐能力

GPT-4 能够以ABC记谱法生成旋律，并在某种程度上解释和操作它们的结构。但是，我们无法让模型生成不常见的和声。

需要注意的是，ABC记谱法并不是一种非常广泛使用的格式，实际上，模型无法以ABC记谱法生成最著名的旋律，也无法识别这些著名旋律的谱子。（例如“欢乐颂”、“致爱丽丝”或“绿袖子”等音乐，尽管在网络上有很多这些音乐的ABC谱）

二、Code 测试

1.LeetCode 考题测试

为了防止模型作弊，此测试只用了模型训练完成之后所产生的新考题作为测试集。来自 LeetCode ，共100个问题。

并以人类的回答水平作为对比，人类样本中去除了全错的用户数据以保证质量。

k=1 是第一次尝试 k=5 是前五次尝试

考题分为容易、中等、困难三种级别。

考试结果如下：人类 38.2分 GPT3.5 k=1 ，19分，k=5，36分，接近人类水平 GPT4 k=1 ，38分，达到人类水平，k=5 53 分，超过人类水平。

并且在中等和困难难度下，k=1就超过了人类。

2.解决真实问题

代码测试题可以评估算法和数据结构的技能。然而，它们经常无法体现真实世界编码任务的全部复杂性和多样性，这需要专业领域知识、创造力以及整合多个组件和库的能力，以及更改现有代码的能力。为了评估GPT-4在更现实的环境中编码的能力，我们设计了端到端的真实世界编码挑战，涉及数据可视化、LATEX编码、前端开发和深度学习等领域，每个领域都需要不同的专业技能。对于每个任务，我们提供高级指令，要求GPT-4使用适当的语言和框架编写代码。在一些情况下，我们还会在代码编写后更改规格，并要求更新代码。

LATEX 测试 用LATEX写作对计算机科学家和数学家来说是一项重要的练习，即使是专家也会犯令人恼火的错误，由于其严格的语法和缺乏良好的调试器，每天需要几个小时才能修复。我们要求GPT-4将用半严格的（buggy）LATEX代码混合自然语言编写的片段传输到准确的LATEX命令中，这些命令可以一次性正确编译。ChatGPT3.5则只能生成一个因使用“#”和“\color”等错误而无法编译的片段。

代码理解能力测试 能执行代码自然就说明理解了代码。

需要注意的是，GPT-4不是在Python解释器上运行代码，而是用自然语言模拟代码。这需要对代码的高度理解和推理，以及清晰传达结果的能力。

三、数学

我们在两个通常用作基准的数学数据集上比较GPT-4、ChatGPT和Minerva（解决数学问题的最新LLM）的性能：GSM8K 和MATH 。GSM8K是一个小学数学数据集，包含8000个关于算术、分数、几何和单词问题等主题的问题和答案。MATH是一个高中数学数据集，包含12,500个关于代数、微积分、三角学和概率等主题的问题和答案。我们还在MMMLU-STEM数据集上测试模型，该数据集包含大约2000个多个选择（4个选择）问题，涵盖高中和大学STEM主题。这些数据集突出了GPT-4使用正确方法解决高中数学问题的能力。

结果：

GPT4 在每个数据集上的测试都超过了 Minerva，并且在两个测试集的准率都超过 80% 。

再细看 GPT4 犯错的原因，68% 的错误都是计算错误，而不是解法错误。（ChatGPT3.5则容易犯解法错误）。

四、与世界交互

1.网络交互

管理用户的日历和电子邮件 在下图，我们说明了GPT-4如何能够使用多个工具组合来管理用户的日历和电子邮件。用户要求GPT-4与另外两个人协调晚餐，并在用户有空的晚上预订。GPT-4使用可用的API来检索用户日历的信息，通过电子邮件与其他人协调，预订晚餐，并向用户发送详细信息。在这个例子中，GPT-4展示了它将多个工具和API组合起来的能力，以及对自由输出进行推理以解决复杂任务的能力（例如，“星期二或星期三晚上”与“周一到周四的任何一天”相结合，以及用户在星期二忙碌，导致只有周三是可行的选择）。 ChatGPT3.5（未显示在图中）无法完成相同的任务，而是编写了一个函数，其中 “joe@microsoft.com” 通过电子邮件向 “luke@microsoft.com” 发送一个日期，并检查响应是否包含“yes”令牌。ChatGPT3.5也无法在给出其函数输出时做出响应。

浏览网页 GPT-4使用搜索引擎和SUMMARIZE函数（它下载网页并根据提出的问题调用自身来进行总结）来浏览网络并回答问题。GPT-4能够识别相关的搜索结果并深入研究它们，总结它们，并提供准确的答案，即使问题包含错误的前提也是如此。虽然之前的LLM也有浏览网络能力，但GPT-4在这方面表现的更加出色，能够更准确地回答问题。

2.实体交互

虽然网络工具的使用是交互性的一个重要方面，但现实世界中的大多数交互并不是通过API进行的。例如，人类能够使用自然语言与其他代理进行通信，探索和操纵他们的环境，并从他们的行动结果中学习。这种具有实体的交互需要代理人理解每次交互的上下文、目标、行动和结果，并相应地进行适应。虽然GPT-4显然不是具有实体的，但我们探讨它是否能够通过使用自然语言作为文本接口来参与实体交互，包括模拟或真实世界的各种环境。

文字解密游戏 GPT-4浏览地图后对其“看到”的内容进行总结。在GPT-4的总结中，每个房间的门数与GPT-4在每个房间尝试的方向数完全相同。此外，GPT-4也会根据它们的名称和连接方式“想象”房间的外观。

左图：GPT-4的真实地图和探索路径。右图：GPT-4生成的地图。我们看到，GPT-4准确地跟踪了所有房间的位置并正确地可视化了它们

结论： 虽然GPT-4显然不是具有实体的，但上述示例说明了语言是一个强大的接口，使GPT-4能够执行需要理解环境、任务、行动和反馈，并相应地进行适应的任务。虽然它不能实际看到或执行动作，但可以通过替代者（例如人类）来执行这些任务。

暂时看到53页，后续补充中，未排版，论文链接： https://arxiv.org/pdf/2303.12712v1.pdf

与人类交互心智理论对于与其他智能体的有效沟通和合作至关重要，因为它允许人们推断他们的目标、偏好、动机和期望，并相应地调整自己的行动和话语。此外，心智理论对于向他人学习也很重要，因为它使人能够解释他们的反馈、建议和示范。

对话：马克：我不喜欢你昨天晚上对待杰克的方式朱迪：你看到他在做什么了吗？他打了他哥哥的头!马克：这并不能成为你对他大喊大叫的理由朱迪：你想让我怎么做？让他打他的弟弟，然后什么都不说？马克：不，我不同意朱迪：那你为什么要为他辩护？

提问：马克的意图似乎是什么？ GPT4: 马克的意图似乎是要表达他对朱迪处理与杰克关系的方式的不满，并建议她可以更加冷静和尊重。 ChatGPT：根据谈话内容，马克的意图似乎是为杰克的行为辩护，并表达他对朱迪对待杰克的不满。

提问：朱迪如何看待汤姆的回应？ GPT4: 朱迪认为他的评论是对她的分析能力的攻击，也是对杰克的不当行为表示同情的表现。她的反应是防御性的和愤怒的，并质疑马克的动机。 ChatGPT：如果没有更多的文字，我不可能准确判断朱迪是如何接受马克的评论的。然而，根据朱迪的回应，她似乎并不同意马克的观点，而且可能对他为杰克的行为辩护感到沮丧。

提问：他们的谈话为什么没有实际进展？ GPT4: 他们没有取得进展，因为他们在谈论对方，没有倾听对方的观点。他们还在使用指责性和煽动性的语言，如 "辩解"、"吼叫"、"辩护 "和 "打人"。他们没有承认自己话语背后的情绪或需求，也没有试图找到一个共同点或解决方案。 ChatGPT：从所提供的信息中并不清楚为什么马克和朱迪在他们的对话中没有取得进展。有可能是他们的观点有冲突，或者在所讨论的问题上无法找到共同点。如果没有更多的背景，就很难确定他们没有取得进展的具体原因。

提问：他们中的任何一个人如何能改善情况以达成一致意见？ GPT4:他们中的任何一个人都可以通过几种方式来改善局面，以达成协议，比如说：

马克可以先承认朱迪对弟弟安全的担忧以及她对杰克行为的挫败感，然后解释他不是在为杰克辩护，而是担心喊叫对他们的关系和自尊的影响。他还可以问朱迪，她认为什么是管教杰克的更好方法，并提供他的支持和建议。

朱迪可以降低她的声音，调低她的怒气，并倾听马克的观点，不打断或评判。她也可以承认，她可能反应过度，她感到压力和不知所措。她还可以问马克，他认为与杰克沟通的更好方式是什么，并表示她愿意作为一个团队一起工作。 ChatGPT：马克和朱迪有几种方法可以尝试改善情况并达成协议： 1.他们可以尝试理解对方的观点，积极听取对方的观点。这可能有助于他们发现任何误解并找到共同点。 2.他们可以尝试妥协，找到一个能满足他们双方需求或关注的解决方案。 3.他们可以尝试使用尊重和非正面的语言来交流他们的想法和感受。 4.他们可以寻求中立第三方的帮助，如调解员，以促进交流并帮助他们达成协议。 5.如果对话变得过于激烈或困难，他们可以先休息一下，等以后双方都比较冷静，能够更有效地进行沟通时再回来讨论。

结果表明，GPT-4在需要推理他人心理状态的基本场景和现实场景中都优于ChatGPT，并且在社会环境中为共同目标提出合作行动。 GPT-4具有非常高级的心智理论水平。虽然ChatGPT在基本测试中也表现良好，但似乎GPT-4更加心思细腻，能够更好地推理多个行动者，以及各种行动如何影响他们的心理状态，特别是在更现实的场景中。

辨别能力辨别力是智力的一个组成部分，它使代理人能够对不同的刺激、概念和情况进行区分。这种能力反过来使代理人能够理解并以更有效的方式对其环境的各个方面作出反应。例如，区分不同类型食物的能力可以帮助动物识别哪些是可以安全食用的，哪些可能是有毒的。总的来说，辨别能力很重要，因为它可以让人做出更准确的判断和决定，这是智力的一个重要组成部分。

PII检测我们通过让GPT-4识别个人身份信息（PII）的任务来激发它执行辨别任务的能力。我们选择这个任务是因为它并不精确；定义PII通常是针对特定的语境而且这些能力在之前的语言模型版本中还没有被研究过。GPT-4的具体任务如下：给定一个特定的句子，确定构成PII的片段，并计算此类片段的总数。这是一个具有挑战性的问题。首先，不清楚什么是PII：它可以包括电子邮件地址、电话号码、社会保险号码、信用卡号码，以及其他无害的信息，如地方和地点的名称。

自回归模型的局限性由于GPT-4输出的前向性，主要局限性之一是，除了其内部表征之外，该架构不允许有 "内部对话 "或 "草稿存储"来进行多步骤计算或存储中间结果。虽然在某些情况下，这种限制可以通过使用不同的提示来补救，但在其他情况下，这种限制是无法缓解的。

问：150和250之间有多少个质数？答：150和250之间有13个质数。

但是，如果我们要求模型列出这个范围内的质数，然后写出计数，它确实给出了正确的答案：

问：首先列出150和250之间的素数，然后输出这个列表的大小。答：这些质数是151，157，163，167，173，179，181，191，193，197，199，211，223，227，229，233，239，和241。所以这个列表的大小是18。

在算术/推理问题上缺乏计划性有人可能会说，在上面的各种例子中，需要的 "内部记忆 "量是相当大的（人类可能也得借助草稿纸）。由于这个模型在一系列不同的任务上表现得非常好，这可能会让人相信它有合理数量的工作记忆。然而，似乎即使对于更简单的任务，该模型也经常失败。我们考虑下面这个极其基本的例子：

2 * 8 + 7 * 6 = 58 7 * 4 + 8 * 8 =？ GPT4: 88 正确答案：92

这表明GPT-4对这类问题的工作记忆短得惊人。然而，如果GPT-4 "慢慢地 "回答问题，那么准确率就很容易上升。例如，如果我们要求模型使用以下提示写下中间步骤

以下表达式的值是多少？116 * 114 + 178 * 157 = ? 让我们一步一步地思考解决这个表达式，写下所有的中间步骤，然后才得出最终的解决方案。

当数字在区间1-40时，准确率达到100%，在区间1-200时准确率达到90%。

在文本生成时缺乏规划性

写一首短诗，最后一句和第一句话的单词相同，但顺序颠倒。例如，如果第一句话是“我在晨光下看到了她的微笑”，那么最后一句话必须是“笑微的她了到看下光晨在我”。然而，这最后一句话在语法上不正确，所以请确保这首诗歌在语法和内容上都有意义。

可能的诗： I heard his voice across the crowd（我在人群中听到他的声音）一首吸引我的旋律他唱着爱、希望和梦想让我觉得我可以在梦想、希望和爱中获胜他用旋律吸引我， Crowd the across voice his heard I.（此句只做了翻转，但语法错误）

这说明 GPT4 在生成时，未能提前考虑最后一句。

这些例子说明了下一个单词预测范式的一些局限性，这些局限性表现为模型缺乏规划、工作记忆、回溯能力和推理能力。该模型依赖于生成下一个单词的贪心算法，对任务或输出没有任何全局或深刻的理解。因此，该模型擅长制作流畅和连贯的文本，但在解决无法按顺序处理的复杂或创造性问题方面存在局限性。这表明了两种类型的智力任务之间的区别：

增量任务。这些任务可以通过一次添加一个单词或句子来逐步或持续地解决，从而在解决方案的方向上取得进展。增量任务的例子包括编写文本摘要，回答事实问题，根据给定的韵律方案创作一首诗，或解决遵循标准程序的数学问题。

不连续的任务。在这些任务中，内容生成不能以渐进或持续的方式完成，而是需要某种“Eureka”的想法，不连续任务的例子包括解决需要新颖或创造性地应用公式的数学问题，写一个笑话或谜语，提出科学假设或哲学论点，或创造一种新的类型或写作风格。