NLP 进展的五个阶段

date
Aug 23, 2023
slug
20230823
status
Published
tags
沉思录
summary
NLP 指的是 Natural language processing 自然语言处理,人工智能要理解世界、与人交互,都依赖自然语言,而不是机器语言、编程语言。
type
Post
▎NLP 进展的五个阶段
NLP 指的是 Natural language processing 自然语言处理,几乎是人工智能领域最重要的课题之一。人工智能要理解世界、与人交互,都依赖自然语言,而不是机器语言、编程语言。ChatGPT、Midjourney 乃至 Stable Diffusion 这些工具的使用,也主要依赖关键词(prompts),而不是复杂的参数和设置,这让门槛大大降低。
而对于 NLP 来说,跟大部分的机器学习类似,机器掌握自然语言交流和理解的能力,源于两点:
  • 统计算法和计算性能
  • 海量的数据
从当下的进展来看,第二点因素是影响 NLP 进展更重要的因素。
Yonatan Bisk 是 CMU 的教授,他领衔的这篇论文认为,通过获得数据情况的阶段变迁,也就能检视目前 NLP 发展阶段的变迁。
他认为,分为五个主要的层次,称之为 World Scope,即当前这个世界所覆盖的范围广度:
  • WS1: 语料库
  • WS2: 互联网
  • WS3: 感知(多模态)
  • WS4: 具身(Embody)
  • WS5: 社会
▎WS1: 语料库
从上世纪 70 年代开始,语言学哲学领域就出现了对词汇和语义的分析,构成了 NLP 的基础。直到 90 年代后,有的学者引入了神经网络实验,验证了用统计方法可以得到上下文的语义。而到了 2003 年,无监督的隐马尔可夫模型得到运用,意味着可以不设置大量的规则、不探讨复杂的语义结构,就可以得到抗洪的效果。其中无监督的意思即并不需要训练数据,也就是不需要大量的标注。
在后期深度学习的处理中,更是变成黑盒(之前多期都提到过这点),意义的表征变得不重要。或者说,经过深度神经网络的学习后,数据与数据之前的关联变成了意义,是一种分布式的意义,cat 与 dog 接近,apple 与 sweetness 接近等等。
无论是哪种学习方法,数据即语料当然是最关键的部分,于是科学家们会自己搜集预料。经典的语料库包括 Brown Corpus 和 Penn Treebank。很多实验也是围绕这些特有的语料库进行的。
▎WS2: 互联网的书写世界
刚刚讲到的时间点是 21 世纪初,显然,互联网横空出世了,带来的是意想不到的巨大海量数据。这些数据是非结构的、无标签的、多领域的、多语言的,大幅扩大了 World Scope。几乎人类曾写过的内容,都放置在这里了。
这些语料虽然没有单独搜集的更有条理(结构化),但它们实在太壮阔,让无监督学习能够自行发现很多意想不到的、多个领域之间深度关联,并且成功对知识迁移应用。
在 2013 年,Mikolov 的训练模型已经有了 16 亿个 tokens,到 2014 年 Common Crawl 提升到了 8400 亿个 tokens。规模之外,参数量也在迅速提升,2018 年的 ELMo,有 10(8) 个参数,Transformer 模型持续扩大参数量,有的模型到了 10(11) 个参数。这里可以回想一下,ChatGPT 的参数是 1750 亿,即 17.5(10)个参数。
这种大规模的数据,让新的模型以「超人的准确性」占据了各种排行榜。
不过这种边际收益正在递减。主义的几个数据集模型,LAMBADA、GPT2、MegatronLM、TuringNLG 等,互相之间的差异仅在几个点,基本都维持在 68% 的准确性之下。而 GPT3(没错,论文写时已经出现了),获得了很惊人的出色准确率,但也在 75% 左右,尚有 25% 没有解决。
在新的语料规模下,模型可以强有力地捕捉概念含义、尤其是单词之间的感性联系,和句子之间的推理关系。不过在某些需要经验判断的长尾问题上,还是捉襟见肘。
这些长尾的问题,需要学习上下文来解决。而上下文的学习,用多模态的交互形式,是非常合适的。
▎WS3: 多模态的视听世界
科学家们很早就发现,跟人类相比,人工智能的信息输入是有瓶颈的。儿童有感觉知觉,我们从小的语言学习,往往不是从语法结构开始的,更多是耳濡目染,通过听觉、触觉和视觉做输入。比如,一个东西是软的还是硬的,这种物理的、抽象的意义,就能通过触觉完成。
计算机视觉的进步在这些年也相对显著。 Mottaghi 等人对图像中作用于物体的力进行预测,Bakhtin 等人把物理推理扩展到了因果关系的复杂问题之上。Sun 等人对脚本和动作进行了建模。Bachman 等人开启了自动概念的生成研究。
计算机视觉与自然语言相关的交叉应用还有嗯多。如自然语言和视觉推理、视觉常识、视频生成多语言字幕等等。如果有关视觉和语言的数据量足够丰富,实际上也不需要预训练,直接可以训练大量的多模态的翻译器。多模态可以理解为不同模态之间的交互,比如图像转文字、语音转文字等。
目前计算机视觉的发展,让我们可以对大量的物体、场景和个人进行分类和特征识别。
在某些问题上,WS3 的 agent 可以从现实世界中更好地做出判断。比如分析大量的视频数据,里面有来来回回的车辆进出细节、发生的各种细微的事件,就能消除 WS2 只分析文本所带来的偏见,从而更好地回答这个问题:这辆车能通过这个隧道吗?
不过 WS3 中的 agent,还是只能从历史数据里做推测。如果是一个全新的问题,比如「陶瓷材质,还是纸的材质,做飞盘更好?」就没有办法分析。验证假设是做不到的。
▎WS4:具身和行动
就像儿童具备多模态的感知,同时也具备与环境交互的能力,人工智能也需要与环境交互的能力,来充分把语言与现实世界结合起来。科学家们做过很多尝试,如在虚拟世界中的二维迷宫、三维世界、虚拟房间等,也在真实世界有很多测试。
这样机器就可以主动学习和理解世界了,当然也要取决于具身的程度,比如就有对肌肉进行刺激的研究(Thomason 等人)。
对于「橙子更像棒球还是更像香蕉」这样的问题,WS1 很可能没有答案,因为作为常见的名词它们都可以被拿着;WS2 可能会初步判断,橙子和棒球都会滚动,但并不知道它们的变形强度、表面纹理和相对大小;WS3 可能意识到它们常见的相对变形情况,不过它可能理解不到对棒球施加的力往往是很大的;WS4 则可以理解到中间的细微层面——橙子和棒球有相似的质地和重量,而橙子和香蕉都含有果皮,会变形,且可以食用。正如人类就可以对这些丰富的特征进行推理一样。
By the way,对于这个问题,我还提问了 ChatGPT,它是这么回答的:
notion image
在具身之后,WS4 还可以让机器能够概括更多「前语言阶段」的概念。比如,想要表达远方的事物跟我们当下无关时,我们有多种表达方式:远水解不了近渴;车到山前必有路。
在近几年,有两方面取得了巨大的进步:
  • 机器人的高保真模拟器(Todorov、Coumans、NVIDIA、Xiang 等)
  • 硬件成本的下降及可用性提升(Fitzgerald、Campeau Lecours、Murali 等)
NLP 的学者们应该跟这些进展尽快适配。
▎WS5: 真实社会
人际交流很早之前就是自然语言的基础用例,Interpersonal dialogue(人际对话)这个词的出现比人工智能还要早。
哲学家维特根斯坦认为,社会功能是语言意义的来源,语言本身就是实践的,而不是抽象的理论。因此,在经历了 WS1 到 WS4 的发展之后,应该进入最终极的阶段——to generate language that does something to the world.(创造能对世界有价值的语言)
为了学习能对世界产生价值的语言,要涉及到各种语言活动,如谈判、合作、视觉消歧、提供情感支持等。 这些活动要对精神状况和社会现象进行感知。
一个词语在不同的社会语境下代表的就是不同的含义,一个词的信号需要主动去实验,才能学习。有学者也做过能做主动语言实验的聊天机器人的效果对比,很显著。
对于考虑他人的感受和知识状况的能力,被称为 Theory of Mind 心智理论,这也是一个研究的课题,并不是单向的,而是被称为 Speaker-Listener 模型。在 WS1-WS4 的阶段,尽管复杂又庞大,但模型无法提供差异化的信号,因此是假设对方的身份或心理状态是一致的。新的模型则需要训练区分潜在的标签,通用的神经网络无法考虑到人、事件和因果关系,因而无法不存在偏见。其次,目前的交叉熵训练方法,会让长尾的数据淹没,从而没办法做出真实如人的决策。
要真正让机器学习以上真实社会的知识经验,就需要让机器真正参与大量的社会互动,用户自由与其聊天。说到这里,的确很像 ChatGPT 正在做的事情。
▎最后
总结起来这几个阶段,我们仍然处于第二阶段,即用互联网的文本信息为主的时期。
这里引用了哈工大自然语言研究中心的内部一份材料里的制图,可以更清晰地看到 Wolrd Scope 的情况:
notion image
世界还在快速变化,论文写于 2020 年,里面没有提到的一些变化至少就包括:
  • ChatGPT 的兴起,让 WS5 率先实现了一部分;
  • GPT 的底层,已经能够非常非常低门槛地接入各种实际场景,为 WS3-WS5 做准备;
  • 微软发布的最新论文《Language Is Not All You Need》,验证了多模态(可视化内容与音频)接入 ChatGPT 的可行性,并且开源了一个版本;
  • 介入真实使用场景的 Notion AI 等工具已开始流行;
  • Toolformer 这样的工具辅助也有遍地开花的进展,我们很快就能用上智能控制的 Excel 和 Photoshop,这盛世,如老罗所愿。
让我们期待接下来的变化吧。
 
 
 


© nabin 2024