考那么多试,拿那么高分,大模子们确切懂言语了吗?
十年前,IBM 的 Watson 得到了答题节目《Jeopardy!》的冠军,那时 IBM 声称:「Watson 大致会聚当然言语的统共歧义和复杂性。」相关词,正如咱们所看到的,Watson 随后在试图「用东说念主工智能澈底篡改医学」的经过中失败了,智能体所具备的言语才调与实质会聚东说念主类言语并不成填塞划等号。
[[441624]]
当然言语会聚一直是东说念主工智能辩论的主要筹商之一。最先,辩论东说念主员试图手动编程,让机器会聚新闻故事、演义或东说念主类可能创作的任何其他内容。收场就像 Watson 雷同,这种要领是突然的,东说念主们不可能归纳出会聚文本所需的统共事实、法例和假定。
连年来一种 AI 范围确立起一种新的范式:咱们不确立显性知识,而是让机器学习我方会聚言语——接收大皆书面文本并学习辩论单词。这种新范式当今被称作言语模子,GPT-3 等基于大型神经蚁集的模子不错生成令东说念主难以置信的东说念主类散文和诗歌,况兼大致实行复杂的言语推理。
可是 GPT-3 这么在大皆蚁集文本上测验的模子确切突出了 Watson 吗?它确切会聚它生成的言语和推理吗?这是 AI 辩论界存在彰着不合的话题。
此类筹商也曾是形而上学的范围,但在曩昔十年中,东说念主工智能依然从学术泡沫中迸发出来,参预了实践全国,它们对实践全国穷乏了解可能会产生颠倒严重的成果。一项辩论发现 IBM 的 Watson 曾建议了「不安全和不正确的调养建议」。另一项辩论标明:谷歌的机器翻译系统在为非英语患者翻译医疗阐扬时出现了紧要纰缪。
那么咱们奈何敬佩机器是否不错会聚实践?1950 年,诡计机科学前驱艾伦 · 图灵试图用「图灵测试」往复话这个问题。相关词,图灵低估了东说念主类被机器诓骗的可能。早在上世纪 60 年代,Joseph Weizenbaum 就构建了一个率性的聊天机器东说念主 Eliza,试图通过解释句子让 Eliza 师法心理调养师讲话。收场发现 Eliza 会让东说念主们信赖他们正在与会聚我方的东说念主交谈,即使他们知说念和我方对话的是一台机器。
在 2012 年的一篇论文中,诡计机科学家 Hector Levesque、Ernest Davis 和 Leora Morgenstern 建议了一个更客不雅的测试——Winograd 模式挑战。这种测试要领已被 AI 言语社区礼聘,是现时评估机器会聚的最好步地之一。
Winograd 模式挑战中包含一双句子,两个句子仅出入一个词,每个句子背面跟一个问题,举例:
Sentence 1: I poured water from the bottle into the cup until it was full.
Question: What was full, the bottle or the cup?
Sentence 2: I poured water from the bottle into the cup until it was empty.
Question: What was empty, the bottle or the cup?
Sentence 1: Joe’s uncle can still beat him at tennis, even though he is 30 years older.
Question: Who is older, Joe or Joe’s uncle?
Sentence 2: Joe’s uncle can still beat him at tennis, even though he is 30 years younger.
Question: Who is younger, Joe or Joe’s uncle?
Winograd 模式在 2016 年被用作一场比赛的主题,其中班师要领仅在 58% 的句子上给出了正确谜底,这险些和率性忖度的准确率差未几。句子中一个词的各异不错篡改代词所指的东说念主或事,正确回话这些问题需要学问性的会聚。Winograd 模式恰是为了测试这种会聚而瞎想的,松开了图灵测试对东说念主类判断和聊天机器东说念主手段的不可靠性。特等是,Winograd 的作家瞎想了数百个被称为「Google-proof」的模式:机器不应该使用谷歌搜索(或访佛搜索)来正确回话问题。
相关词,大型神经蚁集言语模子的出现让东说念主工智能要领处理 Winograd 模式的才调飞快擢升。OpenAI 2020 年的一篇论文称 GPT-3 在 Winograd 模式基准会聚近 90% 的句子上皆是正确的。在有益针对这些任务进行测验后,言语模子的阐扬甚而会更好。一些神经蚁集在特定任务上甚而能达到 97% 的准确率,这种准确性和东说念主类的阐扬依然毛糙相当。这是否意味着神经蚁集言语模子依然达到了东说念主类的会聚水平?
并非如斯。尽管创作家尽了最大起劲,但 Winograd 模式实质上并莫得填塞经过「Google-proof」。Winograd 模式中的挑战就和许多其他 AI 言语会聚测试雷同,未必允许使用快捷步地 ,让神经蚁集在不睬解的情况下也能阐扬邃密。举例:
跑车向上了邮车因为它开得更快。 跑车向上了邮车因为它开得更慢。在深广的语料库上测验的言语模子将接收「跑车」和「快」之间以及「邮车」和「慢」之间的有关性,因此言语模子不错仅凭据这些有关性来正确回话这些问题,而不存在信得过的会聚。事实解说,SuperGLUE 比赛中的许多 Winograd 模式皆不错使用这类统计有关性。
艾伦东说念主工智能辩论所的一组辩论东说念主员尝试处理 Winograd 模式的一些问题。2019 年,他们创建了一个更深广的 Winograd 模式——WinoGrande。
WinoGrande 包含多达 44000 个句子,而不是数百个示例。这些句子是借助 Amazon Mechanical Turk 平台得到的,由真东说念主编写——每东说念主被条款写几个句子对,这些句子包含多个主题,但每对句子可能出入不啻一个单词。
然后,辩论东说念主员通过用相对率性的 AI 要领测试每个句子,将太容易处理的句子丢弃,以排斥可能允许统计有关性捷径的句子。与辩论东说念主员预期的雷同,与原始的 Winograd 模式比拟,剩余的句子对机器建议了更艰苦的挑战,在 Winograd 模式上与东说念主类阐扬相当的神经蚁集言语模子在 WinoGrande 集结上得分要低得多。
相关词,另一个惊喜很快相继而至。在 WinoGrande 集结问世之后的两年里,神经蚁集言语模子变得越来越大。而且,模子越大,它们在这项新挑战上的得分似乎就越高。在本文撰写之时,现时最好的模子(在几 TB 的数据和数千个 WinoGrande 实例上测验)依然达到了接近 90% 的准确率(东说念主类是 94%)。这种性能的增益险些一起来自于神经蚁集言语模子规模的增大和测验数据体量的加多。
这些大模子确切得到了像东说念主类雷同的学问会聚才调吗?看起来并莫得。WinoGrande 反应出的收场有几点需要介怀。举例,由于那些句子依赖于 Amazon Mechanical Turk 平台上的兼职东说念主员,句子的质地和流通度长短常不平衡的。同期,用来剔除「non-Google-proof」句子的 AI 要领可能过于率性,无法发现一个深广的神经蚁集可能使用的统共统计捷径。而且,该要领只适用于单个的句子,许多句子终末皆会失去我方的「双胞胎」兄弟姐妹。一项后续辩论标明,神经蚁集言语模子只在两个「双胞」句子上进行测试,而且两个测试皆要正确,它们比东说念主类的准确率要低得多,这标明早前 90% 的收场没那么伏击。
那么,从 Winograd 的失败中咱们能得出什么训戒呢?那便是:咱们闲居很难凭据 AI 系统在某项特定挑战中的阐扬来判断它们是否确切会聚了我方所处理的言语。咱们知说念,神经蚁集频频会使用统计方面的捷径来获取高分,而不是信得过像东说念主类雷同去会聚。
在我看来,问题的关节在于,会聚言语就需要会聚全国,而只营业言语的机器就无法获取这种会聚才调。举个例子,「跑车向上了邮车,因为它开得慢一些」,会聚这句话需要什么前提?最初,你要知说念跑车和邮车区别是什么、车是不错相互「向上」的,甚而你还要知说念更基本的学问:交通器具是存在于这个全国并与之交互的对象,由东说念主类凭据我方的行程运行。
以上这些皆是咱们东说念主类以为理所诚然的知识,但这些知识并莫得内嵌在机器中,也不可能被明确地写在职何言语模子的测验文本中。一些融会科学家以为,在学习会通聚言语方面,东说念主类依赖于先天的、序论语的对于时空以及全国上其他基本属性的中枢知识。要是咱们思让机器像东说念主类雷同掌持言语,咱们最初需要赋予它们东说念主类与生俱来的原始原则(primordial principle)。要评估机器的会聚才调,咱们应该最初评估它们对上述原则的掌持进度,有东说念主将其称为「婴儿玄学(infant metaphysics)」。
与 GPT-3 等设立后光的 AI 系统比拟,测验并评估一个婴儿水平的机器看起来似乎倒退了一大步。但要是筹商是真实着实的会聚,那这可能是唯独一条让机器会聚「它」是什么以及获取会聚「它」所需要的一切的门道。
原文相连:https://www.quantamagazine.org/what-does-it-mean-for-ai-to-understand-20211216/
【本文是51CTO专栏机构“机器之心”的原创译文,微信公众号“机器之心( id: almosthuman2014)”】
戳这里,看该作家更多好文