“抚育”机器人的文学与语言学

计算机是怎么学会写作的呢？最近，前微软工程师、如今在哥伦比亚大学教授比较文学的丹尼斯·伊·特南（DennisYiTenen）撰写了一部“前史”——《机器人文学理论》。他想告诉人们，人工智能并不神秘，更不可怕，文学和计算机科学共享一段过去。如他自己的跨界身份所示：写作的人和工程师，一直都是同道。

17世纪，德国博学家基歇尔设计过一种数学机器——一个盒子状的设备，内有九隔室，每个隔室里装着24根以彩色三角形尖端饰尾的小棒：通过操纵木棒，可以进行简单的算术、几何和天文计算，还可用来写加密信息、设计防御工事。如果设计得再精巧一点，可以“作曲、写诗……甚至做高等数学”。但同时代的诗人奎里努斯·库尔曼认为，这部献给王公的机器只会让人鹦鹉学舌，无助于出产真知。

文字生成方面的人工智能先驱，还包括通俗小说家威廉·库克。他的《情节手册》（1928）一书，道出世上的故事不过仅仅1462种情节，最基本的只有7种。他用AB代号来表示人物，让这本书看起来简直像一部代数教程。有些情节实在是太古怪了。如情节227：“B无法与A结婚，因为她的父亲F-B在一项科学实验中使用B作为实验对象，在她的血液中注入毒剂。”但离奇并不影响这部书的一纸风行，据说希区柯克也读过。小说和电影都有公式化的情节构思，这部书能让人强烈直观地感受到情节是如何运作，刺激观者的神经。在文学理论中，类似的拆分组合后来还有一系列更高深的操作——“俄国形式主义”。

回到科学世界。20世纪初，俄罗斯数学家安德雷·马尔可夫对普希金长诗《尤金·奥涅金》中字母序列的概率分析构成了生成式人工智能的基本组成部分。到了六十年代，语言学家乔姆斯基曾试图教原始计算机学会英语语法，但没有成功。然而短短数十年，计算机学习模型突飞猛进。工业时代，自动化替代的是鞋匠和裁缝的劳作，今天这个命运已然落到了作家、医生、律师、程序员等等“脑力劳动者”的头上。不过，特南认为，这些工种固然被颠覆，但也把这些劳动者们从重复的事实中“解放”出来，可以“用更具创造性的任务挑战自己”——无论如何，不能放弃对创作过程的掌控。

“我们说机器思考、说话、解释、理解、写作、感觉等等，都只是类比。”特南说，所有这些描述人类行为的词，用到机器身上的时候都应该打个引号。也因此，他的书多围绕语言问题展开。是语言让我们能够相互交流和理解，但它也会造成误解和欺骗。还有一个问题，是“程序生成的文本可以合乎语法，但可能并不总是合乎逻辑”。拿乔姆斯基著名的例子来说：“无色的绿色思想疯狂地沉睡。”任何在现实世界生活过的人都知道，这个语法上完美无缺的句子是无稽之谈。特南一直强调“生活经验”的重要性，只有生活经验才能描述我们的境况，而它也只存在于人类尺度，是人类创造性的源泉，也是抵御所有技术风浪的压舱石。

另外重要的就是逻辑。如计算机科学家斯蒂芬·沃尔弗拉姆在《这就是ChatGPT》中所说，虽然GPT会生成诸如“好奇的电子为了鱼吃蓝色的理论”这样毫无意义的句子，但是随着数十亿个有意义的句子对GPT的训练，它会发展出逻辑——他开玩笑说也就是亚里士多德“机器学习式”地研究大量修辞学例子发现的三段论逻辑——从而产生包含“正确推理”的文本。在这里，大规模也是一大要素。拥有1750亿个神经网络，可能已经接近人脑的思维方式了。今天的科学家也不知道为什么这样可行，就像我们至今也没法彻底明白人脑如何运作一样。“但是我强烈怀疑有一个更简单、更有力的故事。”沃尔弗拉姆说，“像数学物理一样简单”。他认为Chat-GPT的成功很可能暗示了一个重要的“科学”事实：“有意义的人类语言实际上比我们所知道的更加结构化、更加简单，最终可能以相当简单的规则来描述如何组织这样的语言”。