智东西3月25日报道,最近,中国人民大学高瓴人工智能学院十几位老师为了Sora掐起架来了!
事情要从春节假期说起。OpenAI发布视频生成模型Sora后,学院好多老师睡不着觉了,正巧赶上内部述职会,大家讨论得愈发激烈,院长文继荣看热闹不嫌事大,拍板说既然内部已经开始闹分裂了,干脆把过程公开化。
于是在上周,高瓴人工智能学院举办了一场长达2个半小时的AI学术思辨系列讲座,在刘勇准聘副教授主持下,学院宋睿华、魏哲巍、徐君、孙浩、许洪腾、陈旭、李崇轩、黄文炳、林衍凯、张骁、毛佳昕、沈蔚然等十余位教师激情对线,掐架互怼,各抒己见,进行了一场既好玩又能引人深思的精彩辩论。
讲座包含了两个学术报告和两个辩论议题。两大议题都是Sora和视频生成模型的关键问题:1、智能还是伪装,Sora到底懂不懂物理世界?2、纯数据驱动路线能不能实现通用人工智能?
以下是精华整理:
一、Sora取得了什么突破?带来哪些“危”与“机”?
在正式开辩前,中国人民大学高瓴人工智能学院李崇轩准聘副教授科普了Sora的前生今世。
Sora是一个文到视频生成模型,能根据输入文本生成高质量、细节丰富的、前后一致的1分钟视频,并具有视频扩展、视频衔接等编辑功能。
之所以出圈,是因为它在时长、清晰度、一致性、理解能力上取得了非常大的突破。
视频生成在AI学术界非常火,特别是在2023年进展很快,国内外很多大公司和创业公司都在做,比如谷歌、百度、Runway、Stability.AI、Pika等,高瓴人工智能学院自己也孵化了一家,是卢志武教授团队创办的智子引擎。
Sora的底层逻辑是通过收集大量的视频-文本数据,对其进行压缩、分块表示、序列化,再用使用Transformer架构生成序列块后解码为视频。
其训练方式借鉴了文生图技术,通过去噪从随机噪声中生成数据;网络结构参考了大语言模型,核心技术是面向图像生成的扩散Transformer(DiT)。
Sora具备极强的可扩展性,并能够刻画世界交互行为或进行数字模拟,体现出模型的涌现性。其局限性是仍不能把握更为广泛的物理场景。
第二个学术报告是由中国人民大学高瓴人工智能学院许洪腾长聘副教授带来的,题目为《Sora带来的“危”与“机”》。
他提到由于生成式AI的加持,人们在生产和生活中将进一步实现“所思即所得”,思维成为了最核心的生产力,语言成为了最核心的生产资料。
在这一背景下,中国人民大学研究团队在大语言模型、跨模态生成、具身智能、模拟经济环境辅助决策等领域有着多方面的研究。从广义的设计、生产、治理方面而言,语言成为最核心的生产资料,人们进入了“创造力平权”时代。
但这种影响也直接导致了生成的幻象对现实世界的逼近和干扰,使得人们同时进入了“后真相”时代,将使多个领域面临新的挑战。如新闻方面将面临假新闻和社会矛盾激化的问题,司法层面需要新的证据形式和新的知识产权边界。
总之,许洪腾认为,Sora带来的科技变革会对世界秩序产生新的影响。
二、议题一:智能还是伪装,Sora到底懂不懂物理世界?
在两个学术报告后,高瓴人工智能学院正反双方激情开辩,第一个议题是“智能还是伪装,Sora到底懂不懂物理世界?”,核心观点如下:
正方黄文炳:Sora懂物理世界!
角度一:Sora生成的视频具有时间连续性、空间不变性,捕捉了光影变化,这些都与物理世界规律相符,因此Sora学到了基本物理规律。
角度二:不同于物理学规律,物理规律是指大多数人在现实生活中的直接感受,比如球从高处往低处掉,而非物理学家基于数据推导出的严谨理论。可以看到,Sora生成的绝大部分的视频都是满足日常生活中物理规律的运动。
Sora懂不懂物理世界?这里的物理世界,不是指物理学家的世界,而是大多数人懂得且能感受到的一般物理世界。
角度三:以图灵测试为例,如果无法区分被测试者是AI还是人,就代表这个AI系统具备了智能。那么只要Sora生成的东西,大家通过常理判断出来是真的、没办法区分出是人还是AI的,我们认为它就是“懂”的。
反方孙浩:正方辩友被Sora的表象欺骗了,对物理规律的理解存在偏差。
首先纠正下对物理世界的基本定义:物理世界是指自然规律和物理定律支配的空间,如守恒、对称等,包括能观察到的物质及基本运动现象,是客观存在的,如果Sora懂物理世界,那么它生成的视频必然能够准确模拟和刻画相关的规律,但目前Sora并不能做到。
其次,Sora的基本运行机制是基于扩散Transformer对视频、语言数据进行压缩,学习期分布。但基于视频和语言有限维数据生成的视频,停留在视频的表象,只能达到“逼真”的效果,离“真实”相差甚远。传统动画渲染也可以达到类似的效果,这并不能代表Sora具有模拟和理解现实世界的能力。
但我们也没法否定Sora在创作设计、视觉效果等领域的巨大潜力。
正方魏哲巍:物理学家费曼说过:“What I cannot create, I cannot understand. ”提出生成即理解的观点。从数学角度来看,这句话的逆否命题就是:我能够理解的,我就能生成。反过来看,是不是生成的就能理解呢?我认为是。
人类对物理世界的理解并不完全依赖于物理公式。比如水浪表象背后有一系列波动方程,大多数人都理解水的物理形态、波动过程,但不会懂动力学方程,也不会通过动力学方程去理解。
牛顿抽象出重力学方程的过程,是不是真的有个苹果砸到脑袋后就突然蹦出一个方程?其实不是的,他从很早之前的各种公式、论文中推导出来,绝对不是仅仅有视频就能把方程推导出来。
但从人理解物理世界的角度来说,我们跟Sora一样,所以我们认为Sora既然生成了,那么它就是理解了。
反方徐君:Sora不能理解物理世界的一个重要原因是,它企图从大量非实验数据中发现物理规律,也就是说不做实验,而是被动地观察世界。
基于统计因果中的结论“非干预,不因果”,如果不能施加干预,算法就不能发现统计因果规律;如果连统计的因果规律都发现不了,就更不要说表述物理现象因果关系的物理规律了。
所以无论是Sora还是ChatGPT,如果只是被动收集数据来训练大模型,它会被欺骗,只能学习到相关关系,而非因果关系,很难学到真正的物理规律。
人类发现物理规律的过程中,反直觉的思考和假设很重要。比如在现实生活中,按照直觉,亚里士多德的直觉观念“物体在不受力的情况下会保持静止”没什么错,但伽利略、牛顿发现了反直觉规律——物体在不受力的情况下会保持匀速直线运动。
因此,以直觉为主导的推理方法是靠不住的,基于直接观察的直觉结论并不总是可靠。Sora如果仅仅依托直觉去拟合非实验的观测数据,不引入反直觉思考,不干预世界,则发现不了真正的物理规律。
正方宋睿华:我方认为这种观点太“以人为中心”,完全错误地阐释了什么叫物理世界。物理世界不应仅限于人类能理解的范畴,无论有没有人,这个世界都是物理世界。
机器学习模型通过数据学习的过程与物理学家建立和优化模型的过程相似。机器学习有了一些模型和未知的参数,同时在现实数据上定义一个损失或者人类反馈,再进行优化;物理学家也采用类似的方式,先反直觉地发明一些公式,加入一些参数,在理想化假设条件下做一些实验数据,再公式有多大的计算损失,接着进行充分思考,从而优化模型。
今天的神经网络的拟合能力可以逼近任何函数,可以表示更为复杂的函数,比之前那些聪明的物理学家所知道的公式范围还要大。如果神经网络这样的学习过程都不能被称为智能,难道人就是吗?为什么非要是人提出的公式、做的实验才叫智能呢?
对方辩友认为做了一些理想的假设、实验后,发现了一些所谓的放之四海而皆准、其实也并非的规律,难道不是传统机器学习的一种特征工程吗?你只是发现了其中一条比较管用的特征,然后再做了一些实验来验证它是99%或者更高的适用性,这是更为狭隘的对物理世界的刻画。
目前Sora确实还有些反物理世界的现象存在,但“懂物理世界”不等于“精确地懂物理世界”。让一个人闭眼脑补两个海盗船在咖啡杯里航行的画面,人就能精确地模拟出来画面吗?
反方许洪腾:首先,能生成逼真视频与懂物理世界没有必然联系。比如画家可以画出逼真的画作,不代表他们真的理解物理世界。原始时期人们都还不存在懂不懂物理世界这回事,就能用石头搭房子、画壁画,创造相应的艺术作品或相应的客观实体。
其次,人类对物理世界的理解和掌握有一套严格的方法论,会去做假设、观测、通过实验实现对物理现象的反演。这是Sora所不具备的,Sora的学习范式是数据驱动,这些数据还不是在一个严格的实验环境下得到的,如果它能理解物理世界,也一定是用一种超出我们认知范围内的方式在去理解。
现阶段,我们还没有看到任何AI能够真正在通用性或者对世界的理解上能达到人的水平。Sora之所以这么强大,也许正是因为它不懂物理世界。Sora基于它的学习范式,能够掌握统计规律,把有关联性的事物融合起来,比如生成龟壳像水晶球一样的乌龟,这是超现实的,跟物理世界没有必然联系。
再比如更早期的,以Stable Diffusion为代表的图像生成模型,能生成太空上骑马、火星上骑马等违反物理世界规律的画面。正是因为不理解物理世界,Sora才能基于统计相关性构筑自己的世界。
正方魏哲巍:有种说法是ChatGPT不懂文字或语言,但OpenAI首席科学家llya依然认为能预测下一个词就是理解了语言。llya举过一个例子,喂给大模型一篇悬疑小说,如果它能准确预测出凶手是谁,那它到底是不是懂这篇小说?从这个例子来看,大模型其实是懂文字的。
反方徐君:图灵测试是工程的测试,没通过说明没有这个能力,但通过了也不代表就具有这个能力。好比考试,没通过说明没学懂,但通过了有可能是死记硬背,不代表真的懂了。所以图灵测试不具有很强的说服力。
正方宋睿华:我恰恰觉得Sora是通过了图灵测试的。图灵测试一是要跟人比,二是要用问答。ChatGPT还是问答形式,但Sora已经不是了,它做的是一种电影测试,通过视觉的方式让人去判断是否具有智能。
反方许洪腾:物理世界必须跟真实世界是一致的。Sora掌握的是统计规律,并不是物理规律。部分AI可能懂悬疑小说,但不懂物理世界。如果Sora所有数据都来自哈利·波特魔法世界,一样能预测下一帧,它懂得不是物理,是魔法。
反方毛佳昕:我方坚持认为懂物理世界达到常人的理解即可,不需要懂物理公式。比如在生活中路上来了一辆车,你会用牛二定律算它有多长时间能到面前吗?并不用!自己脑补一下,预测车可能撞过来,躲开就OK了。这种理解有误差、有偏差,没有关系。
正方李崇轩:人类对物理的理解也是片面的、逐渐进步的。不能现在穿越回去对亚里士德说你根本就不懂物理,我比你懂物理懂得多,也不能说我们现在对物理的理解就是对的。很多时候物理学家理解世界第一步也是寻找统计规律,在有限观察下去验证,再基于现有理解形成物理定律。
随着时间的演化,人类对物理世界的理解也在加深,一些物理定律随着观察的增多而失效,不能要求Sora一出来就懂物理学公式。
三、议题二:纯数据驱动路线能不能实现通用人工智能?
第二个议题围绕“纯数据驱动路线能不能实现通用人工智能?”,以下是核心观点:
反方许洪腾:我理解的通用人工智能就是类人的人工智能,希望AI跟人一样具有一定通用性。人是从数据学习的,从出生就开始接收数据、训练自己,说明从数据接收信息并学习是可行的。
但我为什么反对这样的技术路线?是因为这个路线效率低下,而且目前面临数据和能源的瓶颈。按照OpenAI的数据消耗速度和增长趋势,很快训练用的视频数据消耗速度可能会超过我们能够产生的速度。到那时很可能需要Sora自己产生数据、自我训练。如果要Sora自己生成视频来自训练,这是否还算作纯数据驱动?它是否还能自我进化?我认为这是存疑的。
正方毛佳昕:数据驱动是实现通用人工智能的可行路径。从人工智能发展的历史来看,从感知到语言,都是用数据驱动解决问题。人类也是通过数据来学习的,比如我看很多书、做很多题目,然后参加物理考试,跟现在训练大模型做物理题的数据驱动方式是一样的。
Hinton说人脑是个很高效的系统,人脑用的功率比大模型小得多,但人脑的缺点是里面的神经网络权重没法告诉另一个人,通讯效率很差。
数据驱动的反面是理论驱动,这里的“理论”不是物理定律,而是认知理论。所以数据驱动路线对应的另一条路线是基于AI的理论驱动路径,或是基于人类认知世界的理论来驱动的路径。Hinton之前是这个路径的,但他最近观点发生了改变,认为人脑虽然在计算效率上有优势,但在通讯效率上远比不上数字计算机。
反方沈蔚然:通用人工智能是类似人并且超越人的人工智能。现在很多单个任务都超过人,我们希望能做一个通用人工智能算法或者模型,在大部分任务上都能够超过人。
我不认为学习物理通过看书做题是接收数据,从物理学的角度,数据应该是做实验得到的数据,看书的理论是接受别人前人总结的结果。现有的数据驱动方式无法把数据总结成一些简洁易懂的理论,然后在此基础上做进一步推导。我认为这是要实现通用人工智能目前回避不掉的事情。
尽管多层感知机理论上可以拟合任意函数,但部分数学函数需要无穷的数据才能拟合,却可以有简单的数学表达。
正方林衍凯:对方辩友一直在切换辩题,把“纯数据驱动路线能够不能使实现通用人工智能”切换成“能不能在有限/高效的能源下实现通用人工智能”,这并不是我们的辩题,还有把“通用人工智能”切换成“要达到超过人的治理水平”。
从技术角度来看,大模型无法总结规律,做的更多是记忆组合,现在很多大模型研究中做的是压缩,压缩的基础一开始是记忆,在训练过程中为了最优化函数,就是在寻找能更好拟合数据的规律。这指向数据驱动能像人一样思考演化。
真实世界的数据是无限的,不能局限于网上的数据。大模型在压缩的过程中可以自主探索,并从数据中学到物理规律。
反方孙浩:这个问题叫“纯数据驱动路线能不能实现通用人工智能”?它的关键要素是“实现”和“数据驱动”。实现通用人工智能的前提是资源有限的。目前用于训练的数据在许多方面都是缺失的,基于此训练不能达到类人的效果。
世界是极其复杂的,我们能观测到或能获取到的描述世界的数据极其稀疏,甚至可能是缺失的。但是描述世界的方式应该是非常简洁的,这样才是通用的基本特征。例如用微分方程的形式去描述,它就有很强的通用性,同时基于的数据非常少。数据是关键要素,但不应该是唯一的要素。
正方黄文炳:我们并没有强调说这个数据能不能获取,而是说在足够数据的条件之上,能不能实现通用人工智能。有两个观点我不敢苟同。一是谈到人工智能的定义,我们认为通用人工智能指的是机器所能掌握的处理大多数任务的一般通用能力。通用人工智能的英文是AGI,其中G是General,代表的是一般范围,不是Universal(万有)能力。纯数据驱动能不能实现通用人工智能?它并不一定包括能解决科学领域的方程、实验的结果,但一定能实现大多数人在日常生活中所掌握的通用智能的能力。
我们承认数据驱动不一定能实现所有的智能,包括物理的人工智能,但这与今天的辩题不矛盾。同样在物理场景中有很多严格的假设,在这些场景下纯数据能不能实现通用人工智能,那种智能还不一定是人工智能,我认为是不行的。
反方徐君:假如有两个参数不同的Sora,到底哪个是对的?可能一个对,也可能两个都不对。目前来看,Sora在认识物理世界的时候是有很大偏差的,存在不稳定性,一旦版本更新,意味着已学到的物理规律就需要被刷新一遍,这从经验上也不可行。
人不仅仅有认识世界数据的经验,还有理性的处理,也就是说对这个世界数据的处理能力。从这个角度来看,Sora不仅要接收来自世界不同经验的数据,同时它需要具备像人一样甚至超过人的理性思维去处理数据,两者缺一不可。
从数据的角度来看,Sora目前仅介绍了文本、视频和图像,还有很多领域的数据没接触到。从模型的角度来看,它基于扩散模型和Transformer的简单结构,不可能产生理性的分析和想象的能力,所以从模型处理能力上也锁死了。不管从经验的角度来看,还是从理性分析的角度来看,我觉得AGI都被圈住了。
正方毛佳昕:Hinton为什么对人脑效率的观念发生了变化,因为人脑非常高效,它的最大缺陷是交流能力差、传递信息的效率低。但是计算机传递信息的效率很高。理性是人脑的内在能力,是进化产生的,模型好像没有进化出这个机制。数据也是在帮模型不断改进,所以大模型也是可以有思考能力的。
反方许洪腾:对方辩友的观点恰恰说明了认可需要架构上的调整,架构事实上也是一种先验知识。除了效率和资源的限制,大模型学到的只是统计规律,外推或者说泛化的能力很差。这是统计机器学习里一直存在的困境。
不管是架构的演化,还是人大脑的演化,除了这种连续的、平滑的过程之外,很重要的一点是突变,这种突变不是通过数据来催化,是具有高度的随机性跟偶然性的,能否用纯数据方式去驱动是存疑的。
正方黄文炳:生成就是智能,生成过程可以实现反直觉思考、因果推断。一个人难道不说话就能因果发现吗?肯定得通过说话,说话是数据,做实验也是数据,这些都是纯数据驱动。
反方孙浩:生成即智能是一个谬论,因为生成的结果可以是虚幻的、甚至错误的,不能简单地当做智能。
正方宋睿华:人生成的东西就是对的吗?不对就不是人吗?就不是通用人工智能吗?现在通用人工智能的标准应该是和一个普通人对齐。人也有对错,不是说生成的东西一定要是对的,
反方许洪腾:但是人具有宽泛事物的判断正误的能力,突破直觉性的理解才能实现人的智能。比如每天早上都听到公鸡打鸣后太阳就升起了,我们就认为太阳是公鸡叫出来的,这是一个谬论。
正方宋睿华:Sora从数据里一样能学到太阳升起公鸡才会叫。我们说到Sora一个版本跟另一个版本不一样,人的认知也不一样,但不代表生成结果不一样就是不智能。大模型也有判断能力,Sora能生成比其他算法更流畅的视频,甚至在变换视角时保持三维一致性,一定是具有判断能力。
反方许洪腾:有判断能力不等于纯数据驱动,还是要有一些架构和知识的。
正方林衍凯:架构跟数据不是对立的,纯数据驱动不等于完全没有架构,与数据驱动对立的是符号驱动,是理性主义跟经验主义的对立。
反方陈旭:如果需要花了很差时间、大量数据,以至于整个地球的数据都不足以训练模型,就是不可行的。比如密码学中破译一组密码需要的时间太长,那么就可以认定是没有破译。因此在现实世界一定要加上限定词,我要在多少时间、用多少资源把问题解决掉。
我认为“纯”数据驱动不能解决通用人工智能问题。数据有一定作用,但是物理驱动或者因果的原理同样发挥着非常重要的作用。架构优化如果增加了一些因果原理、物理原理,可以把数据训练成本降低。
正方李崇轩:Sora算不算纯数据驱动,有没有用到Transformer架构?
反方孙浩:Sora的架构设计本身是有基于知识嵌入的,数据是辅助。但纯数据驱动是不加知识和客观世界理解的,这样设计出来的模型很难实现一个通用人工智能。
正方张骁:如果Transformer架构没有数据,怎么确定模型参数?一个架构就能做成Sora那样吗?人工智能三起两落,两落都是因为没有走纯数据驱动的方式,现在大家能坐在这里讨论,正是因为有了纯数据驱动带来的发展。
人类就是通过观察数据得到一些知识。讨论这个问题,最重要的不是增强AI,而是考虑我们怎么跟AI一起去和谐共生。既然我们处理数据不如计算机,为什么不让计算机用AI去处理?纯数据驱动是实现有温度的AI的一个最终愿景。
结语:大力出奇迹的大模型,还没有显露出边界
经两轮投票表决,两场辩论的结果均为正方获胜。最后学生们还补充了两个问题:
问题1:如今大模型使用起来这么方便,是否还有必要花大量时间在学习数学和编程上?因为大模型可以帮助我们很多。
魏哲巍老师回答说:学习数学和编程这些知识的目的并不是解决那么一两道题,而是要提升自己的“泛化能力”,能够解决其他的问题。目前大模型还没达到那么智能,因此为了自身更好地发展,有必要重视学习这些知识。
问题2:如何看待大模型的幻觉现象?
文继荣院长回答道:幻觉有好处也有坏处,有时候大模型会“一本正经地胡说八道”,用户就会认为这是错误的,是有缺陷的。但也正是有这种天马行空的想法,才能生成比如“在太空中骑马”这种反直觉的图片。因此要辩证看待幻觉现象。
文继荣院长对这场思辨讲座作了总结发言,他认为关于ChatGPT和Sora等生成式的大模型的思辨,实则为信仰和技术路径之辨。
人大最早于2020年着手文澜大模型研究,当时曾被质疑是否可行,而OpenAI也曾被质疑如此巨额花费与科研理念能坚持多久,但两者最终都做出了令人惊喜的产品。
大力出奇迹的大模型还没有出现边界,依然存在很多机遇。去年受到ChatGPT冲击,学院的口号是“全院all in 大模型”。今年Sora来袭,学院的目标更加远大,希望能够把AI应用于人大的每一个学科中,创造智能而有温度的未来。