国内头部大语言模型与ChatGPT、GPT-4相比,孰强孰弱?多模态大模型的技术发展趋势是什么?昨天(3月24日)举行的2024全球开发者先锋大会·大模型前沿论坛上,上海人工智能实验室领军科学家林达华、复旦大学计算机科学技术学院教授邱锡鹏发表了主旨演讲。
林达华说,大模型评测体系“司南”(OpenCompass2.0)显示,国内排名前列的大模型在主客观表现上都超过了GPT-3.5(ChatGPT的基座模型),但是与GPT-4还存在差距,主要表现在推理能力上。“高考数学的最后一道大题,需要考生有出色的推理能力。我们和GPT-4的最大差距,可以说就是高考数学的最后一题。”
归纳推理能力不足是最大短板
去年3月,OpenAI发布GPT-4。这是GPT大模型的一次重要升级,其推理能力显著提升,并支持32K上下文输入和理解。一年后的今天,全球大语言模型呈现什么发展格局?林达华概括为:OpenAI引领技术潮流,谷歌紧紧追赶,Claude异军突起;上下文理解、推理能力、更高效的模型架构是技术探索的重点方向;轻量级模型崭露头角;开源模型快速进步,开放生态已成气候。
推理能力高下,是国内头部大模型与GPT-4的最大差距所在。评测显示,从小学算术到初中数学,再到高中和大学数学,随着年级提升,国内外多个重量级、轻量级模型的答题成绩明显下降;到了大学阶段,GPT-4的成绩虽然也不是很高,但与其他模型相比,还是有明显优势。
林达华介绍,推理能力可分为常识推理、演绎推理、归纳推理三类,其中归纳推理是GPT-4优势最明显的一种能力。“符号‘->’代表一个简单的数学运算。962-85->881;242-495->-249;355-890->?”这道数学题考的就是归纳推理能力。目前,国内大模型做中考数学、高考数学最后一题时,如果遇到没训练过的题型,正确率就很低,暴露出归纳推理能力不足的短板。
在追赶GPT-4的道路上,提升训练数据的质量和多样性是首要任务。“数据是模型的生命线,是模型研发团队要首先关注的事。”林达华说,“规模、质量和多样性是训练数据的三个要素。”在数据质量方面,增强数据的知识密度,能带来更高的训练效率,而低质量数据对模型可能产生破坏性影响。在数据多样性方面,好的数据集是非常多样化的,它们均衡分布在足够大的语义空间中。与这类数据集相比,互联网语料数据的语义空间分布极不均匀,存在大量低水平重复的语言模式。如果用它们训练模型,研发团队要采用合理的重采样策略,这样能大幅降低其负面影响。
内生多模态模型催生“新玩法”
在大模型技术探索的各个方向中,文本、图像、视频等多模态融合是重要趋势。文生视频大模型Sora的惊艳亮相,已体现出多模态融合的广阔应用前景。在这一领域,邱锡鹏带领团队做了大量前瞻性研究。他在演讲中向与会者介绍了AnyGPT这款自主研发的多模态语言模型。
AnyGPT之所以名为Any(任何),是指它能以任意的模态组合来理解、推理各种模态的内容。用户输入文本、语音、图像、音乐等多种模态交织的指令后,它会熟练地选择合适的多模态组合进行响应。
例如,上传世界名画《跨越阿尔卑斯山圣伯纳隘口的拿破仑》的图片文件后,要求AnyGPT“为这幅画创作一段背景音乐”,它生成了三段音乐。前两段节奏急促,像是急行军配乐,与拿破仑骑马征战的画面比较符合;第三段有进行曲的味道,其雄壮之风也与拿破仑形象契合。
这个大模型为何能在各种模态之间自由切换?邱锡鹏解释,文本与语音、音乐、图像的最大区别是,文本是离散信号模态,而语音、音乐和图像是连续信号模态,所以要让语言模型理解连续信号模态,必须把它们转化为离散信号模态。为此,科研团队提出一个可以统一训练的综合框架,它由多模态Tokenizer(分词器)、作为主干网络的多模态语言模型和多模态De-tokenizer(连接器)等三个主要组件组成。其中,Tokenizer将连续的非文本模态转换为离散的token,然后将它们排列成多模态交错序列,用于语言模型的统一训练。
“这是一种内生的多模态转换,不需要调用插件。”邱锡鹏说。在他看来,内生多模态大模型问世后,将在应用领域催生很多“新的玩法”,也将为“具身智能”机器人提供更智慧的大脑。因为现实世界是多模态的,机器人要像人那样通过视觉、语言、声音和触觉感知外部世界,才能获得“具身智能”,从而在更多的应用场景中成为人类的好伙伴。