当前位置:首页 > 北京 > 教育资讯

全球最大中英文语义向量模型训练数据集发布

北京日报客户端|记者孙奇茹

全球大模型研发进入如火如荼的爆发期,而激烈的竞争与高昂的成本,也同时推动着开源崛起成为人工智能发展的关键推动力量。智源研究院近日在北京人工智能产业峰会发布面向中英文语义向量模型训练的大规模文本对数据集MTP(massivetextpairs)。这是全球最大的中、英文文本对训练数据集,数据规模达3亿对,具有规模巨大、主题丰富、数据质量高三大特征,旨在推动解决中文模型训练数据集缺乏问题,推动人工智能协同创新发展。

通用语义向量模型是决定大模型性能的关键组件,可以链接外模型与外部知识。智源相关负责人向记者比喻道,向量模型可以理解为大模型的“知识外挂”,能够使得大模型完成训练后,在应用时仍然能搜索最新知识,防止训练数据过时。而由“关联文本”为基本元素的优质训练数据,是构建通用语义向量模型的核心要素。

本次开源的MTP数据集是智源BGE中英文语义向量模型训练所用中英文数据。得益于大规模、高质量的训练数据,开源可商用的智源BGE模型自发布以来,就凭借优秀的中英文语义检索精度与整体语义表征能力成为广受社区欢迎的语义向量模型:在大规模向量模型权威排行榜MTEB上排名稳居第一,在全球知名的人工智能开源社区HuggingFace累计下载量达到数十万,并被LangChain等全球多个知名开源项目集成。

北京智源研究院副院长兼总工程师林咏华在发布环节中说道:“语义向量模型在大模型落地产业中起到十分重要的作用,但往往被忽略了。我们希望这次大规模数据集、以及语义向量模型的开源,能帮助更多团队加快实现大模型产业落地。”

数据对大模型训练起着至关重要的基础作用。构建高质量开源数据集,特别是用于训练基础模型的开源数据集对大模型发展意义重大,然而中文社区却鲜少数据开源贡献者。“数据可以说是AI大模型最重要的一个要素,大家认识不同,但是总的来说几乎所有人都认为数据的质量对模型智能水平影响最高,差不多要超过60%。”北京智源人工智能研究院院长黄铁军在2023年国家网络安全宣传周活动上曾说道。

据了解,作为科技部与北京市支持建设的人工智能新型研发机构,智源持续进行包括数据在内的大模型全栈技术开源,持续贡献高质量中文数据集建设与数据资源开源开放。2021年,其推出全球最大语料库WuDaoCorpora,开放200GB高质量低风险中文语料,由400余个产学研单位合作,已有770多个研发团队申请,为微软、哈佛大学、斯坦福大学、华为、阿里巴巴、腾讯、鹏城实验室等提供数据服务,有效支撑全球大模型相关研究。今年开放的最大规模、可商用、持续更新的中文开源指令数据集COIG,由来自全球40余个机构的100多名工程师共同参与,创造了跨越国界、紧密合作的全球数据开源故事。

目前,智源也在推动各方共建大规模高质量中文数据库,以盘活我国高质量中文数据资源,加快数据处理相关标准、技术、工具和支撑平台研发,提高数据处理效率。

本文来自网络,不代表教育资讯立场,转载请注明出处。