大模型“百花齐放” 业界合力“充实”中文语料数据

(资料图片仅供参考)

中新网上海9月8日电 (记者郑莹莹)中国大模型语料数据联盟8日又吸纳了一批新成员，来充实适用于大模型的中文语料数据。中国大模型语料数据联盟由上海人工智能实验室、中国科学技术信息研究所等单位在今年的世界人工智能大会上联合发起成立，致力建设开放型的大模型语料数据生态圈。

上海人工智能实验室主任助理王延峰说，ChatGPT令人惊艳，但它对中文的理解还不尽人意。

9月8日，中国大模型语料数据联盟在上海又吸纳了一批新成员。中新网记者郑莹莹摄

大模型时代带来以数据为中心的人工智能领域新发展，但“投喂”哪些数据备受关注。王延峰在接受记者采访时表示，语料数据不仅要量大，而且要高质量，“就像培养一个孩子一样，投入高质量的教育，才有高质量的‘输出’。”

对于中文语料数据的不足，他表示，中文语料数据对于大模型能力的提升至关重要，业界需要高质量的中文语料数据集。

上海蜜度信息技术有限公司(简称：蜜度)首席技术官刘益东在受访时指出，目前中国国内的大模型训练里，非常缺少高质量的中文语料数据集，“现在很多市面上的大模型主要是基于外文资料，再加上少量的中文资料，这样训练出来的大模型，对中文的理解能力以及对中文内容的生成能力是有欠缺的。”

蜜度是此次加入中国大模型语料数据联盟的9位“新成员”之一。现场，蜜度发布了包含7000多万条数据的开源中文语料数据集。

刘益东说，在大模型“百花齐放”的发展背景下，需要有一些机构或团体去做“公共建设”，去推动这个行业的发展，企业乐于加入其中。

上海市经济和信息化委员会人工智能发展处处长王志佳表示，“百模大战”不是一场零和游戏，携手并进才能把生成式人工智能真正与生产力相结合，把大模型这个“冷灶”真正“烧热”起来。

他指出，建设高质量语料库是大模型产业链的关键环节。大模型语料数据的多元供给需要多方协力、共同推进。(完)

关键词：

责任编辑：QL0009

为你推荐