◎本报记者陈曦

目前,大多数成熟的生成式 AI 模型都是基于英语数据进行训练的。 在中国各行业的应用环境中,中国大模型显然更加“接地气”。 用中文或英文数据训练出来的大模型比较不同,中文的上下文理解和语义多重解释要大于英文。 大模型首先要理解人的意图,所以对于国内用户来说,中文训练的大模型更合适。

“请讯飞星火认知模型模仿梁小生先生小说《人间》的文风,写一篇短文。” 5月20日,在第七届世界智能大会闭幕式上,主持人姜常建向新闻界提出了飞星火认知模型的提问。 短短几秒钟,续写的字就会“跳上纸”。 原作者梁晓生认为,续篇内容简洁,文字有一定温度。 从所传达的情感和思想来看,几乎是“无懈可击”。

在本届世界智能大会上,生成式人工智能无疑成为了大家关注的焦点。 近期,国内各大厂商纷纷加速对生成式AI核心技术的研发,无论是讯飞Spark认知模型所展现出的强大“中国知识”,还是依托国产天河超算力的国家超算天津中心,智能计算动力和收集构建中国大数据集进行研发训练的天河天元大模型,让大众对我国自主研发的中国生成AI大模型充满期待。

开发适合国人的大中文模式

“AI大模型是基于海量多源数据的预训练模型,是对原有算法模型的技术升级和产品迭代。” 国家超算天津中心数据智能部主任康波介绍,预训练大模型是基于海量数据的自监督学习阶段,完成“通识”教育,然后与借助“预训练+微调”等模式,在共享参数的情况下,根据具体应用场景的特点,以少量数据进行微调,即可达到高水平完成任务。

AI大模型可以理解人类的自然语言表达,通过庞大的网络结构实现有针对性的内容输出。

从效果来看,生成式AI“无所不能、无所不能”,具有逻辑推理、上下文理解、文本创建、知识抽取、代码生成等非常多样和强大的能力。

但是,目前成熟的生成式AI大模型,大多是基于英文数据进行训练的。 “用中文或英文数据训练出来的大模型差异比较大,中文上下文理解和语义多解释都大于英文。大模型首先要理解人的意图,所以对于国内用户来说,用中文理解大模型对于培训更适用,”康博说。

此外,生成式AI正逐步向生产工具方向发展,深度赋能行业,或将成为人工智能与实体经济深度融合的重要力量。 作为数据驱动的AI大模型,其训练数据源的可靠性和安全性成为推动技术创新的关键。 因此,自主研发中国大机型成为越来越多科技巨头的首要选择。

3月以来,中国大型模型领域进入“挑战”模式,各行各业的玩家纷纷入局,其中不乏“看好”中国大型模型的发展楷模。

“要抓住通用人工智能的发展机遇,有几个基本要素。” 科大讯飞董事长刘庆峰认为,首先,它必须是在一个独立可控的平台上; 二是要中英文同时做,既要学中国的“智慧”,也要向世界学习; 第三,在“硬碰硬”的技术比较中,不仅要学习,更要想方设法赶超。

比如阿里推出了中国第一个AI模型社区。 社区首发300多个模型,其中中文模型100多个,涵盖视觉、语音、自然语言处理、多模态等主要AI领域。 60,全部完全开源,开放使用。 360推出的“360智慧大脑”背后的大模型在海量中文文本数据上进行预训练和微调,具备强大的语言理解和生成能力。 据悉,该模型已经达到了100亿个参数的规模,并且还在不断扩大。

大型中文语言模型数据集稀缺

生成式人工智能是人工智能发展到一定阶段的产物。 正如数据集推动了残差网络等计算机视觉算法的成熟,开源数据集的发布带动了长短期记忆神经网络等自然语言神经网络的发展,广泛图形处理器的使用使得模型参数从百万级发展到千亿级(使用几万块A100显卡进行训练)。 可见,生成式人工智能的快速成长离不开算力和数据的支持。

“大模型是由大数据和计算能力驱动的,两者缺一不可。” 超算天津中心首席科学家孟祥飞博士强调。

一方面,中国大模型的理解能力来自于数据。 它需要利用海量数据进行学习,通过self-和multi-head 机制建立知识之间的联系。 这意味着更多、更高质量的数据供给将带来模型网络中知识关系的完善和延续。 当用户提出有深度或冷门的问题时,数据质量越高,AI模型给出正确答案的概率就越大。

“但目前,中文语言模型的数据集非常稀缺。” 孟翔飞介绍,为了解决这个问题,天津超算中心对全域的网络数据进行了收集整理,提取并处理了高质量的中文数据,做了一个数据集。 融合各类开源训练数据、中文小说数据、中国古代数据、百科全书数据、新闻数据,以及医学、法律等专业领域的各类数据集。 训练数据集token总数达到了3500亿,训练创建了中文语言大模型——天河天元大模型。

另一方面,算力的供给是大模型的基本保障。 大模型起源于自然语言处理领域,以谷歌的BERT、Open AI、百度文心一言等大模型为代表。 参数规模逐渐增加到千亿、万亿,用于训练的数据量级也很大。 提升带来了模型能力的提升,也代表着对算力需求的指数级增长。

“超级计算可以说是算力的斗士。” 孟翔飞表示,为保障大模型的顺利训练,天津超算中心充分利用天河新一代超算的双精度、单精度和半精度融合计算输出能力,构建基于智能计算引擎在独立的E级算力系统架构上,构建大规模人工智能训练和应用系统支撑环境,特别是在中文处理方面,构建面向中文大规模模型数据处理的工作流技术体系,从而保障训练任务顺利进行。

技术成果广泛应用于多个领域

世界智能大会上,除了讯飞星火认知大模型之外,还有多种搭载大模型的行业应用成果。

康波认为,人工智能是推动新一轮科技革命和产业变革的巨大力量。 以大模型作为产业智能化升级的基础,以专业数据集打造更适合产业的智能化高水平“专家”。 ”。

以讯飞星火认知大模型为例,大模型整体布局为“1+N”体系。 其中,“1”是指通用认知智能大模型,“N”是指大模型在教育、办公、汽车、人机交互等各个领域的应用。 例如在教育领域,科大讯飞推出的学习机作为全球首款搭载大认知模型的学习机,可以像真正的老师一样与3-18岁的学生进行互动; 模型能力升级后的产品,具有文本调节、会议纪要、一键起草等功能。

康博认为,在各行各业的应用中,中国大模型显然更加“接地气”。 他举例说,天津超算中心全面实现了文本、语音、视频等多模态大规模模型生成能力,从而形成了“一个平台、三种能力”的基础设施,实现了更大范围的产业整合能力。 基于其自然语言理解和表达能力,结合医疗、学习医学指南等专业规范,可以快速掌握相应的专业知识。 其中,中文大模型可以解决“同字异义”的医学歧义,实现精准输出,为医学辅助诊断提供更全面的支持能力。

同样,在工业检测和过程控制方面,大模型基于多样化的输出能力,可以进行标准引导、缺陷检测、过程指令生成等一系列操作,降低错误率,提高生产效率。 其中,中文大模型可以更好地理解复杂的技术术语和流程指令逻辑,使输出更加准确和严谨。

“在大模型的通用性和泛化性以及降低人工智能应用门槛优势的推动下,人工智能也将加速落地,形成新的机遇。” 康博说道。

編輯:碩谷新聞聚合

點讚(0) 打賞

评论列表 共有 0 條評論

暫無評論

微信小程序

微信扫一扫體驗

立即
投稿

微信公眾賬號

微信扫一扫加關注

發表
評論
返回
頂部