(注:评价时间截至2023.5.10,评价指标主要包括五个维度:语义理解、逻辑推理、情感分析、百科知识、文本质量)

今年春节档,《流浪地球2》点燃了沉寂已久的中国科幻电影市场,也让电影MOSS中冷酷强大的人工智能形象深入人心。

巧合的是,几乎在同一时期,它凭借出色的文本生成和对话交互能力迅速风靡全球。 短短两个月,月活跃用户数突破1亿,刷新消费级应用用户增速新纪录。

从某种角度来看,现象级社会现象之所以能够被触发,不仅是海量数据训练带来的质变因素,更重要的是在适当的时候,满足了人们长期以来对人工智能的想象. 过去的科幻作品书中的猜想开始逐渐变成现实。

变革时代已经开启,一场以AI为主导的全球AI大语言模型军备竞赛已经打响。

如雨后春笋般涌现

3月14日,GPT-4正式发布,大语言模型开始具备同时处理图像和文本的多模态能力,继续占据先入为主的优势。

在全球各大厂​​商中,百度最先做出回应。 3月16日,百度大语言模型“文心一言”正式上线,并开启邀请测试。 据公开报道,文心一言拥有五项核心能力:文学创作、商业文案、数理逻辑计算、汉语理解、多模态生成。

紧接着,其他科技公司也纷纷效仿。 4月11日,2023阿里云峰会现场展示了统一千文的多项功能,并邀请企业用户进行体验测试; 5月10日,谷歌时隔一年推出新一代大型语言模型PaLM2。 算是对之前发布会推翻的有力回应。

此外,还有2月21日复旦大学发布的《MOSS》、3月28日清华大学发布的《-6B》、4月10日360发布的《360智慧大脑》、4月10日商汤科技的《咨询》 5月6日发布的《讯飞星火认知模型》5月6日发布等。

截至5月,据不完全统计,国内已有40余家企业和机构发布大模型产品或公布大模型计划。 项目数量呈爆发式增长,可以预见,下半年国内AI大型模型市场竞争将空前激烈。

不止于“大”

说到大机型,很多人都会把注意力放在“大”字上。 毕竟,足够量级的参数是语言模型实现智能涌现和质变的基础。 例如,很多大型语言模型的参数都在千亿量级,这意味着更丰富的语言知识和更广泛的上下文理解能力。

但目前的类GPT模型普遍采用架构,因此必须包含大量市面上存在的文本数据,如小说、教材、论坛、开源代码等。输入少量标注数据用于监督学习。 在这样的模型中,训练数据集质量的重要性变得越来越突出。

本次评测的结果可以印证这一点。 评估主要考察主要语言模型在中文语境下的理解和生成能力。 基于目前用户在生活和办公中对大语言模型的普遍需求,选取了五大语言模型:语义理解、逻辑推理、情感分析、百科知识、文本质量。 通用底层维度是评估主要语言模型辅助用户日常处理事务和解决核心问题的能力。 取两个分数:0(无效答案)和 1(有效答案)。 0(一般)、0.5(良好)、1(优秀)三项评分。

评测题也区别于BERT类判别式AI模型的选择性提问方式,采用相对开放的更适合AI生成模型的提问方式。 以下是一些问题和答案的例子:

在“I've got a thing for you,用文言文表达这句话”的问题中,给出的答案是:“我暗恋你”。 理解正确,但生成的文本质量不好,打0.5分。 文心一言的输出内容:“心系你,发自内心的爱你。” 如果文字与意思相符,则质量高,得1分。 星火认知模型回答:“我有样东西要给你。” 如有误解,扣0分。

从结果来看,在语义理解、逻辑推理、百科知识、文本质量四项中分别以18、19、19、18.5分排名第一,综合性能排名第一,尤其是在领域的文本生成方面科技、学术和新闻。 在某些领域表现突出,但在相对复杂情境下的情感识别,以及散文、诗歌、文言文等深度理解能力方面表现相对乏善可陈;

总之,文心作为全球厂商推出的第一个知识增强大语言模型,在国内大语言模型中排名第一,仅次于效果,在语义理解和情感分析方面排名第一。 分数分别是18和19,可能和百度自己的数据集有关。 在高质量的图书馆文本、百科数据等中文语料的训练下,在语义理解和情感分析方面具有较高的精度。 识别复杂的情绪表达和语言隐喻;

此外, PaLM 在逻辑推理(19 分)、通译千文在语义理解(17 分)、清华大学文本质量(15.5 分)方面取得了显著成绩。

结语

未来大模型的迭代也将更具针对性,对开发者的评估能力提出更高的要求。 如何在有限的时间和资源条件下,做出客观的评价,给出有用的反馈,让数据团队更有针对性地准备数据,让研发不偏离方向,保证模型的健康迭代,将是所有行业从业者共同挑战的关键。

《互联网周刊》也将持续跟踪关注各大语言模型的更新迭代,定期进行相关测评分析。 未来,相信随着算法、硬件、数据和应用场景的不断发展,大规模语言模型将在各种自然语言处理任务中发挥更重要的作用,为社会创造更多价值。

(文/米列)

編輯:碩谷新聞聚合

點讚(0) 打賞

评论列表 共有 0 條評論

暫無評論

微信小程序

微信扫一扫體驗

立即
投稿

微信公眾賬號

微信扫一扫加關注

發表
評論
返回
頂部