最新大模型测试发布!讯飞星火总分排名第一

在技术迸发、智慧涌现的AI时代,中国企业从不会缺席!如果说ChatGPT是生成式AI爆发的“导火索”,那么接连而来的国产大模型就像装满火药的战船,在奋勇冲锋中炸开了一道又一道关口,整体缩短甚至局部超越了与ChatGPT的航距。目前为止,业界比较认可的国产大模型分别有讯飞星火、文心一言、通义千问和360智脑等,而令大家好奇的是,这些国产大模型之间孰强孰弱?近期,老牌知名科技媒体IT之家重磅推出了四款主流大模型的横向测评,其中诸多测试结果令人意想不到。

最新大模型测试发布!讯飞星火总分排名第一

此次IT之家对国产大模型进行了10个维度的评测,每个维度单项得分10分,累计总分100分。这样的打分机制非常公平,10个维度也依次体现了大模型的场景应用。根据测试结果,讯飞星火以总分93分的成绩一骑绝尘,并且在“终端支持”、“语言理解能力”、“代码编写能力”、“多轮对话能力”“AI助手功能”等单项获满分。百度的文心一言则以84分的总成绩紧随其后,360智脑和通义千问总分与讯飞星火有较大的差距。

具体到测试单项,在终端支持能力上,讯飞星火是目前唯一“五端全覆盖”的国产大模型,五端分别指安卓、iOS、小程序、PC和H5,几乎涵盖了移动端和桌面端的所有设备。用户既可以在上班的时候,将讯飞星火当成AI辅助工具,又可以在移动办公或出差的时候,随时打开讯飞星火寻求“支援”,随时随地获得大模型能力的加持。

在语言理解能力测试上,这向来就是讯飞星火的“主战场”,自AI语音起家,讯飞背靠认知智能全国重点实验室与五大声学实验室,在自然语言理解技术上拥有深厚沉淀。在IT之家的测试中,多次采用“一语双关”或“一语多意”的词汇来检测理解能力,结果讯飞星火都深度理解了语言背后的深层意图,并给出了很有逻辑性且精炼的回答。

在多轮对话能力测试中,IT之家采用唐诗宋词来“考”大模型,结果360智脑把白居易描写草原的诗强行说成描写月亮,犯了“张冠李戴”的错误。而讯飞星火不仅能识别描写月亮的诗词,还自行创作了两首描写月亮的诗,创作水平真不赖。而在代码编写能力上,讯飞星火更展现了极高的“天赋”,生成的代码不仅规范简洁,还直接通过了程序运行工具的检测,可以完美执行。讯飞星火也成为了IT之家在测试中四款大模型中唯一一款生成代码“可用”的大模型,表现突出。

据了解,讯飞星火自5月首发以来,历经6月9日的V1.5迭代,又将要在8月15日迎来新一轮迭代,其官方宣布8月15日将升级代码能力、开放多模态能力,并在知识问答能力等方面持续提升。即便目前讯飞星火在代码能力上已经非常出色,但依然有巨大的向上空间,未来或许人人都可以借助AI之力化身“码农”,这不禁让人们充满了期待。

通过IT之家对四大国产AI模型的横评,几乎可以肯定地说,讯飞星火是目前最好用、最聪明的国产大模型之一,并且未来还有巨大的提升空间,最终要跟ChatGPT“掰一掰”手腕。

如今,国内大模型发展局面已经逐渐明朗,国产大模型梯队也渐渐形成,很高兴看到企业在大模型赛道呈现你追我赶的态势,因为这也成为了实现中国“智慧涌现”的强大引擎。

本文内容由互联网用户自发贡献,该文观点仅代表作者本人。如发现本站有涉嫌抄袭侵权/违法违规的内容,请发送邮件至 3587015498@qq.com 举报,一经查实,本站将立刻删除。本文链接:https://www.xmnhj.com/h/200438.html

      
上一篇 2023-08-08
相关推荐
发表回复
登录后才能评论