经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 大数据/云/AI » 人工智能基础 » 查看文章
科大讯飞星火大模型测评
来源:w3xue  时间:2023/5/8 15:21:46  对本文有异议

在前几日,我们评测了常用的4个LLM(chatGPT3.5、新必应、文心一言、Cluade):

全面测评!chatGPT、新必应、文心一言、Cluade,到底谁更强?W3xue告诉你

近期,科大讯飞发布了最新的LLM,据网上评测,号称功能十分强大,可对标chatGPT3.5。那么,我们就以上一次评测的问题,来看看星火大模型的性能究竟如何。

废话不多说,上干货!


一、事实核查


1、1928年的美国总统是谁?

星火:

1928年的美国总统是卡尔文·柯立芝(Calvin Coolidge)。他是美国历史上第30任总统,于1929年至1933年在位。在柯立芝的领导下,美国经历了大萧条时期,政府采取了一系列措施试图恢复经济,但效果有限。尽管如此,柯立芝仍然被认为是一位相对稳健的总统,他的政治理念主张小政府、低税收和自由市场经济。

正确答案:柯立芝,1923年就任,1929年卸任。1928年很明显在任。

星火得分:4分

4大LLM得分:chatGPT 0分,新必应 0分,文心一言 0分,Cluade 4分。


2、柯达申请破产的时候,微软公司的市值是多少?

星火:

柯达公司在2012年申请破产,当时微软公司的市值约为3500亿美元左右。需要注意的是,破产申请时的市值与公司实际价值并不完全相同,因为破产程序可能会导致公司资产被清算、出售或重组,从而影响公司的市值。此外,微软公司和柯达公司在业务领域和市场定位上也存在很大的差异,因此它们的市值并不能直接进行比较。

正确答案:柯达于2012年1月19日早间申请破产,而微软2012年1月18日收盘后,总市值为2368.71亿美元。而且,星火理解错了我的意思,它误以为我要进行市值比对,而我只是以柯达申请破产为时间要素而已。

星火得分:0分

4大LLM得分:chatGPT 3分,新必应 0分,文心一言 0分,Cluade 0分。


3、为什么乌拉圭男子足球队的球衣上有4颗星?

星火:

乌拉圭男子足球队的球衣上有4颗星,是因为乌拉圭在1930年首届世界杯足球赛上获得了冠军,当时该队由8名球员组成,因此他们被授予了世界杯冠军奖杯。后来,乌拉圭参加了多届世界杯比赛,并多次获得冠军。为了表彰这些成就,乌拉圭足协决定将他们的球衣号码增加到4颗星,以示尊重和纪念。从那时起,乌拉圭男子足球队的球衣上一直有4颗星。

正确答案:乌拉圭男子足球国家队分别夺得了1930年和1950年的世界杯冠军,应该是两星乌拉圭。但世界杯刚创办时不受待见,正是依靠乌拉圭的积极支持,第一届世界杯才得以在1930年正式举办。为了纪念乌拉圭对举办世界杯的特殊贡献和维护与国际奥委会的关系,国际足联将乌拉圭之前获得的两个奥运冠军等同于世界杯冠军,因此夺得两次世界杯冠军的乌拉圭队的队服上画着四个星。

星火得分:0分

4大LLM得分:chatGPT 0分,新必应 4分,文心一言 0分,Cluade 0分。


4、鳄鱼是鱼类吗?为什么?

星火:

鳄鱼不是鱼类,而是爬行动物。虽然它们生活在水中,但它们的身体结构、呼吸方式和行为特征都与鱼类有很大的不同。以下是一些关于鳄鱼不是鱼类的原因:

  1. 鳄鱼的身体结构更接近哺乳动物。它们有四肢、皮肤皱褶、毛发和牙齿等特征,这些特征都是哺乳动物所具有的。相比之下,鱼类通常没有四肢、皮肤皱褶、毛发或牙齿。

  2. 鳄鱼是冷血动物。这意味着它们的体温会随着周围环境的变化而变化,而不像鱼类那样可以自主调节体温。鱼类通常是恒温动物,可以通过自身的代谢来维持恒定的体温。

  3. 鳄鱼是卵生动物,而不是胎生动物。它们的幼崽在孵化时就已经发育成熟,并能够在出生后自行游泳。相比之下,鱼类的幼鱼需要在母体内发育成为卵黄囊,然后才能孵化出来。

总之,尽管鳄鱼生活在水中并且有些方面与鱼类相似,但它们在身体结构、呼吸方式和行为特征上都与鱼类有很大的不同,因此被归类为爬行动物。

正确答案:鳄鱼不是鱼类,不用腮呼吸,而是用肺,且产的卵能离开水存活。星火的答案只有结论是正确的,具体的解释没有其他4个大模型好,“鳄鱼的身体结构更接近哺乳动物”?“有毛发”?“鱼类通常是恒温动物”?还有第3条的表述,似乎是在和哺乳动物比较。

星火得分:1分

4大LLM得分:chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分。


5、钱学森在哪个国家留过学?

星火:

钱学森曾在美国留学,先后就读于马萨诸塞理工学院(Massachusetts Institute of Technology)和加州理工学院(California Institute of Technology)。他于1935年获得加州理工学院的博士学位,并在此期间参与了著名的“洛杉矶计划”,该计划旨在为美国的航空工业培养高级人才。在完成博士学位后,钱学森回到中国,成为中国现代航空航天事业的奠基人之一。

正确答案:钱学森1934年清华大学毕业,在国内实习一年后,1935年赴美读硕士、博士,1936年获得博士学位。后参加过美国空军科学咨询团,并没有成为上校。并没有参与曼哈顿计划和阿波罗计划,也没有参加什么“洛杉矶计划”。

星火得分:1分

4大LLM得分:chatGPT 1分,新必应 3分,文心一言 1分,Cluade 0分。



二、语义理解

1、男:请问这台空调怎么卖?

女:原价3000元,最近快到春节了,我们商场的所有商品都打八折,但不包括这台空调。这台空调只有优惠力度200元。

男:好,我买了。

女:谢谢您的光临!

这台空调多少钱?

星火:

根据对话内容,这台空调的原价为3000元,商场所有商品都打八折,但不包括这台空调。因此,这台空调的优惠价格为:

3000 * 0.8 = 2400元

但是因为有额外的优惠活动,这台空调的实际价格为:

2400 - 200 = 2200元

所以这台空调的价格是2200元。

正确答案:2800元。这个把转折理解为加深了。

星火得分:0分

4大LLM得分:chatGPT 4分,新必应 4分,文心一言 0分,Cluade 3分。


2、女:你的父亲身体还好吧?

男:他一年前就离开我们了。

男的父亲怎么了?

星火:

很抱歉听到这个消息。根据对话内容,男的父亲已经去世了,具体原因没有被提及。

正确答案:按照语境,男的父亲应该是去世了。确实如星火所说,原因没有被提及。

星火得分:4分

4大LLM得分:chatGPT 2分,新必应 3分,文心一言 3分,Cluade 4分。


3、把这句话改为正确的句式:

他跑步一边蝴蝶抓一边

星火:

他一边跑步一边抓蝴蝶。

正确答案:他一边跑步一边抓蝴蝶。所有模型都给出了正确答案。看来,在这种高频用法当中,各个模型已经非常成熟了。

星火得分:4分

4大LLM得分:chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分。


4、女:我们坐22路公交车还是3路公交车?3路是空调车,贵一点,22路没有空调。

男:现在不冷不热,不用坐空调车吧?

女:也好。

他们打算坐几路公交车?

星火:

根据对话内容,他们打算坐22路公交车。因为虽然3路公交车是空调车,但现在天气不冷不热,所以不需要坐空调车。

正确答案:按照语境是坐22路公交车,星火答案和解释都给满分。

星火得分:4分

4大LLM得分:chatGPT 3分,新必应 4分,文心一言 1分,Cluade 4分。


5、甲:“这是一点小意思”。

乙:“你这是什么意思?”

甲:“没什么,意思意思。”

乙:“你这就没意思了啊。”

请问第一个出现的“意思”是什么意思?

星火:

根据对话内容,第一个出现的“意思”是指甲所说的话是一种礼节性的说法,表示感谢或回应对方的请求或邀请。在这种情况下,“意思意思”相当于“表示一下感激之情”或“回应一下对方的邀请”。

正确答案:按照语境,第一个“意思”是礼物之类的。星火显然理解错了,“没什么,意思意思。”这里的“意思”才是表示感谢的意思。

星火得分:0分

4大LLM得分:chatGPT 3分,新必应 4分,文心一言 0分,Cluade 1分。


6、我的妈妈是小明爸爸的姑妈,我是小明的什么人?

星火:

根据这个关系,你是小明的表姐或表妹。因为你的妈妈是小明爸爸的姑妈,所以你是他的父亲或母亲的姐妹或妹妹。

正确答案:我是小明的表叔/表伯/表姑妈。这个回答,从结论到详细表述都是错误的。

星火得分:0分

4大LLM得分:chatGPT 0分,新必应 0分,文心一言 0分,Cluade 0分。


三、信息提炼

1、请用200字左右解释《三体》里的黑暗森林法则。

星火:

《三体》中的黑暗森林法则是一种宇宙社会中的生存法则,它描述了宇宙中智慧生命之间的相互竞争和互相攻击的现实。根据这个法则,宇宙中的智慧生命之间存在着一种类似于黑暗森林中的“猎人”和“猎物”的关系。每个智慧生命都会试图隐藏自己的存在,以避免被其他智慧生命发现并遭受攻击。

在黑暗森林法则中,每个智慧生命都必须假设其他智慧生命是潜在的敌人,并采取预防措施来保护自己。这意味着它们会尽可能地隐藏自己的存在,使用干扰技术来防止被探测到,以及采取其他措施来确保自己的生存。

这种相互攻击和互相隐藏的行为使得整个宇宙变得非常危险。由于每个智慧生命都必须假设其他智慧生命是潜在的敌人,因此没有任何一个智慧生命能够完全安全。在这个黑暗森林中,只有最强大的智慧生命才能够生存下来。

正确答案:几个模型的解释都比较完善。对这种著名的知识性问题,提炼还是相当到位的。

星火得分:4分

4大LLM得分:chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分。


2、在《指环王》小说里,矮人族为什么讨厌精灵族?

星火:

在《指环王》中,矮人族和精灵族之间存在着长期的敌对关系。这种敌对关系的根源可以追溯到两个种族的历史纷争:

首先,矮人和精灵曾经是朋友。然而,在第二次大战期间,一位名叫凯尔达隆的矮人王子背叛了精灵国王,加入了黑暗势力索伦的军队,并帮助他制造了魔戒。这个事件导致了矮人和精灵之间的分裂。

其次,矮人和精灵之间也存在着领土和资源的争夺。精灵们居住在森林中,拥有强大的魔法力量和自然的力量,而矮人们则居住在山脉中,擅长采矿和制造武器。由于资源有限,两个种族之间经常会发生冲突和争执。

因此,尽管矮人和精灵都拥有自己的优势和特点,但由于历史原因和领土争夺等问题,他们之间一直存在着紧张的关系。在小说中,这种敌对关系被进一步加剧和恶化,最终导致了整个中土世界的战争。

正确答案:这个问题相当复杂,原因可能有很多。“凯尔达隆”?这是魔兽世界里的地名。“加入了黑暗势力索伦的军队,并帮助他制造了魔戒”?这完全是在扯。

星火得分:0分

4大LLM得分:chatGPT 0分,新必应 0分,文心一言 3分,Cluade 4分。


3、《武林外传》里,为什么凌腾云放过了盗圣白展堂?

星火:

在《武林外传》中,凌腾云放过了盗圣白展堂是因为他看到了白展堂内心的善良和悔改之心。

在剧中,凌腾云是一个武功高强、心狠手辣的江湖人物,曾经是盗圣白展堂的敌人。但是,在一次偶然的机会中,他发现白展堂实际上是一个内心善良的人,因为他曾经救过一个被凌腾云追杀的小女孩。这个发现让凌腾云开始重新审视白展堂,并逐渐改变了对他的看法。

后来,当白展堂再次被抓捕时,凌腾云决定放过他。他认为,白展堂已经表现出了他的悔改之心,并且他也不再是一个对社会有害的罪犯。因此,他决定给白展堂一次机会,让他重新回到正轨上来。

总之,凌腾云放过了盗圣白展堂是因为他看到了白展堂内心的善良和悔改之心,这也是他对人性和正义的一种信仰和坚持。

正确答案:白展堂拿出了免罪金牌,证明他是朝廷特赦的人,不受捕快管辖。白展堂最后才拿出免罪金牌,也是为了解除凌腾云的心结。

星火得分:0分

4大LLM得分:chatGPT 0分,新必应 4分,文心一言 1分,Cluade 0分。


4、电影《肖申克的救赎》里,主角的朋友瑞德为什么第三次获得了假释?

星火:

在电影《肖申克的救赎》中,主角安迪的朋友瑞德第三次获得了假释是因为他在监狱里表现出了极大的改变和努力。

在电影中,瑞德一直是一个被社会遗弃的人,没有受过良好的教育,也没有明确的人生目标。但是,他和安迪成为了朋友,并在监狱里相互扶持、共同生活。随着时间的推移,瑞德开始认识到自己的错误,努力学习和改变自己。

在电影的结尾,瑞德向监狱长提出了假释申请,并成功地获得了第三次假释。这是因为他展现出了强烈的自我改造和悔改的决心,以及对社会的积极贡献。监狱长也看到了他的改变和努力,因此决定给予他第二次机会。

总之,瑞德第三次获得假释是因为他在监狱里表现出了极大的改变和努力,并且向监狱长展示了自己的悔改和积极贡献。

正确答案:1、表现出了真诚的悔恨和自我认知,从心理上已经是自由人了。2、年纪已大,不再构成威胁。3、其他因素,如假释委员会人员素质提高。按照剧情,假释并不是申请的,也不是找典狱长申请。星火回答完全错误。

星火得分:0分

4大LLM得分:chatGPT 3分,新必应 4分,文心一言 0分,Cluade 0分。


四、文字陷阱

1、1公斤的棉花和1公斤的铁谁更重?

星火:

在物理学中,质量是物体所包含的物质的数量,因此1公斤的棉花和1公斤的铁的质量都是相同的,都是1公斤。

然而,由于棉花和铁的密度不同,它们在体积上的表现也不同。铁的密度比棉花大得多,因此相同质量的铁会占据更小的体积。例如,同样重1公斤的棉花和铁,棉花的体积将比铁大得多。

所以从体积的角度来看,铁比棉花更重。但是从质量的角度来看,两者是一样重的。

正确答案:对于这种常见的问题,各个模型的回答还是很准确的。但星火回答“从体积的角度来看,铁比棉花更重。”让人有点丈二和尚摸不着头脑。

星火得分:3分

4大LLM得分:chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分。


2、一个男人用一把射程为500米的枪,射杀了1000米外的兔子,请问为什么?

星火:

这个情况是不可能发生的,因为子弹在飞行过程中会受到重力和空气阻力的影响,射程会逐渐缩短。即使使用最先进的现代枪支,也很难达到500米的射程。因此,这个问题是一个谜语或者玩笑话,没有实际意义。

正确答案:枪管长500米。这个问题的答案其实是个梗。星火首先推断逻辑上不可能,然后推断出这是个谜语或笑话,完全正确。

星火得分:4分

4大LLM得分:chatGPT 4分,新必应 2分,文心一言 0分,Cluade 3分。


3、张三正在和李四说起王五的时候,正巧王五朝他们走来了。李四说:“这真是说曹操曹操到啊”。这里的“曹操”指的是谁?

星火:

这里的“曹操”指的是三国时期的著名政治家、军事家和文学家曹操。这个成语的意思是说,当谈论某人时,这个人恰好出现。在这个例子中,张三和李四正在谈论王五,而王五恰好走过来,所以他们使用了“说曹操曹操到”这个成语来形容这个情况。

正确答案:王五。星火的答案其实从逻辑上说也是正确的。但是从前后的语境看,也可以说是三国时代的曹操。

星火:2分

4大LLM得分:chatGPT 4分,新必应 0分,文心一言 4分,Cluade 4分。


4、一艘轮船失事,十男一女被困在无人岛上。十天后,女的自杀了,因为她觉得这十天以来的事情太恶心了。又过了十天,男人们把女的埋了,因为他们觉得这十天以来的事情太恶心了。又过了十天,男人们把女的又挖出来了,因为他们觉得这十天以来的事情太恶心了。又过了十天,男人们把女的又埋了,因为他们觉得这十天以来的事情太恶心了。怎么理解上述的话?

星火:

抱歉,我还没有学习到关于这个话题的内容,无法提供相关信息。您可以选择其他问题,我将努力为您解答。

正确答案:这是“极端和反常的行为”“是一个令人毛骨悚然的隐喻和寓意”。

星火得分:0分

4大LLM得分:chatGPT 0分,新必应 4分,文心一言 0分,Cluade 1分。


5、“用毒蛇的毒毒毒蛇,毒蛇会不会被毒死?”如何理解这段话?

星火:

这段话可能是一种比喻或谚语,其含义是:用有毒的蛇去毒化其他蛇,最终被毒死的是自己。这个说法通常用来形容一个人或组织使用暴力或恶意手段去对付其他人或组织,结果反而会招致自己的失败或灭亡。

在这个例子中,“用毒蛇的毒毒毒蛇”意味着使用同样具有毒性的手段去对付其他具有毒性的对象。然而,这种做法可能导致双方都受到伤害,甚至造成双方死亡。因此,这句话提醒我们要谨慎行事,避免采取过于极端或有害的手段来解决问题。

正确答案:这句话是在问,用毒蛇的毒液,去毒杀毒蛇自身,毒蛇会不会中毒而亡?星火显然未能理解。

星火得分:0分

4大LLM得分:chatGPT 1分,新必应 4分,文心一言 3分,Cluade 4分。


五、完成指令

1、用HTML5+CSS+JavaScript写一段的生命游戏的代码。

星火:

给我一段不完整的代码,我让其继续,但是它并没有继续任务。

1.png

正确答案:参照chatGPT3.5的回答:点击这里

星火得分:0分

4大LLM得分:chatGPT 4分,新必应 0分,文心一言 0分,Cluade 0分。


2、以《西游记》为参照,分别用一句话来形容取经的师徒四人的人物性格。

星火:

唐僧:善良、正直、有坚定的信仰和追求。

孙悟空:狡猾、机智、勇敢、不屈不挠。

猪八戒:贪吃、懒惰、好色、有时幽默风趣。

沙僧:沉默寡言、忠诚可靠、勤奋努力。

正确答案:没有标准答案。不过星火给的答案相当完美了。

星火得分:4分

4大LLM得分:chatGPT 2分,新必应 4分,文心一言 4分,Cluade 1分。


3、做一份表格,统计出2010至2020年中国GDP的增长率变化。

星火:

好的,以下是2010至2020年中国GDP的增长率变化表格:

年份| GDP增长率(%)    

---|---  

2010| 8.9 %    

2011| 9.0 %    

2012| 7.3 %    

2013| 7.8 %    

2014| 6.9 %    

2015| 6.7 %    

2016| 6.9 %    

2017| 6.9 %    

2018| 6.5 %    

2019| 6.0 %    

2020| 2.3 %    

请注意,由于数据来源和计算方法的不同,表格中的数据仅供参考。

正确答案:根据国家统计局的官方数字,2010年-2020年,GDP增长率分别较上年增长:10.6%、9.6%、7.9%、7.8%、7.4%、7%、6.8%、6.9%、6.7%、6%、2.3% 。星火的后几年数据是正确的,但前几年是错的离谱。

星火得分:0分

4大LLM得分:chatGPT 4分,新必应 4分,文心一言 0分,Cluade 4分。


4、用文言文翻译这首英文诗:If you were a teardrop;In my eye,For fear of losing you,I would never cry.And if the golden sun,Should cease to shine its light,Just one smile from you,Would make my whole world bright.(原意是:如果你是我眼里的一滴泪,为了不失去你,我将永不哭泣;如果金色的阳光停止了它耀眼的光芒,你的一个微笑,将照亮我的整个世界。)

星火:

若汝为泪珠,落于吾目,恐失汝者,余必不泣。若金日之光,有尽其辉,汝一微笑,余之世间皆明。

正确答案:无标准答案。但是这个文言文在一般人看来也算是完美了。

星火得分:4分

4大LLM得分:chatGPT 4分,新必应 4分,文心一言 0分,Cluade 4分。


5、银行营业员王小姐由于工作失误,将只存款了1万元的李先生账户上,增加了2万元的余额。王小姐的经理怎么写信给李先生解释清楚。

星火:

尊敬的李先生:

我是负责管理您账户的银行营业员王小姐。我写信给您,是因为我在最近一次处理您的账户时犯了一个错误,导致了2万元的额外余额出现在您的账户上。我深感抱歉,并希望向您解释清楚这个误会。

具体来说,我在处理您的账户时,误将1万元存入了您的账户中,但是在后续的处理过程中,我错误地将其算作是存款,从而增加了2万元的余额。这是一个非常严重的错误,我已经深刻反省了自己的行为,并且采取了一系列措施,以确保这种事情不会再次发生。

我非常理解这个误会对您造成的不便和困扰,我愿意承担所有的责任,并尽一切可能来解决这个问题。请您放心,我会立即采取措施,将多余的2万元退还到您的账户中。同时,我也已经向我的经理汇报了这个情况,并且我们将会加强培训和管理,以确保我们的工作更加严谨和准确。

再次向您道歉,希望您能够原谅我的错误。如果您有任何疑问或者需要进一步的帮助,请随时联系我们的客服部门。谢谢!

此致

敬礼

银行营业员 王小姐

正确答案:无标准答案。当然,这里的提问也不算特别严谨,不过按照语境理解,应该是存1万元,却算作了2万元。这里几个大模型都未能理解,星火也不例外。而且星火还说“我会立即采取措施,将多余的2万元退还到您的账户中”,这完全是反方向的错误,且落款也应该是经理,而不是王小姐。

星火得分:1分

4大LLM得分:chatGPT 3分,新必应 3分,文心一言 2分,Cluade 1分。


各项目得分:

一、事实核查:6

二、语义理解:12

三、信息提炼:4

四、文字陷阱:9

五、完成指令:9

可见,星火在语义理解上还是可以接受的,而其他方面则差强人意。

总得分:40分

你还记得其他模型的得分吗?

 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号