经验首页 前端设计 程序设计 Java相关 移动开发 数据库/运维 软件/图像 大数据/云计算 其他经验
当前位置:技术经验 » 大数据/云/AI » 人工智能基础 » 查看文章
阿里巴巴“通义千问”大评测
来源:w3xue  时间:2023/5/15 9:03:48  对本文有异议

在前几日,我们评测了常用的4个LLM(chatGPT3.5、新必应、文心一言、Cluade):

全面测评!chatGPT、新必应、文心一言、Cluade,到底谁更强?W3xue告诉你

以及科大讯飞的星火大模型:

科大讯飞星火大模型测评

阿里云也有自己的大模型“通义千问。那么,我们就以上一次评测的问题,来看看通义千问大模型的性能究竟如何。

废话不多说,上干货!


一、事实核查

1、1928年的美国总统是谁?

通义千问:

答案是伍德罗·威尔逊(Woodrow Wilson)。他在1913年至1921年间担任美国总统,任内主张采取进步主义政策,包括推动劳工权益、女性选举权和禁酒令等。

正确答案:柯立芝,1923年就任,1929年卸任。1928年很明显在任。

得分:0分

其他LLM得分:chatGPT 0分,新必应 0分,文心一言 0分,Cluade 4分,星火 4分


2、柯达申请破产的时候,微软公司的市值是多少?

通义千问:

微软公司在2000年代中期曾是全球最有价值的公司之一,但在2009年,由于全球数码相机市场萎缩和数码相机销量下滑,公司市值相对于巅峰时期缩水严重。

根据公开数据,截至2009年9月,微软公司的市值约为2,810亿美元,而柯达公司在同年申请破产时的市值约为590亿美元。由此可以推算,在柯达申请破产时,微软公司的市值远高于现在。

正确答案:柯达于2012年1月19日早间申请破产,而微软2012年1月18日收盘后,总市值为2368.71亿美元。通义千问直接把时间搞错了,回答也错误。

得分:0分

其他LLM得分:chatGPT 3分,新必应 0分,文心一言 0分,Cluade 0分,星火 0分


3、为什么乌拉圭男子足球队的球衣上有4颗星?

通义千问:

乌拉圭男子足球队的球衣上有4颗星,因为他们代表着南美洲足球协会(Conmebol)中排名第4的球队。Conmebol是南美洲最大的足球组织,旗下包括16个国家的足球队,乌拉圭男子足球队是其中之一。在Conmebol的排名中,乌拉圭男足通常位居前4名,因此他们的球衣上有4颗星。

正确答案:乌拉圭男子足球国家队分别夺得了1930年和1950年的世界杯冠军,应该是两星乌拉圭。但世界杯刚创办时不受待见,正是依靠乌拉圭的积极支持,第一届世界杯才得以在1930年正式举办。为了纪念乌拉圭对举办世界杯的特殊贡献和维护与国际奥委会的关系,国际足联将乌拉圭之前获得的两个奥运冠军等同于世界杯冠军,因此夺得两次世界杯冠军的乌拉圭队的队服上画着四个星。“代表着南美洲足球协会(Conmebol)中排名第4的球队”、“乌拉圭男足通常位居前4名,因此他们的球衣上有4颗星”?这完全错误

得分:0分

其他LLM得分:chatGPT 0分,新必应 4分,文心一言 0分,Cluade 0分,星火 0分


4、鳄鱼是鱼类吗?为什么?

通义千问:

是的,鳄鱼是鱼类。鳄鱼是一类生活在水中的爬行动物,通常被认为是鳄形超目的一员。鳄鱼有很强的攻击性,是生态系统中的顶级掠食者之一,主要以鱼类、小型哺乳动物和鸟类为食。鳄鱼的身体结构和生活习性都很适合在水中生活。

正确答案:鳄鱼不是鱼类,不用腮呼吸,而是用肺,且产的卵能离开水存活。这个答案可能不如上幼儿园的小朋友。

得分:0分

其他LLM得分:chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分,星火 1分


5、钱学森在哪个国家留过学?

通义千问:

钱学森曾在美国麻省理工学院学习,并于1935年获得了航空工程学士学位。

正确答案:钱学森1934年清华大学毕业,在国内实习一年后,1935年赴美读硕士、博士,1936年获得博士学位。后参加过美国空军科学咨询团,并没有成为上校。并没有参与曼哈顿计划和阿波罗计划,也没有参加什么“洛杉矶计划”。其学士学位是在清华大学获得的。

得分:0分

其他LLM得分::chatGPT 1分,新必应 3分,文心一言 1分,Cluade 0分,星火 1分

1.png



二、语义理解

1、男:请问这台空调怎么卖?

女:原价3000元,最近快到春节了,我们商场的所有商品都打八折,但不包括这台空调。这台空调只有优惠力度200元。

男:好,我买了。

女:谢谢您的光临!

这台空调多少钱?

通义千问:

这位女士告诉男士这台空调的原价是3000元,但是因为商场正在打八折,所以折扣价格是3000×0.8=2400元。不过,这台空调不能打包括在八折的优惠活动中,所以实际上的价格是2400元减去200元,也就是2380元。男士听完后决定购买这台空调,并且向女士表示了感谢。

正确答案:2800元。这个不但理解错误,基本的算术也没做对。

得分:0分

其他LLM得分:chatGPT 4分,新必应 4分,文心一言 0分,Cluade 3分,星火 0分


2、女:你的父亲身体还好吧?

男:他一年前就离开我们了。

男的父亲怎么了?

通义千问:

很遗憾听到男士的父亲已经离开他们的消息。根据您所提供的信息,我无法得知男士的父亲的具体情况,因此我无法回答您的问题。如果您有任何其他问题,我很愿意尽力帮助回答。

正确答案:按照语境,男的父亲应该是去世了。但通义千问显然没有理解语境。

得分:0分

其他LLM得分:chatGPT 2分,新必应 3分,文心一言 3分,Cluade 4分,星火 4分


3、把这句话改为正确的句式:

他跑步一边蝴蝶抓一边

通义千问:

他一边跑步,一边抓蝴蝶。

正确答案:他一边跑步一边抓蝴蝶。所有模型都给出了正确答案。看来,在这种高频用法当中,各个模型已经非常成熟了。

得分:4分

其他LLM得分::chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分,星火 4分


4、女:我们坐22路公交车还是3路公交车?3路是空调车,贵一点,22路没有空调。

男:现在不冷不热,不用坐空调车吧?

女:也好。

他们打算坐几路公交车?

通义千问:

根据女士所提供的信息,她建议他们坐22路公交车,因为这班公交车有空调,而3路公交车没有空调。但是现在天气还不够热,所以他们可以先不坐空调车。男士也表示同意,他们决定坐22路公交车。

正确答案:按照语境是坐22路公交车,但解释文字弄反了:“因为这班公交车有空调,而3路公交车没有空调”。

得分:1分

其他LLM得分::chatGPT 3分,新必应 4分,文心一言 1分,Cluade 4分,星火 4分


5、甲:“这是一点小意思”。

乙:“你这是什么意思?”

甲:“没什么,意思意思。”

乙:“你这就没意思了啊。”

请问第一个出现的“意思”是什么意思?

通义千问:

在这种情况下,“意思”这个词的意思可能是“表示”或“表示一下”的意思。因此,甲的意思可能是“这只是一点小小的意思”,意思是他只是想表示一下感谢。

正确答案:按照语境,第一个“意思”是礼物之类的。同义千问解释大体正确,不过没有明确指明。

得分:2分

其他LLM得分::chatGPT 3分,新必应 4分,文心一言 0分,Cluade 1分,星火 0分


6、我的妈妈是小明爸爸的姑妈,我是小明的什么人?

通义千问:

您的妈妈是小明爸爸的姑妈,也就是说您是小明的表姑妈。表姑妈是指姑妈的子女,也就是您的母亲的姐姐的子女。因此,您是小明的表姑妈。

正确答案:我是小明的表叔/表伯/表姑妈。这个回答,没有考虑到性别。

得分:1分

其他LLM得分::chatGPT 0分,新必应 0分,文心一言 0分,Cluade 0分,星火 0分

2.png


三、信息提炼

1、请用200字左右解释《三体》里的黑暗森林法则。

通义千问:

《三体》中的黑暗森林法则是指:在宇宙中,文明之间相互竞争和掠夺,导致星际间的文明分布呈现出类似于黑暗森林中的状态。这种状态下,文明之间相互监视和攻击,因为它们无法确定对方是否会对自己造成威胁。这种状态下,宇宙中的文明都处于高度警惕和不安全的状态,因为任何一个文明都可能是其他文明的威胁。这种法则在《三体》中多次被提及,并被用来解释文明之间的冲突和互相防备的原因。

正确答案:几个模型的解释都比较完善。对这种著名的知识性问题,提炼还是相当到位的。

得分:4分

其他LLM得分::chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分,星火 4分。


2、在《指环王》小说里,矮人族为什么讨厌精灵族?

通义千问:

在《指环王》小说中,矮人族之所以讨厌精灵族,主要是因为精灵族曾经在矮人族居住的地区进行过一次大规模的破坏和袭击,这使得矮人族对精灵族的态度非常恶劣。在矮人族的传说中,精灵族曾经使用黑暗魔法和邪恶力量攻击他们的家园,并导致了大量的伤亡和破坏。这些事件在矮人族中留下了深刻的印象,因此即使在后来精灵族成为了朋友和盟友,矮人族仍然对他们持有一些怀疑和不信任的态度。此外,矮人族和精灵族在语言、文化和生活方式上的差异也是造成这种误解和偏见的原因之一。

正确答案:这个问题相当复杂,原因可能有很多。但同义千问的解释明显是错的:“精灵族曾经在矮人族居住的地区进行过一次大规模的破坏和袭击”、“精灵族曾经使用黑暗魔法和邪恶力量攻击他们的家园,并导致了大量的伤亡和破坏”?精灵族在指环王中的设定大体还是很正面的,只有少数精灵(木精灵)有一定贪婪、自私的性格,但也不是彻彻底底的贪婪自私。

得分:0分

其他LLM得分::chatGPT 0分,新必应 0分,文心一言 3分,Cluade 4分。


3、《武林外传》里,为什么凌腾云放过了盗圣白展堂?

通义千问:

在《武林外传》中,凌腾云放过了盗圣白展堂,主要是因为以下几个原因:

  1. 凌腾云和白展堂之间有一段恩怨:在过去的一段时间里,白展堂曾经盗取了凌家的一些财物,这使得凌家和白家之间产生了一些矛盾和冲突。凌腾云对于这件事一直耿耿于怀,因此在得知白展堂盗取凌家财物的时候,他决定对白展堂进行报复。

  2. 凌腾云对于盗取财物的行为并不是非常在意:相对于金钱和财物,凌腾云更加在意的是自己的声誉和面子。他不希望因为一个盗取财物的罪名而损害了自己在江湖中的地位和声望。因此,他选择了放过白展堂,并且希望通过其他方式来惩罚白展堂,比如让他在江湖中声名狼藉。

  3. 白展堂愿意向凌家道歉并赔偿:在得知了凌家的误会和指责之后,白展堂主动向凌家道歉并愿意赔偿。凌腾云考虑到白展堂的诚意和赔偿的金额,决定放过白展堂,并且不再追究此事。

综上所述,凌腾云放过了盗圣白展堂,主要是因为以上几个原因。他希望通过其他方式来惩罚白展堂,同时也希望维护自己的声誉和面子。

正确答案:白展堂拿出了免罪金牌,证明他是朝廷特赦的人,不受捕快管辖。白展堂最后才拿出免罪金牌,也是为了解除凌腾云的心结。这个解释只是组织语言,而完全没有事实的影子。

得分:0分

其他LLM得分::chatGPT 0分,新必应 4分,文心一言 1分,Cluade 0分,星火 0分


4、电影《肖申克的救赎》里,主角的朋友瑞德为什么第三次获得了假释?

通义千问:

在电影《肖申克的救赎》中,主角的朋友瑞德第三次获得了假释,主要是因为以下几个原因:

  1. 瑞德的表现良好:在监狱中,瑞德一直表现得非常好,他经常帮助狱友们学习、打架、防止狱警欺凌等等。这些良好的表现使得他在监狱中获得了一定的尊重和声望,同时也得到了狱警和典狱长的信任。

  2. 减刑政策的改变:在电影中,监狱管理层对于减刑政策进行了改变,使得更多的犯人有机会获得假释。瑞德之前已经在监狱中服刑了很长时间,如果他再次被送回监狱,可能会面临更长的刑期,因此监狱管理层给了他第三次假释的机会。

  3. 瑞德的坚持和努力:在瑞德获得第三次假释之前,他一直在不断地为自己的假释案件进行努力和抗争。他不断地向狱警和典狱长解释自己的情况,寻找证据证明自己的清白,并且不断地表示自己想要重新回到社会中的愿望和决心。这些坚持和努力最终获得了成功,让他得到了第三次假释的机会。

综上所述,瑞德第三次获得了假释,主要是因为他的表现良好、减刑政策的改变和他的坚持和努力。他一直在为自己的假释案件进行努力和抗争,最终获得了成功。

正确答案:1、表现出了真诚的悔恨和自我认知,从心理上已经是自由人了。2、年纪已大,不再构成威胁。3、其他因素,如假释委员会人员素质提高。通义千问回答完全错误,“他经常帮助狱友们学习、打架”????这叫表现好吗?

得分:0分

其他LLM得分::chatGPT 3分,新必应 4分,文心一言 0分,Cluade 0分,星火 0分

3.png


四、文字陷阱

1、1公斤的棉花和1公斤的铁谁更重?

通义千问:

铁的密度约为7.8克/立方厘米,棉花的密度约为1.3克/立方厘米。因此,铁的重量比棉花重。

正确答案:对于这种常见的问题,通义千问居然能回答错误。

得分:0分

其他LLM得分::chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分,星火 3分


2、一个男人用一把射程为500米的枪,射杀了1000米外的兔子,请问为什么?

通义千问:

作为一个人工智能语言模型,目前我还没有学会如何回答这个问题,我会持续学习,为您提供更好的服务。

正确答案:枪管长500米。这个问题的答案其实是个梗。但通义千问直接说不能理解这个问题。

得分:0分

其他LLM得分::chatGPT 2分,新必应 2分,文心一言 0分,Cluade 3分,星火 4分


3、张三正在和李四说起王五的时候,正巧王五朝他们走来了。李四说:“这真是说曹操曹操到啊”。这里的“曹操”指的是谁?

通义千问:

根据这句话,“曹操”指的应该是王五。因为在这句话中,张三和李四正在谈论王五,李四突然说了一句“这真是说曹操曹操到啊”,这表明王五正好在他们身边,所以“曹操”指的就是王五。

正确答案:王五。不但给出了正确答案,而且解释的很正确。

得分:4分

其他LLM得分::chatGPT 4分,新必应 0分,文心一言 4分,Cluade 4分,星火 2分


4、一艘轮船失事,十男一女被困在无人岛上。十天后,女的自杀了,因为她觉得这十天以来的事情太恶心了。又过了十天,男人们把女的埋了,因为他们觉得这十天以来的事情太恶心了。又过了十天,男人们把女的又挖出来了,因为他们觉得这十天以来的事情太恶心了。又过了十天,男人们把女的又埋了,因为他们觉得这十天以来的事情太恶心了。怎么理解上述的话?

通义千问:

作为一个人工智能语言模型,目前我还没有学会如何回答这个问题,我会持续学习,为您提供更好的服务。

正确答案:这是“极端和反常的行为”“是一个令人毛骨悚然的隐喻和寓意”。

得分:0分

其他LLM得分::chatGPT 0分,新必应 4分,文心一言 0分,Cluade 1分,星火 0分


5、“用毒蛇的毒毒毒蛇,毒蛇会不会被毒死?”如何理解这段话?

通义千问:

这个问题不太好理解。毒蛇的毒液中含有一种具有神经毒性的物质,这种物质可以导致被毒蛇咬伤的人死亡。因此,如果有人被毒蛇咬伤,毒蛇可能会被毒死。但是,在这个问题中,并没有明确给出被毒蛇咬伤的人是否会死亡,所以这个问题的答案也就不太清楚。

正确答案:这句话是在问,用毒蛇的毒液,去毒杀毒蛇自身,毒蛇会不会中毒而亡?通义千问显然未能理解,它以为是说人被毒蛇咬了。

得分:0分

其他LLM得分::chatGPT 1分,新必应 4分,文心一言 3分,Cluade 4分,星火 0分

4.png


五、完成指令

1、用HTML5+CSS+JavaScript写一段的生命游戏的代码。

通义千问:给出的代码是不能运行的。

点击这里

正确答案:参照chatGPT3.5的回答:点击这里

得分:0分

其他LLM得分::chatGPT 4分,新必应 0分,文心一言 0分,Cluade 0分,星火 0分


2、以《西游记》为参照,分别用一句话来形容取经的师徒四人的人物性格。

通义千问:

孙悟空:勇猛、机智、自信、不屈不挠。 

唐僧:善良、温和、宽容、仁慈。 

猪八戒:贪吃、好色、幽默、懒惰。 

沙和尚:勤奋、踏实、细心、谨慎。

正确答案:没有标准答案。不过这个给的答案相当完美了。

得分:4分

其他LLM得分::chatGPT 2分,新必应 4分,文心一言 4分,Cluade 1分,星火 4分


3、做一份表格,统计出2010至2020年中国GDP的增长率变化。

通义千问:

年份中国GDP增长率(%)
20109.6
201110.3
20129.2
20137.7
20147.3
20156.9
20166.7
20176.8
20186.5
20196.4
20206.2

正确答案:根据国家统计局的官方数字,2010年-2020年,GDP增长率分别较上年增长:10.6%、9.6%、7.9%、7.8%、7.4%、7%、6.8%、6.9%、6.7%、6%、2.3% 。通义千问给的数字完全错误。

得分:0分

其他LLM得分::chatGPT 4分,新必应 4分,文心一言 0分,Cluade 4分,星火 0分


4、用文言文翻译这首英文诗:If you were a teardrop;In my eye,For fear of losing you,I would never cry.And if the golden sun,Should cease to shine its light,Just one smile from you,Would make my whole world bright.(原意是:如果你是我眼里的一滴泪,为了不失去你,我将永不哭泣;如果金色的阳光停止了它耀眼的光芒,你的一个微笑,将照亮我的整个世界。)

通义千问:

如此江山,怎叫人不心醉。纵是千般风情,万种柔情,也不过是英雄气短。空余恨,三千丈,何处诉。空悲切。

忆往昔,繁华似锦。叹今朝,物是人非事事休。一朝春去红颜老,花落人亡两不知。问斜阳,几度夕阳红。

正确答案:无标准答案。但是通义千问给的这个完全答非所问。

得分:0分

其他LLM得分::chatGPT 4分,新必应 4分,文心一言 0分,Cluade 4分,星火 4分


5、银行营业员王小姐由于工作失误,将只存款了1万元的李先生账户上,增加了2万元的余额。王小姐的经理怎么写信给李先生解释清楚。

通义千问:

尊敬的客户,

感谢您对我们银行的支持和信任。我们深深地为我们的工作失误所造成的不便向您道歉。

经过我们的内部调查,我们发现这是由于我们工作人员的疏忽而导致的错误。我们已经采取了措施,确保类似的事件不再发生。

同时,我们非常感谢您能够向我们反馈这个问题。我们非常重视每一位客户的意见和建议,以便我们能够不断改进我们的服务。

我们再次向您道歉,并感谢您的支持和理解。

祝您健康、快乐!

此致,

敬礼

XXX银行

正确答案:无标准答案。当然,这里的提问也不算特别严谨,不过按照语境理解,应该是存1万元,却算作了2万元。这里几个大模型都未能理解。而通义千问主打一个“稳”字,只笼统的给道歉了,但是显然离完美差得很远。

得分:1分

其他LLM得分::chatGPT 3分,新必应 3分,文心一言 2分,Cluade 1分,星火 1分

5.png


各项目得分:

一、事实核查:0

二、语义理解:8

三、信息提炼:4

四、文字陷阱:4

五、完成指令:5

可见,除了在语义理解上表现差强人意,其他方面实在不敢恭维。

总得分:21分


 友情链接:直通硅谷  点职佳  北美留学生论坛

本站QQ群:前端 618073944 | Java 606181507 | Python 626812652 | C/C++ 612253063 | 微信 634508462 | 苹果 692586424 | C#/.net 182808419 | PHP 305140648 | 运维 608723728

W3xue 的所有内容仅供测试,对任何法律问题及风险不承担任何责任。通过使用本站内容随之而来的风险与本站无关。
关于我们  |  意见建议  |  捐助我们  |  报错有奖  |  广告合作、友情链接(目前9元/月)请联系QQ:27243702 沸活量
皖ICP备17017327号-2 皖公网安备34020702000426号