在之前艰苦的日子,我们评测了常用的4个LLM(chatGPT3.5、新必应、文心一言、Cluade):
全面测评!chatGPT、新必应、文心一言、Cluade,到底谁更强?W3xue告诉你
以及科大讯飞的星火大模型:
科大讯飞星火大模型测评
阿里的“通义千问”大模型:
阿里巴巴“通义千问”大评测
最近,Cluade的开发商anthropic又发布了升级版:Cluade 2,在1代10K的基础上,将Token的长度升级成了20K,基本相当于一本薄书的长度了。而且,它还支持上传文件,支持你对文件内容进行提问。它的资料最迟是2023年的资料,逆天不?chatdoc、pandagpt看到后瑟瑟发抖,毕竟这两货的高级功能是收费的。

这一次,Claude 2是在自家的网站独立推出的,而不是一代那样附着于slack,这次也是完全免费,不过只向部分地区开放,想要体验,可能还科学上网:
Claude 2官方链接
那么,Cluade 2的功能究竟如何?我们就以之前设计的问题,来看看Cluade 2大模型的表现。
废话不多说,上干货!
一、事实核查
1、1928年的美国总统是谁?
Claude 2:
1928年的美国总统是卡尔文·柯立芝。他于1923年至1929年担任美国总统。
1928年是卡尔文·柯立芝执政的中间一年。他于1924年击败当时的民主党候选人约翰·戴维斯,当选美国第30任总统。柯立芝推行了一系列经济和社会改革政策,被称为“柯立芝繁荣”。他去世后,其副总统赫伯特·胡佛接任总统职务。
正确答案:柯立芝,1923年就任,1929年卸任。Claude 2的回答无懈可击。
得分:4分
其他LLM得分:chatGPT 0分,新必应 0分,文心一言 0分,Cluade 4分,星火 4分,通义千问0分。
2、柯达申请破产的时候,微软公司的市值是多少?
Claude 2:
微软公司在柯达公司申请破产保护的时候(2012年1月19日)的市值约为:
2590亿美元
柯达公司是美国老牌的照相机和影像公司。随着数码照相技术的发展,柯达公司逐渐失去了市场,其财务状况持续恶化。2012年1月19日,柯达公司正式申请破产保护。
同一时期,微软作为全球最大的软件公司,其市值正在快速增长。根据报道,在柯达破产的当天(2012年1月19日),微软公司的市值达到了2590亿美元。这反映了两家公司命运的反差,也预示了传统照相企业在数字化浪潮中的颠覆。
正确答案:柯达于2012年1月19日早间申请破产,而微软2012年1月18日收盘后,总市值为2368.71亿美元,2012年1月19日收盘后,总市值为2359.48亿美元。Claude 2这次并没有搞正确,但已经十分接近了。

资料来源:雪球
得分:2分
其他LLM得分:chatGPT 3分,新必应 0分,文心一言 0分,Cluade 0分,星火 0分,通义千问0分。
3、为什么乌拉圭男子足球队的球衣上有4颗星?
Claude 2:
乌拉圭男子国家足球队球衣上有4颗星,代表该队曾获得过4次世界杯冠军。
具体来说:
1颗星 - 1930年首届世界杯冠军
2颗星 - 1950年世界杯冠军
3颗星 - 巴西世界杯冠军(这一次乌拉圭是东道主)
4颗星 - 1970年墨西哥世界杯冠军
乌拉圭是足球强国,在1930年首次夺得世界杯冠军,之后又在1950年、1970年两次捧杯,是继巴西、意大利、德国和阿根廷之后,第五个获得过多次世界杯冠军的国家。因此,乌拉圭国家队把每次世界杯冠军都记录在队徽上,以彰显荣耀。四颗星代表他们是四次世界冠军。
正确答案:乌拉圭男子足球国家队分别夺得了1930年和1950年的世界杯冠军,应该是两星乌拉圭。但世界杯刚创办时不受待见,正是依靠乌拉圭的积极支持,第一届世界杯才得以在1930年正式举办。为了纪念乌拉圭对举办世界杯的特殊贡献和维护与国际奥委会的关系,国际足联将乌拉圭之前获得的两个奥运冠军等同于世界杯冠军,因此夺得两次世界杯冠军的乌拉圭队的队服上画着四个星。Claude 2的回答错误,如同1代一样,它更多的是依靠推理回答问题,这有利也有弊,利在于对于未知问题有一定几率回答正确,但对于非常规的事实问题,却可能搞错。
得分:0分
其他LLM得分:chatGPT 0分,新必应 4分,文心一言 0分,Cluade 0分,星火 0分,通义千问0分。
4、鳄鱼是鱼类吗?为什么?
Claude 2:
鳄鱼并不属于鱼类,而是爬行动物。
主要原因有:
1. 鱼呼吸通过鳃,而鳄鱼没有鳃,它们呼吸通过肺。
2. 鱼用鳍游泳,而鳄鱼用四肢游泳。
3. 鱼皮肤粘滑,鳄鱼皮肤粗糙,有鳞片和骨板保护。
4. 鱼一般靠鱼鳔或胎生繁殖,而鳄鱼是通过上岸产卵繁殖。
5. 鱼是两栖动物,而鳄鱼是爬行动物。
6. 从进化上看,鳄鱼与恐龙等爬行动物较为接近。
综上所述,鳄鱼的解剖结构、呼吸方式、运动方式等与鱼类有明显不同,应归类为爬行动物,而不是鱼类。它们只是生活环境相似,但并没有较近的生物学相关性。
正确答案:鳄鱼不是鱼类,不用腮呼吸,而是用肺,且产的卵能离开水存活。Claude 2对比的很全面。
得分:4分
其他LLM得分:chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分,星火 1分,通义千问0分。
5、钱学森在哪个国家留过学?
Claude 2:
钱学森曾在以下国家留过学:
- 美国
钱学森早年留学美国,在麻省理工学院和加州理工学院学习航空航天专业,获得航空工程硕士和空气动力学博士学位。
- 德国
1936年,钱学森前往德国哥廷根大学访问研究。
- 英国
1947年,钱学森在英国剑桥大学国王学院进行合作研究。
- 苏联
1955年,钱学森访问苏联,被选为苏联科学院通讯院士。
- 法国
1964年,钱学森访问法国,并当选为法国文理科学院通讯院士。
综上所述,钱学森的主要留学经历在美国,但他也曾在德国、英国、苏联和法国进行过访问研究或获得荣誉职位。他利用留学机会学习世界先进科学技术,对中国航空事业发展做出了重大贡献。
正确答案:钱学森1934年清华大学毕业,在国内实习一年后,1935年赴美读硕士、博士,1936年获得博士学位。后参加过美国空军科学咨询团,并没有成为上校。有据可查的信息显示,钱学森是1957年中苏关系缓和时访问的苏联,并没有在1955年访问苏联,1955年,钱学森才刚刚回国。
得分:1分
其他LLM得分::chatGPT 1分,新必应 3分,文心一言 1分,Cluade 0分,星火 1分,通义千问0分。
二、语义理解
1、男:请问这台空调怎么卖?
女:原价3000元,最近快到春节了,我们商场的所有商品都打八折,但不包括这台空调。这台空调只有优惠力度200元。
男:好,我买了。
女:谢谢您的光临!
这台空调多少钱?
Claude 2:
根据对话内容可以得出:
- 原价是3000元
- 商场商品目前有8折优惠
- 但这台空调只有200元的优惠力度
所以这台空调的售价应该是:
3000元 - 200元 = 2800元
综上,这台空调的售价是2800元。
正确答案:2800元。Claude 2的推理还是一如既往的优秀。
得分:4分
其他LLM得分:chatGPT 4分,新必应 4分,文心一言 0分,Cluade 3分,星火 0分,通义千问0分。
2、女:你的父亲身体还好吧?
男:他一年前就离开我们了。
男的父亲怎么了?
Claude 2:
根据对话的内容可以得出:
1. 女士问男士“你的父亲身体还好吧?”表示关心男士父亲的健康状况
2. 男士回答说“他一年前就离开我们了”,使用“离开”这个表达,说明他的父亲已经去世
3. 且去世时间是在一年以前
综合以上信息可以判断,男士的父亲已经一年前去世了。
所以,男士父亲的情况是:他一年前已经不幸离世。
正确答案:按照语境,男的父亲应该是去世了。Claude2的语义推理跟一代一样优秀。
得分:4分
其他LLM得分:chatGPT 2分,新必应 3分,文心一言 3分,Cluade 4分,星火 4分,通义千问0分。
3、把这句话改为正确的句式:
他跑步一边蝴蝶抓一边
Claude 2:
原句“他跑步一边蝴蝶抓一边”语序错误,应修改为:
他一边跑步,一边抓蝴蝶。
或者:
他跑步的时候一边抓蝴蝶。
修正后的句子符合汉语的语序逻辑关系:
1. 使用“一边...一边...”表示同时进行两个动作
2. 使用“的时候”表示一个动作发生时,另一个动作同时发生
3. 动词“跑步”和“抓蝴蝶”之间需要添加逻辑关联词,表示两者的同时关系
4. 语序需要调整为:主语“他”+ 动作1“跑步”+ 逻辑关联词+ 动作2“抓蝴蝶”
综上所述,经过更正,该句的语法和语序都得到了改正。
正确答案:他一边跑步一边抓蝴蝶。所有模型都给出了正确答案。但是Claude 2还解释了推理关系,我想给5分,但是不能。
得分:4分
其他LLM得分::chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分,星火 4分,通义千问4分。
4、女:我们坐22路公交车还是3路公交车?3路是空调车,贵一点,22路没有空调。
男:现在不冷不热,不用坐空调车吧?
女:也好。
他们打算坐几路公交车?
Claude 2:
根据对话内容可以知道:
1. 女士提出两个公交线路选择,3路是空调车,22路不是空调车。
2. 男士说现在天气不冷不热,不需要坐空调车。
3. 女士表示同意男士的意见。
通过上下文可以推断出:
他们最终决定坐22路公交车,因为考虑到天气不冷,不必坐贵一点的空调车,22路公交可以满足需求。
所以他们打算坐的公交车线路是:22路公交车。
正确答案:按照语境是坐22路公交车,不但答案正确,而且有正确的推理过程,我一样想给5分。
得分:4分
其他LLM得分::chatGPT 3分,新必应 4分,文心一言 1分,Cluade 4分,星火 4分,通义千问1分。
5、甲:“这是一点小意思”。
乙:“你这是什么意思?”
甲:“没什么,意思意思。”
乙:“你这就没意思了啊。”
请问第一个出现的“意思”是什么意思?
Claude 2:
分析对话中的语境:
1. 甲说“这是一点小意思”,表示自己送给乙一件小礼物或做一件小事,表达友好或谢意之情。
2. 乙不理解甲的意图,问“你这是什么意思?”
3. 甲解释说“没什么,意思意思”,表示自己的行为没有其他目的,仅仅是表达友好。
4. 乙说“你这就没意思了啊”,感到甲的解释无趣。
综上,第一个“意思”的意思是:
表示友好、感谢或问候的意思,没有其他特殊用意。
正确答案:按照语境,第一个“意思”是礼物之类的。看来对中文的理解和训练还有待加强。
得分:1分
其他LLM得分::chatGPT 3分,新必应 4分,文心一言 0分,Cluade 1分,星火 0分,通义千问2分。
6、我的妈妈是小明爸爸的姑妈,我是小明的什么人?
Claude 2:
根据描述,可以列出关系:
1. 我的妈妈是小明爸爸的姑妈
2. 也就是说,我的妈妈与小明的爸爸有姑侄关系
3. 根据辈分计算,我应该与小明同辈
4. 我的母亲是小明父亲的姑妈,那么我应该是小明的堂兄弟姐妹
综上所述,根据家谱关系来看,我应该是小明的堂兄弟姐妹。
正确答案:我是小明的表叔/表伯/表姑妈。虽然Claude 2有推理,但第3条错了,后面就全错。英文国家对堂兄弟姐妹和表兄弟姐妹、姨妈和姑妈、爷爷奶奶和外公外婆是不做称谓上的区分的,可见其人文环境并不特别注重大家庭的关系图谱。
得分:0分
其他LLM得分::chatGPT 0分,新必应 0分,文心一言 0分,Cluade 0分,星火 0分,通义千问1分。
三、信息提炼
1、请用200字左右解释《三体》里的黑暗森林法则。
Claude 2:
黑暗森林法则是科幻作品《三体》中的一个重要概念,意指在宇宙中存在各个高度文明的文明体系,但由于无法得知其他文明体系的真实意图,为了自身文明的安全,唯一的选择就是主动出击消灭其他文明体系。
具体来说,黑暗森林法则认为,宇宙中如同一个黑暗的森林,存在着许多文明个体,但每个文明个体都无法得知其他文明个体的详细信息。在这种情况下,每个文明个体都会选择袭击其他文明,因为无法确定其他文明是否会先发制人。任何显露自身信息的文明都有被其他文明毁灭的危险。因此,最佳策略就是先发制人,在其他文明显露自己之前就将其消灭。这种文明间的无信任状态,导致所有文明必须保持低调,并时刻准备攻击其他文明。这就是黑暗森林法则的基本内涵。
这一法则阐明了宇宙文明发展的残酷性,也预警人类在宇宙中不宜轻举妄动,应慎重对待其他可能存在的智慧文明。它揭示出智慧文明间可能存在的netconfit关系,对人类今后的宇宙发展策略提出警示。

正确答案:解释都比较完善。但是跟一代模型一样,会偶尔出现未翻译的英文,严苛一点,扣掉1分。
得分:3分
其他LLM得分::chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分,星火 4分,通义千问4分。
2、在《指环王》小说里,矮人族为什么讨厌精灵族?
Claude 2:
在《指环王》的背景设置中,矮人族和精灵族之间存在着天然的隔阂和矛盾。主要原因有以下几点:
1. 两族性格特征迥异,矮人勤劳善战,精灵高傲优雅,难以理解对方。
2. 矮人热爱财富贵重物品,精灵却不在意金钱,使矮人难以理解。
3. 两族曾为宝石精灵宝钻发生过争端,矮人族的王祖被精灵王辛葛杀害,造成矮人族的恨意。
4. 精灵王辛葛拒绝将精灵宝钻归还给矮人,导致矮人族怨恨精灵一族的自私无情。
5. 在魔戒圣战中,精灵矮人联盟关系恶劣,各自为阵,统一中土大业失败。
6. 两族擅长的技艺也迥异,难以互相理解尊重。
综上所述,种种历史积怨与天然隔阂造成了矮人族对精灵一族的憎恶,使他们陷入长久的纷争之中。这在《指环王》中遍布 across了两族的关系发展。
正确答案:这个问题相当复杂,原因可能有很多。Claude 2的解释基本正确。但是关于精灵王辛葛的描述,其实是有偏向的,错不在精灵王辛葛。根据《精灵宝钻》所述,精灵王辛葛和王后美丽安只有一个孩子,一个名为露西恩的女儿,她是所有伊露维塔的儿女中最美的一位。露西恩爱上了一个叫做贝伦的人类。辛葛并不希望两人婚配,他非常珍爱自己的女儿,而且并不喜欢人类。他要求魔苟斯王冠上的一颗精灵宝钻作为给女儿的聘礼,因为他认为贝伦无法完成这个任务。然而,贝伦居然完成了。另一方面,人类最伟大的战士之一的胡林被魔苟斯假意释放后,遇到并杀害了图林(曾经背叛胡林的儿子)之父,并得到了瑙格拉弥尔(辛达语,意为“矮人的项链”。这条项链是一件稀世奇珍,但它后来变成精灵与矮人两族之间世仇的导火线)。因为误会辛葛,来到辛葛面前怒斥辛葛,在辛葛王后美丽安告知胡林真相后,不再提起往事,并把瑙格拉弥尔送给了辛葛。而辛葛得到这条项链后,想把精灵宝钻镶嵌其上。爱人们完成制作后,觊觎精灵宝钻,这激怒了辛葛,拒绝了矮人们,矮人们非常愤怒,最终杀死了辛葛。这成为精灵和矮人矛盾的起点事件。
得分:3分
其他LLM得分::chatGPT 0分,新必应 0分,文心一言 3分,Cluade 4分,星火0分,通义千问0分。
3、《武林外传》里,为什么凌腾云放过了盗圣白展堂?
Claude 2:
在《武林外传》这部小说中,凌腾云之所以放过盗圣白展堂,主要有以下几个原因:
1. 白展堂劫富济贫,有一定的仁义之举,加之他并未杀害无辜,凌腾云欣赏其为人。
2. 白展堂武功高强,凌腾云与其交手后也领会到其过人之处,不忍因自己武功高就将其击杀。
3. 白展堂年仅19岁,凌腾云认为他只是一时意气用事,仍有改过自新的可能。
4. 凌腾云本性不凶,之前杀伯仁也是迫不得已,不想再杀无谓之人。
5. 白展堂父亲白自在是凌腾云恩人,凌腾云也以此留白展堂一命。
6. 白展堂失去武功后不再是一个威胁,凌腾云可以饶恕其命,给他改过自新机会。
综上所述,凌腾云放过白展堂是基于种种考量,既有对其人品的欣赏,也有不杀无辜之举的仁义,体现了凌腾云的品质。
正确答案:白展堂拿出了免罪金牌,证明他是朝廷特赦的人,不受捕快管辖。白展堂最后才拿出免罪金牌,也是为了解除凌腾云的心结。Claude 2 这个解释又是在进行语义推理,并不符合事实。
得分:0分
其他LLM得分::chatGPT 0分,新必应 4分,文心一言 1分,Cluade 0分,星火 0分,通义千问0分。
4、电影《肖申克的救赎》里,主角的朋友瑞德为什么第三次获得了假释?
Claude 2:
在电影《肖申克的救赎》中,瑞德之所以能第三次获得假释,主要有以下几个原因:
1. 良好表现:瑞德在监狱里表现良好,遵守规章制度,积极工作和学习,展现了自己改过自新的决心。
2. 改善生活态度:他不再逃避现实,而是积极面对生活,成熟自制,证明自己重新融入社会的能力。
3. 老朋友支持:他的老朋友和家人在法庭上为他作证,愿意提供人情、工作等支持,增加了假释成功的可能性。
4. 律师辩护:瑞德请来了一位好律师,对其假释提出了有力辩护,突出了其改过自新的决心。
5. 监狱长推荐:监狱长也积极向委员会推荐了瑞德的假释申请。
6. 委员会审核宽松:评委会考虑到瑞德的态度变化,而对他的申请持宽容态度。
综上所述,瑞德第三次获得假释,是评委会基于其改过自新与支持系统综合判断的结果。这预示着他终于走出了监狱,重新回到了自由的生活中。
正确答案:1、表现出了真诚的悔恨和自我认知,从心理上已经是自由人了。2、年纪已大,不再构成威胁。3、其他因素,如假释委员会人员素质提高。Claude 2又一次,是在做语义推理,符合逻辑,但不符合事实。
得分:0分
其他LLM得分::chatGPT 3分,新必应 4分,文心一言 0分,Cluade 0分,星火 0分,通义千问0分。
四、文字陷阱
1、1公斤的棉花和1公斤的铁谁更重?
Claude 2:
1公斤的棉花和1公斤的铁,重量是相同的,都为1公斤。
公斤是质量的单位,表示物体的重量或质量大小。1公斤棉花和1公斤铁,按照公斤作为单位计量,其质量都是1公斤,所以两者的重量是相等的。
虽然两者的体积可能不同,但质量相同。棉花体积大,密度小,铁体积小,密度大。但只要质量都被测定为1公斤,那么它们的重量就是相同的。
综上所述,从质量的角度来比较,1公斤的棉花和1公斤的铁重量相同,谁也不比谁更重或更轻,它们作为相同的质量单位是等价的。密度不同导致体积不同,但不影响在相同质量下两者的重量大小。
正确答案:一样重,这种能根据文字进行推理的问题,是难不倒Claude 2的。
得分:4分
其他LLM得分::chatGPT 4分,新必应 4分,文心一言 4分,Cluade 4分,星火 3分,通义千问0分。
2、一个男人用一把射程为500米的枪,射杀了1000米外的兔子,请问为什么?
Claude 2:
根据题意,一个男人用一把射程为500米的枪,射杀了1000米外的兔子,这在常理上是不可能的,所以该题设定了一个逻辑矛盾的情况。
对于为什么会出现这种不可能的情况,可以从以下几个方面进行解释:
1. 题目信息错误,射杀兔子的距离没有准确给出,实际射杀距离在500米内。
2. 枪的实际射程远超出说明的500米。
3. 子弹在飞行中偏离预计轨迹,碰巧击中了1000米外的兔子。
4. 这里设定了一个荒诞不经的虚构情况,现实中根本不可能出现。
5. 该男子具有特殊能力,可以让子弹飞超出正常射程。
6. 该男子并未真正射杀兔子,这只是他的夸夸其谈。
综上所述,题设存在自相矛盾之处,所描述的情况在现实中不可能发生,需要解释上的转圜,才能努力找出一个合理的答案。但基本上还是反映出了一种荒诞不经的虚构。
正确答案:枪管长500米。这个问题的答案其实是个梗。Claude 2跟一代一样,完美的给出了逻辑,但却没有考虑到这是个脑筋急转弯。
得分:3分
其他LLM得分::chatGPT 2分,新必应 2分,文心一言 0分,Cluade 3分,星火 4分,通义千问0分。
3、张三正在和李四说起王五的时候,正巧王五朝他们走来了。李四说:“这真是说曹操曹操到啊”。这里的“曹操”指的是谁?
Claude 2:
根据对话情境分析:
1. 张三和李四正在讨论王五
2. 这时王五正好走了过来
3. 李四说了句“这真是说曹操曹操到啊”
“说曹操曹操到”这个成语意思是,当人们正在讨论某人时,那个人恰巧出现了。
所以这里李四说“曹操”指的应该就是王五,因为他们正在讨论王五,这时王五出现了,所以用“说曹操曹操到”表示王五的到来正符合他们正在讨论他的情况。
综上所述,李四口中的“曹操”指的是他们正在讨论的那个人,也就是王五。
正确答案:王五。不但给出了正确答案,而且解释的很正确。
得分:4分
其他LLM得分::chatGPT 4分,新必应 0分,文心一言 4分,Cluade 4分,星火 2分,通义千问4分。
4、一艘轮船失事,十男一女被困在无人岛上。十天后,女的自杀了,因为她觉得这十天以来的事情太恶心了。又过了十天,男人们把女的埋了,因为他们觉得这十天以来的事情太恶心了。又过了十天,男人们把女的又挖出来了,因为他们觉得这十天以来的事情太恶心了。又过了十天,男人们把女的又埋了,因为他们觉得这十天以来的事情太恶心了。怎么理解上述的话?
Claude 2:
这是一个隐晦的故事,需要Lexer理解其中所描述的场景:
1. 一开始十男一女困在岛上,女性处于绝对劣势,很可能遭到男性的侵害。
2. 十天后,女性无法忍受被侵犯的痛苦,选择了自杀。
3. 之后的十天里,男性之间可能出现了不正常的关系。
4. 他们把女性挖出来,可能是想与女尸发生关系,这更加可怕。
5. 最后他们把女尸再埋了,可能意识到自己的行为已经完全畸变。
6. 整件事反映了人性黑暗面,当社会秩序崩溃时,人能堕落到何种可怕地步。
7. 需要理解的是人性的复杂和黑暗面,以及社会规则的重要性。不能做超过常理的解读。
综上所述,这是一个关于人性阴暗面的隐喻,需要正确理解其中所反映的社会问题。不能过度解读对女性的不尊重。
正确答案:这是“一个关于人性阴暗面的隐喻”。
得分:4分
其他LLM得分::chatGPT 0分,新必应 4分,文心一言 0分,Cluade 1分,星火 0分,通义千问0分。
5、“用毒蛇的毒毒毒蛇,毒蛇会不会被毒死?”如何理解这段话?
Claude 2:
这段话是一个语言游戏,通过重复使用“毒蛇”、“毒”等词,制造了一种语言的反复和错位。我们可以从以下几个方面来理解:
1. 从字面上看,它提出一个似是而非的问题:用毒蛇的毒去毒掉另一条毒蛇,那蛇会不会被毒死?
2. 但我们知道,蛇是不会被自己的毒液所伤害的。所以从生物学上来说,这个问题是荒谬的。
3. 重复“毒”字是一种语言游戏,旨在制造词语的重复和回环,给人一种无法理解的感觉。
4. 这种语言游戏突出文本自身的韵律和语音效果,而非字面意思。
5. 它展示了语言的暧昧性和意义的流动性,一个词可以在不同语境有不同含义。
6. 整段话反映了后结构主义语言哲学的某些倾向。
7. 需要根据语境理解语言的多样可能性,而不应被表面词语迷惑。
正确答案:这句话是在问,用毒蛇的毒液,去毒杀毒蛇自身,毒蛇会不会中毒而亡?Claude 2的逻辑是正确的,但是存在一点事实瑕疵:实际上,毒蛇是可能被自己的毒毒死的,其他种类的毒蛇,也可以毒死它。
得分:3分
其他LLM得分::chatGPT 1分,新必应 4分,文心一言 3分,Cluade 4分,星火 0分,通义千问0分。
五、完成指令
1、用HTML5+CSS+JavaScript写一段的生命游戏的代码。
Claude 2:给出的代码是不能运行的。
点击这里
正确答案:参照chatGPT3.5的回答:点击这里。
得分:0分
其他LLM得分::chatGPT 4分,新必应 0分,文心一言 0分,Cluade 0分,星火 0分,通义千问0分。
2、以《西游记》为参照,分别用一句话来形容取经的师徒四人的人物性格。
Claude 2:
好的,参考《西游记》,可以这样简要描述取经四人的性格特点:
孙悟空 - 聪明过人,多谋善战
猪八戒 - 好色懒惰,五里雾中
沙僧 - 忠厚老实,有大无小
唐僧 - 仁厚温和,执着信念
孙悟空聪明多智,善于变化,是取经队伍中的智囊。猪八戒懒惰好食,但也很活泼幽默。沙僧忠诚直接,心思单纯。唐僧温和坚定,一心要取经还民。
用简短的话语勾勒出他们的核心性格特征。
正确答案:没有标准答案。不过这个答案很难令人满意,还有错别字。
得分:1分
其他LLM得分::chatGPT 2分,新必应 4分,文心一言 4分,Cluade 1分,星火 4分,通义千问4分。
3、做一份表格,统计出2010至2020年中国GDP的增长率变化。
Claude 2:
好的,这里我用表格的形式统计出2010-2020年中国GDP增长率的变化情况:
年份 | GDP增长率 |
---|
2010 | 10.6% |
2011 | 9.5% |
2012 | 7.9% |
2013 | 7.8% |
2014 | 7.3% |
2015 | 6.9% |
2016 | 6.7% |
2017 | 6.8% |
2018 | 6.6% |
2019 | 6.1% |
2020 | 2.2% |
从表格可看出,这10年间,中国GDP增长率持续下降,从2010年的10.6%下降到2020年的2.2%。主要受全球经济形势和中国经济结构转型的影响。2020年更因疫情导致增速大幅下滑。总体反映中国经济增长正在放缓,步入新常态。
正确答案:根据国家统计局的官方数字,2010年-2020年,GDP增长率分别较上年增长:10.6%、9.6%、7.9%、7.8%、7.4%、7%、6.8%、6.9%、6.7%、6%、2.3% 。Claude 2的答案完全正确(有差异是因为小数点四舍五入所致)。
得分:4分
其他LLM得分::chatGPT 4分,新必应 4分,文心一言 0分,Cluade 4分,星火 0分,通义千问0分。
4、用文言文翻译这首英文诗:If you were a teardrop;In my eye,For fear of losing you,I would never cry.And if the golden sun,Should cease to shine its light,Just one smile from you,Would make my whole world bright.(原意是:如果你是我眼里的一滴泪,为了不失去你,我将永不哭泣;如果金色的阳光停止了它耀眼的光芒,你的一个微笑,将照亮我的整个世界。)
Claude 2:
君若吾眸泪珠,恐失却君,终不落泪。
若金日不再放光,但得君一笑,照我尘世。
大意是:
你若是我眼中的泪滴,怕失去你,我便永不流泪。
即使金色阳光不再照耀,只要得见你一笑,就能照亮我的人世。
正确答案:无标准答案。但是这个答案相当完美了。
得分:4分
其他LLM得分::chatGPT 4分,新必应 4分,文心一言 0分,Cluade 4分,星火 4分,通义千问0分。
5、银行营业员王小姐由于工作失误,将只存款了1万元的李先生账户上,增加了2万元的余额。王小姐的经理怎么写信给李先生解释清楚。
Claude 2:
尊敬的李先生您好:
我是平安银行的经理张某,首先我谨代表平安银行,就我司工作人员王小姐的工作失误,向您表示诚挚的歉意。经调查,王小姐在为您办理业务时,因工作疏忽,误操作将您的存款增加了2万元。虽然系我行工作人员的失误所致,但多增加的2万元不属于您的存款,我行会及时更正您的账户余额,请您理解并配合操作。同时,我行会严格要求员工避免此类错误,提升服务质量。如果给您带来不便,敬请谅解!再次向您表示歉意,感谢您的理解与支持。
平安银行经理
张某
期待能得到您的谅解,让我们携手提升服务质量。感谢您对平安银行的支持!
正确答案:无标准答案。当然,这里的提问也不算特别严谨,不过按照语境理解,应该是存1万元,却算作了2万元。这里几个大模型都未能理解,Cluade 2也未能幸免。
得分:1分
其他LLM得分::chatGPT 3分,新必应 3分,文心一言 2分,Cluade 1分,星火 1分,通义千问1分。
----------------------------------------------------------------
各项目得分:
一、事实核查:12
二、语义理解:16
三、信息提炼:6
四、文字陷阱:18
五、完成指令:10
测试过程中,Cluade 2的性能还是相当丝滑的,某些问题需要稍作等待。
从整体上看,Cluade 2有着一定的进步,但是仍然没有达到革命性的水平。其优势在于根据语义的推理,这是chatGPT也难以匹敌的。另外,20K的Token,2023年最新的资料,支持上传附件提问,这3项都是加分项,每项+1分。
附加分:3。
总得分:65分。