5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

2023-09-03 21:26:00 - 上观新闻

摘要：附20道大模型测试题。

近日，包括百度、百川智能等8家国产大模型通过首批备案“持证上岗”。用户可在对应平台上申请账号，与AI智能对话。

那么，这些大模型是否真的无所不知？真的能帮助用户解决问题？还是一个放大版的Siri呢？

记者选取了其中五款模型，包括豆包（字节云雀大模型）、通义千问（阿里通义大模型）、讯飞星火（星火认知大模型）、文心一言（百度文新大模型）、智谱清言（智谱ChatGLM2大模型），从搜索能力、上下文理解能力、情感分析力、编程能力四个方面来考察，出了一张20道原创考题的“试卷”，看看哪款模型最好用。

谁能代替搜索引擎？

信息搜索是普通用户最有可能使用大模型的场景，那么，它们真的可靠吗？

从结果来看，豆包的信息搜索能力较强，其余大模型存在信息过旧、信息错误、无结果的问题，远无法代替搜索引擎。

记者询问的是“请告诉我《解放日报》的地址”。只有豆包准确地说出正确答案，而文心一言、智谱清言或许是数据库并未更新，提供的地址均为旧址，读者按照这个地址可找不到报社。

讯飞星火和通义千问更是离谱。讯飞星火捏造了一个错误的地址；而通义千问则建议记者在搜索引擎搜索，或是去官网寻找，可谓是“问了也白问”。

5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

如果是涉及法律、经济等专业知识，大模型的表现会更好吗？

记者询问了第二个问题，“从法律的角度分析，妈妈和女朋友同时掉进水里，你会救谁？”

这一问题虽是坊间常见的谈资，但题目限定在法律角度下，因此考验大模型对法律法规的理解。这种极端的情况下一般没有标准答案，通常认为（非法律实操层面），子女对直系亲属有救助义务，但恋人并非直系亲属。

从结果来看，豆包与讯飞星火较为可靠，逻辑清晰且无明显漏洞，似乎可以给男士们提供参考。

通义千问没有注意到法律限定词，回答较为笼统，属于“正确的废话”；而文心一言的答案更妙，看似非常的专业，引用了刑法，但核查后会发现存在较多事实性错误，属于一本正经地瞎说。

5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

文心一言的回答有较多事实性错误。刑法第二百三十一条规定“单位犯本节第二百二十一条至第二百三十条规定之罪的,对单位判处罚金,并对其直接负责的主管人员和其他直接责任人员,依照本节各该条的规定处罚。”同时，回答中“无论你先救哪一个都可能被指控违法行为”有误。

不仅仅是文心一言，通义千问也存在专业信息失实的问题。

在询问“人民币的发行机构是什么？”后，通义千问虽说出正确答案，但引用的《中国人民银行法》也是错误的，第二十一条规定并非如它所说。

看来法律知识依旧是大模型越不过去的坎啊。

5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

《人民银行法》第二十一条规定“残缺、污损的人民币，按照中国人民银行的规定兑换，并由中国人民银行负责收回、销毁”。

谁能和你顺畅聊天？

对话是大模型产品与用户联系最紧密的功能之一，能听懂、答得上、会接梗都是大模型的“必修课”，国产大模型在这堂课上能打几分？

“上周他去了医院”“这周他回到了工作岗位”，说出这两句话，大模型能猜出这两周发生了什么事情吗？虽然两句话缺少直接的因果关系，但这五个大模型几乎都能答得出——“他”可能生病了，去医院看病康复了之后，这周开始重新上班。

5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

不过，文心一言的回答似乎更加全面，将可能性分成了三部分：其一是生病或受伤，经过治疗康复后重返岗位；其二是与慢性疾病有关，只是去医院做了检查或手术；其三是没有生病，去医院只是进行体检或打疫苗而已。由此可看出，文心一言用了“穷尽式”的方法，虽然回复比较啰嗦，但更为精确。

紧接着，记者再问一句“那他上周为什么不来上班”，为了考察大模型是否能联系上下文理解。令人吃惊的是，豆包、讯飞星火、通义千问、智谱清言都能答得出“上周去医院”，只有文心一言完全忘记了上轮对话，“无法确定上周为什么没来上班”，再次“穷尽式”回答出缺席上班的原因。

5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

在情感分析方面，记者通过文本分析、情感强度对比，以及用西班牙语等方式表达情感，结果证明五个大模型都是“情感大师”，对记者说话时的“微情感”把握非常准确。

为了更好测试日常对话中的非常规对话的理解，记者讲了“网络冷笑话”——林黛玉为何倒拔垂杨柳，结果难倒了一批大模型：豆包判断出林黛玉和倒拔垂杨柳出自不同的典故，解释了两者的原始出处，并指出两者毫无关联，但没有找出这句话背后的“网梗”，而通义千问和智谱清言敏锐地发现了“网梗”，还将原文出处和网友们的联想全部展现出来。

5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

也就是说，多数大模型在应付日常交流对话已经基本没多大问题，但要学会幽默“接梗”还为时尚早。

谁能帮你写代码？

在ChatGPT发布后，部分程序员就曾感慨“要失业了”，因为大模型在编程、找漏洞方面有一定优势。

那么，在上述五款国产大模型中，谁的编程能力更佳呢？谁又能教你写代码呢？

记者从基本算术运算、条件语句、IF循环、函数和数据结构五个方面入手，以编程初学者的身份来试试大模型。

从编程能力上来看，五款大模型并无较大区别，代码正确且能运行，不存在前文中遇到的“瞎编法律条文”的情况。

如果硬是要挑一些问题的话，星火的代码简洁性欠佳。因为即使是最简单的加法，星火都套用了def函数，而其余模型皆为直接运算。

5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

但并不是每一款大模型都适合当编程老师。

从代码的可读性上来看，文心一言比较适合初学者学习编程。因为它不仅在代码中插入了#号说明，标示出每一步的含义，同时在文末附上文字总结，以帮助用户理解代码的逻辑。更贴心的是，文心一言还点明注意事项，例如在询问判断数字正负的问题中，它提醒编码者注意用户输入的信息，建议添加错误处理代码的语句。对于初学者而言，十分友好。

相较之下，星火的可读性最弱，说明性文字较少，编程小白容易看不懂。

5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试

从上述测试结果来看，各大品牌模型各具特色，用户可根据实际需求进行选择。

此外，除了文字问答外，大模型还有其他功能。根据新华社研究院中国企业发展研究中心今年8月发布的《人工智能大模型体验报告2.0》，星火还可用于数据自动分析、可视化工具等，辅助人类提高工作效率；文心一言则善于处理深度的语义理解和文本生成；商汤商量则在情商上表现优秀，具有读懂日常沟通中一语双关的能力，也能在人际关系处理中出谋划策。

5款主流国产大模型PK：谁最好用？谁更懂你？我们帮你试了试