国盛海外:夏君/朱若菲/刘澜/刘玲
在基于阿里大模型的“通义千问”开启测试之后,我们对阿里“通义千问”和百度“文心一言”进行了一手测评。
(资料图片仅供参考)
鉴于二者都有自己各自擅长的能力,如百度强调文心一言具有“文学创作、商业文案创作、数理推算、中文理解、多模态生成”五大能力,阿里强调通义千问除基础问答外还有“写提纲、SWOT分析、商品描述生成、会放飞的菜谱、小学生作文、然后呢、彩虹屁专家、写情书、为你写诗”九大百宝箱,因此我们针对以上相关维度,通过同样的问题进行了二者的测评。
我们的测评核心围绕以下维度(样本有限,仅供参考交流):
内容生成模态:百度“文心一言”胜。多轮对话能力:阿里“通义千问”胜。数理推算:百度“文心一言”胜。中文理解:阿里“通义千问”胜。电商文案生成:阿里“通义千问”略胜。内容生成模态:阿里“通义千问”目前只支持文字(包括自然语言及代码)的输入和输出。而百度“文心一言”除文字外,还支持图像输出。
阿里“通义千问”:
百度“文心一言”:
多轮对话:在我们的测试中,阿里“通义千问”对上下文的关联(前一个对话中的“座舱交互”场景)捕捉十分准确。百度“文心一言”的回答则仅就当前一轮提问而忽略了上文场景。
阿里“通义千问”:
百度“文心一言”:
数理推算:确实如百度强调的,文心一言在基础的数理推算更胜一筹。阿里通义千问在这一层面表现不佳,而百度文心一言推算准确、且在我们调整了参数后始终回答准确。
阿里“通义千问”:
百度“文心一言”:
中文理解:在我们的测试例子中,阿里“通义千问”面对可能引起混淆的名词、具有更好的知识储备和准确理解。百度“文心一言”则捕捉了混淆的信息。
阿里“通义千问”:
百度“文心一言”:
特定应用场景——电商文案生成:尽管二者都存在一些基础错误,但都能够从不同维度对商品进行归纳和推介。相比之下,阿里“通义千问”的电商文案的推介维度更多、归纳要点更清晰。
阿里“通义千问”:
百度“文心一言”:
关键词:
关于我们 广告服务 手机版 投诉文章:435 226 40@qq.com
Copyright (C) 1999-2022 baidu.baiduer.com.cn baidu爱好者 版权所有 联系网站:435 226 40@qq.com