世界关注：实测文心一言，百度可以再自信一点

2023-03-17 22:02:17 来源：新浪网

撰文| 吴先之文烨豪

编辑| 王潘

不到一年时间，AI完成了从“袪魅”，到重回主流、再度引发“恐慌”的逆袭。

(资料图片)

随着AIGC应用愈发成熟，不仅科技语境涌起新一轮浪潮，一直同AI略显疏离的C端用户亦被不断刷新着认知。当下，不论是投资圈，还是学术界，抑或是普通用户，几乎所有人的目光都聚焦在了生成式AI产品身上。

显然，2023年，属于AIGC的时代已然到来。但纵观行业，大众讨论的核心始终没有脱离那几款明星产品，国内部分企业虽表示正在布局，大多停留于概念层面，鲜有真正拿出成果的玩家——直至百度下场，局面有所逆转。

3月16日下午，百度发布厅内，李彦宏亲自上台，将外界期待许久的文心一言端上了台面。从发布会现场演示来看，文心一言在面对五个典型的使用场景时表现得不错，回答的准确性、逻辑性、流畅性均接近人类水平。耕耘AI多年的百度，或许即将迎来属于自己的时刻。

文心一言：百度AI十几年荆棘闯出的结果

细数国内互联网语境，百度无疑是在AI领域扎根最深的玩家之一。早在十年前，百度便已将未来的飞轮押注在了AI上面。

2010年，当玩家们还在思索如何通过互联网思维改造传统行业时，百度便已成立了自然语言处理部，开始了对自然语言处理NLP的探索。而过去十多年间，在视觉识别、自动驾驶等AI更为广阔的落地领域，几乎也都遍布着百度的身影。

只是，科技发展需要跨越裂谷，正如千禧年的互联网的崩溃，以及后来云计算遭冷落等，前沿技术研发及落地过程中往往充满着痛苦，即便是OpenAI，也难逃多年苦坐“冷板凳”，百度AI亦曾陷入过单边投入的长周期之中。

而文心一言，正是百度这十多年AI路，踩着“荆棘”所闯出的结果。

2019年3月，文心一言背后的文心大模型ERNIE1.0首次亮相，并登顶了全球权威数据集GLUE榜单。此后，其不断升级迭代，从自然语言延伸至视觉、语音等多模态，直到最新的ERNIE3.0 Zeus模型，已然具备了千亿级参数。换言之，百度能够抢跑国内AIGC赛道，绝非偶然。

而切入正题，文心一言实际表现到底如何？发布会上，李彦宏通过文学创作、商业文案创作、数理推算、中文理解、多模态生成五个场景下的Demo，向外界秀了一把肌肉。

以数理逻辑推算为例，其向文心一言抛出了经典的鸡兔同笼问题，并在提问中埋下了彩蛋——即误导性的提问。而经过演算，文心一言非但没有踩坑，反倒指出了题目出现了错误，且在面对正确的题目时，给出了正确结果及解题步骤。

如果说，顶级厂商大模型均具备的数理逻辑推算能力，尚不足以证明文心一言的能力，那么其关于“洛阳纸贵”的表达，则令人眼前一亮。毕竟中文语境较为复杂，汉字数量较多，即便是ChatGPT，面对中文时偶尔也会出现词不达意，言不由衷的情况。

以“用洛阳纸贵四个字写一首藏头诗”为例，文心一言稍加思索，写下了“洛阳城里春光好，阳艳无双不负赏。纸贵漫天诗词赋，贵比黄金乐未央。”

这首诗虽谈不上有多少文学、审美价值，但至少兢兢业业地按照要求完成了创作。相比之下，ChatGPT似乎并没有很好地理解“藏头诗”的含义。

从中不难窥见文心一言的中文理解能力。显然，在中文语境里，具备搜索优势的百度拥有“主场优势”，有着更多的中文语料数据参与训练，自然也有着更为成熟的结果。

总之，就发布会来看，文心一言的表现优秀。

实测文心一言：优势非虚

或许是早已习惯了国内玩家的PPT发布会，外界对发布会上文心一言的表现褒贬不一，甚至有一种声音认为“Demo并非实时提问，其中有一定的‘修饰’空间”。

对此，光子星球拿到了文心一言的内测资格，并第一时间测试了其实际表现。先说结论，就当前版本的文心一言而言，仍有提升的空间，但整体表现超出了我们此前的预期。

首先是百度重点展现的中文理解领域，从烧烤店老板的视角分别向文心一言和ChatGPT提出相同的问题。

提问是东北烧烤，但ChatGPT的回答似乎有些驴头不对马嘴，将串串香、烤鸭等五湖四海的美食汇聚一堂。相比之下，文心一言的回答不仅到位许多，甚至还呈现出了不同答案的取名逻辑。

同样的逻辑，在贴合本地文化的网吧取名中同样有所体现。文心一言的回答，显然比ChatGPT毫无逻辑的回答要精准。

此外，在发布会展现的藏头诗创作方面，文心一言对内容的理解亦优于ChatGPT。

由此可见，文心一言对于自己“更理解中国文化，更适合中文语境和中国市场”的表述，不是一句空谈。

相对复杂的数理逻辑推算场景，我们亦向两款产品提出了比发布会“鸡兔同笼”更绕的问题——“如果3个人3天能做3个灯笼，那么9个人9天，能做多少个灯笼？（正确答案是27个）”

或许是该问题涉及到更多中文理解，强如ChatGPT也给出了错误的回答，直到多番纠错才勉强回答正确。文心一言的表现虽与之类似，但其在5次提问里，直接回答正确了2次。

而在发布会并未透露的编程领域，面对编写“俄罗斯方块”代码的要求，文心一言在Python里洋洋洒洒地写下了88行代码。在交由一位程序员朋友检查后，其称文心一言所写的代码整体并没有太大的毛病。

图片创作领域，文心一言所生成的图片基本符合描述。

此外，我们还测试了其撰写商业稿件、提炼内容等能力，受限于篇幅无法全然呈现。

总而言之，文心一言在面对前述场景时，具备一定的准确性、逻辑性，中文理解部分优于ChatGPT。

虽然只是内测版本，但文心一言的表现相当成熟。而随着后续迭代更新，这一款寄托着外界“国产ChatGPT”期许产品很可能将迎来光明的未来。

百度AI的新征程

现阶段，无论是OpenAI的GPT“家族”，还是百度的文心一言，抑或是更为广阔的AIGC赛道，仍处于前期的技术沉淀阶段。正如李彦宏发布会所说，大语言模型还远未到发展完善的阶段，有赖于通过真实的用户反馈而逐步迭代。

在这一轮博弈里，只有尽早地抢占身位，才能积攒起更多用户，从而收集更多数据，推动产品迭代升级。

只是，不同于一夜迸发的“商业灵感”，技术领域的演进从始至终都需要堆砌金钱与时间。

一位业内人士指出，像ChatGPT、文心一言这样的产品，需要大量顶尖人才，特别烧钱，而且还需要时间沉淀，初创企业想要分羹极为艰难，盲目进场极有可能陷入“重复制造轮子”的窘境。

也因如此，李彦宏才会在发布会上表示：“无论是哪家公司，都不可能靠突击几个月就能做出这样的大语言模型。”

另一方面， AIGC赛道的玩家在打磨产品的同时，亦需思考如何跑通商业化之路，毕竟诸如语音识别、视觉系AI等“前辈”们，或多或少都经历过商业化长夜。

究其所因，任何新兴技术想要突破“商业化瓶颈”，关键点均在于“应用”，即满足用户、公司乃至行业的实际需求。这既是GPT-4接入Office的原因，亦是百度向百度智能云企业客户开放文心一言API接口调用服务的原因。

而从当下的局面来看，强调中文语境的文心一言，似乎已经得到了国内市场B端用户的认可。数据显示，自2月份百度官宣“文心一言”以来，已有超过650家企业宣布接入文心一言生态。截至3月17日12点，申请文心一言API调用服务测试的企业已达8万——抢跑的百度，正在试图建立全新的商业秩序。

归根结底，科技迭代、下潜之路从来不是一帆风顺，唯有翻越重重大山，才能看到曙光。而在当下这个愈发激烈的竞争语境里，至少在国内，百度很可能将成为第一批吃到螃蟹的玩家。

关键词：