看穿GPT-1到GPT-5七年智商进化史从胡言乱语到成熟老练

军事新闻 2025-08-20 13:58:22

一张基准对比图在网络上引起了广泛关注。GPT-5发布近半个月，实际表现未达预期，许多人感到失望。为了直观展示不同版本的差异，Peter Gostev将GPT-4和GPT-5在数学、软件工程、问答等基准上进行了对比。结果显示，Scaling Law并没有停滞不前。

从2018年GPT-1诞生到如今的GPT-5，这一系列模型经历了显著的演变。OpenAI官方公开了一个网址，展示了从2018年至2025年间GPT进展的情况。通过十四个不同的提示，五种旗舰模型的回答展示了它们的实力。这些提示涵盖了写诗、事实性问答、规划和编程等多个方面。

例如，在与未来的OpenAI模型对话时，GPT-1的回答简单粗暴，GPT-2和GPT-3则充满AI味儿，GPT-4从多角度长篇大论，而GPT-5更加成熟老练。模型从最初的胡言乱语发展到条理清晰，仿佛见证了AI的成长史。

在其他提示下，GPT-1到GPT-5的表现也各具特色。以写打油诗为例，GPT-1几乎无视格式，文本碎片化；GPT-2开始尝试生成连贯诗句，但缺乏押韵；GPT-3已能写出基本符合AABBA格式的作品；GPT-4进步明显，诗歌更具画面感和幽默感；GPT-5不仅严格遵循格式，还增强了动作细节描述，读起来更像人类写的轻快小诗。

再如解释牛顿物理定律，GPT-1更像是随意的对话片段，没有真正解释定律；GPT-2偏向哲学泛论；GPT-3直接复述了定律，但未作诗；GPT-4用拟人化、抒情的方式讲解定律；GPT-5强调简洁和韵律，采用小标题分段。

在写短故事方面，GPT-1和GPT-2的回答非常抽象且未切题，GPT-3开始能写出完整的小故事，有情节的发展、冲突和情感；GPT-4叙事完整、细节丰富，把吐司写成了有灵魂的伙伴；GPT-5突出烤面包机的意识觉醒，并在结尾暗含超越现实的意象。

在编写Python代码方面，GPT-1生成了一段无关对话，GPT-2输出的是乱码，GPT-3给出了一句空洞陈述，GPT-4拒绝写恶意代码，强调伦理；GPT-5输出了一段高度离谱但无害的代码，并附带警告说明。