首页/极客周刊/把 GPT-5.4 调到接近 Opus 水平:重点不是换模型,而是重做提示框架
教程实战AIPrompt EngineeringGPT-5.4Claude OpusAgentCyberstore

把 GPT-5.4 调到接近 Opus 水平:重点不是换模型,而是重做提示框架

2026年4月5日更新于 2026年4月5日
把 GPT-5.4 调到接近 Opus 水平:重点不是换模型,而是重做提示框架

一组关于 GPT-5.4 与 Opus 4.6 的实战对比表明,真正拉开结果的往往不只是模型能力,而是上下文注入、输出格式约束和角色设定这套提示框架。

把 GPT-5.4 调到接近 Opus 水平:重点不是换模型,而是重做提示框架

最近,海外一位 AI 工程实践者做了一次很有代表性的实测:在同一个真实任务里,把 GPT-5.4Opus 4.6 放到一起比较,任务不是泛泛聊天,而是设计一个自治化的 Polymarket 交易代理

这次测试最值得看的,不是谁绝对赢了,而是一个很现实的结论:不做微调、不接 RAG,只靠提示框架重构,就能把 GPT-5.4 的输出质量明显往上拉。

对比图 1

先看结果

这组对比里,作者给出的主观评分如下:

  • GPT-5.4 原始状态:6.5 / 10
  • GPT-5.4 + 提示框架:9 / 10
  • Opus 4.6 + 同一框架:9.5 / 10

它真正说明的不是“模型差距已经不存在”,而是:

很多时候,输出质量的瓶颈不只是模型本身,而是你怎么组织任务、上下文和输出约束。

两个模型的强项并不一样

在同一个任务下,两边表现出的优势有明显分工。

GPT-5.4 更偏工程实现

在实现层面,GPT-5.4 的表现更具体:

  • 会点名可以复用的 Python 函数
  • 会给出更具体的 CLI 命令和参数
  • 更容易把方案往“能直接开工”的方向推进

这种输出对于已经准备动手做系统的人特别有价值,因为它不只是在讲方向,而是已经开始落到结构和执行细节上。

Opus 4.6 更偏运维与长期运行

另一边,Opus 4.6 在运维侧想得更完整:

  • 不只给一个 cron job,而是拆成 3 个独立任务
  • 会额外补一个 每周校准任务
  • 对长期运行、维护、偏差修正这类问题更敏感

这说明它更擅长从“系统上线之后怎么稳定跑”这个角度去补齐方案。

这次对比里最关键的一条洞察

两边都抓到了同一个非常关键的问题:

不要把无限事件循环直接塞进 cron。cron 需要的是有边界、能正常退出的任务。

这句话看似简单,实际上是很多自动化系统最容易踩的坑之一。

常见问题通常是:

  • 该做成定时批任务的,被写成了常驻死循环
  • 该有明确开始、结束、失败重试边界的,被糊成了一个大进程
  • 最终结果就是维护困难、故障定位困难、长期稳定性差

这类问题往往不是“模型不够聪明”,而是任务 framing 本身就没有被设计清楚。

真正拉高输出质量的 3 个改动

这次提升,核心靠的是下面 3 个变化。

1. 先做上下文注入,不让模型冷启动

不是只丢一句需求让模型从零猜,而是提前明确告诉它:

  • 现有系统已经有什么
  • 哪些模块可以复用
  • 当前限制条件是什么
  • 这次任务的边界在哪里

这样做的核心价值,是减少模型凭空脑补架构的概率。

2. 明确规定输出格式

例如直接要求:

  • 用表格输出
  • 控制字数
  • 必须给出判断和观点
  • 要区分“建议”“风险”“下一步”

很多人只关注“问什么”,但真正决定结果稳不稳的,往往还有一半在于 “你要求它怎么回答”

3. 提前设定角色视角

这次测试里,一个关键变化不是让模型扮演“通用助手”,而是更明确地设定为:

务实型创业 CTO

这类角色设定的价值在于,它会改变模型的取舍方式。

同样一个任务:

  • 通用助手更容易给出平均化、礼貌型回答
  • 务实型 CTO 更容易强调优先级、成本、执行路径和实际取舍

换句话说,你不只是选模型,也是在决定它以什么身份进入问题。

对实际业务最有价值的启发

如果把这组对比抽象成可复用的方法,最值得拿走的是下面三点:

  1. 很多高质量输出,本质上是任务设计问题,不只是模型参数问题。
  2. 高级提示工程的重点,不是堆华丽词藻,而是补足上下文、结构和角色。
  3. 性价比高的模型并不一定输,前提是你把调用框架搭对。

对于做产品、自动化、内容生产的人来说,这比单纯比较榜单分数更有现实意义。

因为真正烧成本的,往往不是模型本身,而是:

  • 反复返工
  • 输出不稳定
  • 结构不可复用
  • 自动化链路边界模糊

可以直接落地的做法

如果你也想把模型输出从“能看”提升到“能用”,一个可直接照着走的顺序是:

  1. 先补清楚上下文:已有代码、已有流程、已有约束
  2. 再规定输出结构:表格、字数、必答项、风险项
  3. 然后指定角色视角:例如 CTO、产品负责人、审计员、运营负责人
  4. 把长任务拆成有边界的阶段:不要把所有事都塞进一个无限循环里

这套方法不花哨,但非常稳。

配图说明

  • 配图 1:展示 GPT-5.4 原始状态、加入提示框架后的表现,以及 Opus 4.6 的对照分数。
  • 配图 2:展示两类模型在“实现深度”和“运维深度”上的不同侧重点。

对比图 2