最后更新:2026年6月1日——所有数据来自验证报告。见来源

2026年的AI模型竞赛比你想象的更激烈。GPT-5.5在某些基准测试中领先,Claude Opus 4.7在其他方面称霸,而Gemini 3.1 Pro是最便宜的。以下是数据。

价格:你实际要付多少

模型输入(每百万token)输出(每百万token)上下文窗口
GPT-5.5$5.00$30.001M
GPT-5.5 Pro$30.00$180.001M
Claude Opus 4.7$15.00$75.001M
Gemini 3.1 Pro$2.50$15.002M

(来源:CoderseraTech Insider

关键发现: GPT-5.5的输入token价格比Claude Opus 4.7便宜3倍。Gemini 3.1 Pro是最便宜的,$2.50/$15——比Claude便宜6倍。

基准测试性能

GPT-5.5领先的领域

基准测试GPT-5.5Claude Opus 4.7来源
Terminal-Bench 2.082.7%Tech Insider
SWE-bench Verified88.7%Codersera
MMLU92.4%Codersera
GDPval84.9%Tech Insider

Claude Opus 4.7领先的领域

基准测试Claude Opus 4.7GPT-5.5来源
SWE-Bench Pro64.3%58.6%Tech Insider
长文事实性36% 幻觉率86% 幻觉率Codersera

幻觉问题

这是最重要的发现:

  • GPT-5.5 Instant 在高风险提示(医疗、法律、金融)上幻觉减少了52.5%——从18.7%降到8.9%(来源:Codersera
  • 然而,在不使用工具的长文事实性基准测试中,GPT-5.5仍然有大约86%的幻觉率,而Claude Opus 4.7只有36%(来源:Codersera

这意味着什么: GPT-5.5的幻觉改进主要来自工具接地和上下文工程,而不是基础模型本身。对于准确性比速度更重要的应用,Claude Opus 4.7仍然更可靠。

你该选哪个?

选GPT-5.5如果你:

  • 想要最佳性价比($5/$30)
  • 需要自主代理能力(Codex CLI)
  • 在OpenAI生态系统中工作

选Claude Opus 4.7如果你:

  • 准确性比成本更重要(36% vs 86%幻觉率)
  • 需要最好的代码质量(64.3% SWE-Bench Pro)
  • 写长文内容

选Gemini 3.1 Pro如果你:

  • 需要最便宜的API($2.50/$15)
  • 需要最大的上下文窗口(2M token)
  • 在Google Workspace生态系统中

来源

  1. Codersera — OpenAI 2026年5月更新:GPT-5.5 Instant、Codex、GPT-5.6 — 2026年5月28日发布
  2. Tech Insider — GPT-5.5发布:82.7% Terminal-Bench、$5 API — 2026年5月26日发布
  3. Knightli — Google I/O 2026总结:Gemini 3.5、Omni — 2026年5月21日发布

本文每月更新。最后验证:2026年6月1日。发现错误?联系我们