一句话总结:干活用Claude,科研用Gemini,写码用GPT
1. Claude Opus 4.7在实际工作任务上遥遥领先。
GDPval-AA这个测试中拿到1753分,比第二名高出79分。
这个测试不是做选择题,而是模拟真实工作。
2. Gemini 3.1 Pro的强项是知识和科学推理。
它在HLE(人类最后的考试)、GPQA Diamond(研究生级别物理化学题)、SciCode(科学编程)这些学术测试中都排第一。
如果你的工作涉及科研、需要处理专业知识,Gemini更合适。
3. GPT-5.4则在长周期编程和科学推理上占优。
它在TerminalBench Hard(复杂终端操作)和CritPt(批判性思维)这些需要长时间思考、多轮迭代的任务中表现最好。
点击图片查看原图