北京时间2025年5月23日,Anthropic公司发布了Claude 4系列大模型,包含Claude Opus 4和Claude Sonnet 4两个版本。其中Claude Opus 4能连轴转编程7小时,在多项编程测试中表现优于GPT-4.1,展现出了强大的性能。具体如下:长时间编程能力:Claude Opus 4在Rakuten的测试数据中,凭借改进的内存管理、更广泛的上下文保留以及更强大的内部规划机制,可在软件环境中连续进行近7小时的代码生成和任务执行,刷新了AI世界纪录,远超前代Claude 3 Opus的不到1小时,也领先于其他同类模型。编程基准测试成绩:在用于评估模型解决真实GitHub问题能力的SWE - bench基准测试中,Claude Opus 4准确率高达72.5%,而GPT-4.1仅为54.6%。在针对多步骤终端代码生成任务验证模型表现的TerminalBench测试里,Claude Opus 4准确率达到43.2%,也展现出了优秀的编程能力。此外,Claude Sonnet 4取代了前代Claude 3.5 Sonnet,在架构上更为稳定,虽推理能力不及Opus 4,但支持多文件代码导航等功能,且延迟表现更佳,在SWE - bench基准测试中也取得了72.7%的高分,表现较为出色。
|
|