北京时间 2 月 25 日,由亚马逊支持的 AI 初创公司 Anthropic 推出了首个混合推理模型 Claude 3.7 Sonnet。这一模型的问世,为人工智能领域带来了全新的思考方式和应用可能。
Claude 3.7 Sonnet 的独特之处在于它的 “混合推理” 能力,它既能够像普通大模型一样,对日常简单问题迅速给出回应,比如回答 “有什么敲门笑话?”“提醒我即将到来的会议” 等,又能在面对复杂任务时,切换到更长、更系统的思考过程,像规划一次考虑航班、酒店、天气和当地活动的一周旅行。就如同人类使用同一个大脑进行快速反应和深度思考,推理被 Anthropic 视为前沿模型应具备的综合能力,而非依赖完全独立的模型 。
在标准模式下,Claude 3.7 Sonnet 是 Claude 3.5 Sonnet 的升级版。而在扩展思维模式下,模型会在回答前进行自我反思,从而在数学、物理、指令遵循、编程等任务上表现更出色。并且,用户还能控制思考预算,在速度和成本上换取质量。比如开发者可以指定用于扩展推理的最大 token 数量,最高可达 12.8 万个 token。如果是构建处理日常闲聊的 AI,就可以将 “思考” token 限制设低;若是进行重大财务预测,就可以调高,以便模型在分析时权衡多个数据点。
Claude 3.7 Sonnet 在编程和前端网络开发方面有显著优化改进,同时引入了智能编程命令行工具 Claude Code。Claude Code 功能强大,它可以搜索和读取代码、编辑文件、编写和运行测试、提交和推送代码到 GitHub,还能使用命令行工具。在早期测试中,它一次性完成了通常需要 45 分钟以上手动工作的任务,大大减少了开发时间和开销。Anthropic 还计划在接下来几周根据开发者的使用情况继续改进,增强工具调用的可靠性、增加对长时间运行命令的支持等。
与 OpenAI 的 GPT - 4 相比,GPT - 4 在生成任务、逻辑推理和通用性方面表现出色,但通常在单一对话模式下运行,在快速回答和深度推理之间切换需要更多用户提示。而 Claude 3.7 Sonnet 能无缝融合这两种模式,在同一对话流中,简单问题快速回应,深度分析则切换到扩展思考。并且,Claude 3.7 Sonnet 对 “思考预算” 有更精细的控制,这对每天要运行数以万计查询、又不想过度消耗 GPU 或产生高额 token 费用的企业开发者来说,可能至关重要。
在解决实际软件问题能力的编码测试 SWE - Bench Verified 中,Claude 3.7 Sonnet 的得分从 Claude 3.5 Sonnet 的 49.0% 提升至 62.3%,特定框架调整后最高得分可达 70.3%,超越了 OpenAI o3 - mini 和 DeepSeek R1。这表明 Claude 3.7 Sonnet 在现实世界任务中表现更优,其优势并非针对数学和计算机科学竞赛问题优化,而是体现在实际应用场景中。
总的来说,Claude 3.7 Sonnet 为人工智能的应用和发展带来了新的方向和思路,未来它在更多领域的表现,值得我们期待。