Anthropic 刚刚宣布了其最强模型 Claude Opus 4.6 的正式发布。作为其旗舰系列的最新升级,Opus 4.6 不仅在代码编写、逻辑推理方面实现了跨越式进步,还引入了多项面向生产力的重磅功能。
🚀 核心升级亮点
- 100万(1M)Token 上下文窗口:这是 Opus 级别模型首次支持 1M 上下文(目前处于 Beta 阶段)。它能更稳定地处理超长对话和海量文档,极大减少了长文本下的“上下文腐烂”现象。
- 巅峰代码性能:在
Terminal-Bench 2.0等代理编程评估中取得行业最高分,能更细致地进行规划、调试并处理复杂代码库。 - 代理团队(Agent Teams):在 Claude Code 中引入研究预览版。用户可以启动多个代理并行工作,它们能自主协调任务,特别适合进行大规模的代码审查和迁移。
🧠 智能与效率的平衡
- 自适应思维(Adaptive Thinking):模型现在可以根据任务复杂程度,自主决定投入多少“思考时间”。
- 努力度控制(Effort Controls):开发者可以手动调节四个等级(Low, Medium, High, Max),在智能水平、速度和成本之间找到最佳平衡点。
- 上下文压缩(Context Compaction):API 端新增功能,能自动摘要历史上下文,让长时间运行的代理任务不再受限于窗口限制。
📊 行业对标表现
根据官方测试数据:
- 在 GDPval-AA(经济价值知识任务评估)中,Opus 4.6 领先 OpenAI 的 GPT-5.2 约 144 Elo 分。
- 在 BrowseComp(在线信息检索评估)中,表现优于目前所有主流模型。
- 在法律(BigLaw Bench)和生物科学领域同样刷新了性能记录。
🛠️ 产品深度集成
Claude Opus 4.6 已经深度整合进 Excel 和 PowerPoint(预览版)。它现在可以自主理解数据结构、处理多步变更,并能根据用户的品牌风格自动生成演示文稿。
💰 价格与可用性
Claude Opus 4.6 现已通过 API、Claude.ai 以及主流云平台开放。定价保持不变:每百万 Token 5美元输入/25美元输出(超过 200k 的超长输入会应用溢价)。
Anthropic 表示,Opus 4.6 的设计初衷是让 AI 成为真正的“数字合作伙伴”,而非简单的工具。随着代理能力的增强,AI 处理长期、复杂任务的可靠性得到了质的飞跃。