就在剛剛,Claude 3.7 Sonnet 正式發(fā)布。
作為 Claude 有史以來最智能的模型,它采用混合推理方式,既能快速生成響應,也能進行深入的逐步推理。
一個模型,兩種思考模式。
此外, Anthropic 還發(fā)布了一款智能編程工具——Claude Code。
官方表示,Claude 3.7 Sonnet 和 Claude Code 標志著 AI 邁向真正增強人類能力的重要一步。它們不僅能深入推理、獨立執(zhí)行任務,還能高效協(xié)作,讓 AI 在現(xiàn)實世界中發(fā)揮更大價值。
太長不看,省流版如下:
-
Claude 3.7 Sonnet:全球首款雙模式混合推理模型,標準模式快速響應,擴展思考模式進行深度自我反思,在數(shù)學、物理和編程等復雜任務上表現(xiàn)卓越,注重實用導向,不必要拒絕減少 45%,強化代碼協(xié)作能力
-
Claude Code:直接在終端理解并操作代碼庫,能一次完成需 45 分鐘以上的人工編程任務,專長于測試驅(qū)動開發(fā)、復雜調(diào)試和大規(guī)模代碼重構,全面支持代碼編輯、測試執(zhí)行等核心開發(fā)流程
全球首款混合推理模型正式發(fā)布,你的 Claude 會思考了
新發(fā)布的 Claude 3.7 Sonnet 不僅引入了詳細的逐步推理,而且也公開了「思考」過程。感謝 DeepSeek 的內(nèi)卷,推動了行業(yè)透明度的提升。
就像人類用同一個大腦既能快速反應,又能深入思考一樣,Anthropic 同樣認為推理能力不應依賴于單獨的模型。
最好是,一個模型搞定所有場景。
用戶可以自由選擇是讓模型快速作答,還是讓其進行更長時間的深度思考。
在標準模式下,它是 Claude 3.5 Sonnet 的升級版;在擴展思考(Extended Thinking)模式下,它會在回答前進行自我反思,大幅提升在數(shù)學、物理、指令理解和編程等復雜任務上的表現(xiàn)。
從基準測試結果來看,Claude 3.7 Sonnet(擴展思維版)適用于強邏輯推理和數(shù)學任務,而 Grok 3 Beta 和 DeepSeek R1 則在特定任務(推理、數(shù)學競賽)上表現(xiàn)更佳。
DeepSeek R1 在數(shù)學解題能力(97.3%)方面最強,同時在其他任務上也有不錯的表現(xiàn)。
在推理模型的優(yōu)化過程中,Anthropic 減少了對數(shù)學和計算機科學競賽問題的側(cè)重,更專注于滿足企業(yè)對 LLM 的實際應用需求。
在專門評估 AI 解決真實軟件問題能力的 SWE-bench Verified 基準測試中,Claude 3.7 Sonnet 達到了行業(yè)領先水平。同時,該模型在 TAU-bench 測試中也表現(xiàn)突出,展現(xiàn)了其在與用戶及工具交互方面的優(yōu)異能力。
值得一提的是,Claude 3.7 Sonnet 在 Anthropic 內(nèi)部的 Pokémon 游戲測試中超越了所有前代模型,展現(xiàn)了更強的決策與規(guī)劃能力。
該模型現(xiàn)已適用于所有 Claude 訂閱計劃,包括免費版、專業(yè)版、團隊版和企業(yè)版,同時也可通過 Anthropic API、Amazon Bedrock 和 Google Cloud 的Vertex AI 訪問。
值得注意的是,除免費版外,所有平臺均支持擴展思考模式(Extended Thinking Mode)。
無論使用哪種模式,定價與前代模型保持一致。輸入 100 萬個 token 收費 3 美元,輸出 100 萬個 token(包括思考過程中使用的 token)收費 15 美元。
在過去,Claude 出色的編程能力讓其成為許多開發(fā)者的首選模型,現(xiàn)在,Claude 3.7 Sonnet 也進一步放大了其優(yōu)勢。
Cursor、Cognition、Vercel、Replit 和 Canva 等公司均確認該模型在處理復雜代碼庫、高級工具使用、代碼修改規(guī)劃和全棧更新處理等方面表現(xiàn)出色。
為優(yōu)化用戶體驗,GitHub 集成功能已向所有訂閱計劃開放,開發(fā)者可以直接將代碼庫連接到 Claude,實現(xiàn)更高效的協(xié)作。無論是修復 Bug、開發(fā)新功能還是完善文檔,Claude 3.7 Sonnet 都能為個人項目和企業(yè)級 GitHub 代碼庫提供更好的支持。
在安全性方面,通過與外部專家合作,相比前代模型,Claude 3.7 Sonnet 能更準確地區(qū)分惡意請求和正常請求,不必要的拒絕減少了 45%,能夠提供更流暢的交互體驗。
▲截取自 Claude 3.7 Sonnet 系統(tǒng)卡
代碼寫到一半想放棄?把復雜問題甩給 Claude Code
Anthropic 還推出了一款用于智能編程工具——Claude Code,目前作為限量研究預覽版開放,開發(fā)者可以直接在終端中將大量工程任務交給 Claude 處理。
新推出的 Claude Code 能夠搜索和閱讀代碼、編輯文件、編寫并運行測試、提交和推送代碼到 GitHub,以及使用命令行工具等。
據(jù) Anthropic 官方介紹,在早期測試中,Claude Code 能一次性完成通常需要 45 分鐘以上的人工任務,大幅減少開發(fā)時間和工作量,特別是在測試驅(qū)動開發(fā)(TDD)、調(diào)試復雜問題和大規(guī)模重構方面表現(xiàn)突出。
作為一款終端運行的智能編程助手,Claude Code 能夠直接理解開發(fā)者的代碼庫,并通過自然語言命令幫助用戶更高效地編碼。它可以無縫集成到開發(fā)環(huán)境中,無需額外的服務器或復雜的配置,極大地簡化了工作流程。
其核心功能包括編輯文件、修復 Bug、回答關于代碼架構和邏輯的問題、執(zhí)行測試、修復測試錯誤、進行代碼格式檢查,以及搜索 Git 歷史記錄、解決合并沖突、創(chuàng)建提交和拉取請求等。
Anthropic 表示,在接下來的幾周內(nèi),他們計劃持續(xù)優(yōu)化 Claude Code,重點改進包括提升工具調(diào)用的穩(wěn)定性、支持長時間運行的命令、改進應用內(nèi)的渲染效果,以及增強 Claude 對自身能力的理解。
這次發(fā)布預覽研究版本也是希望深入了解開發(fā)者如何使用 Claude 進行編程,從而為進一步優(yōu)化未來的模型版本提供參考。
感興趣的開發(fā)者在官方網(wǎng)站查看相關事項,指路