深夜重磅！全球首個混合推理模型發(fā)布，Claude 能「思考」了，實測發(fā)現(xiàn)這些細節(jié)

日期:2025-02-26 05:48 點擊數(shù):1975 來源:新浪科技共有條評論

分享到

就在剛剛，Claude 3.7 Sonnet 正式發(fā)布。

作為 Claude 有史以來最智能的模型，它采用混合推理方式，既能快速生成響應，也能進行深入的逐步推理。

一個模型，兩種思考模式。

此外， Anthropic 還發(fā)布了一款智能編程工具——Claude Code。

官方表示，Claude 3.7 Sonnet 和 Claude Code 標志著 AI 邁向真正增強人類能力的重要一步。它們不僅能深入推理、獨立執(zhí)行任務，還能高效協(xié)作，讓 AI 在現(xiàn)實世界中發(fā)揮更大價值。

太長不看，省流版如下：

Claude 3.7 Sonnet：全球首款雙模式混合推理模型，標準模式快速響應，擴展思考模式進行深度自我反思，在數(shù)學、物理和編程等復雜任務上表現(xiàn)卓越，注重實用導向，不必要拒絕減少 45%，強化代碼協(xié)作能力
Claude Code：直接在終端理解并操作代碼庫，能一次完成需 45 分鐘以上的人工編程任務，專長于測試驅(qū)動開發(fā)、復雜調(diào)試和大規(guī)模代碼重構，全面支持代碼編輯、測試執(zhí)行等核心開發(fā)流程

全球首款混合推理模型正式發(fā)布，你的 Claude 會思考了

新發(fā)布的 Claude 3.7 Sonnet 不僅引入了詳細的逐步推理，而且也公開了「思考」過程。感謝 DeepSeek 的內(nèi)卷，推動了行業(yè)透明度的提升。

就像人類用同一個大腦既能快速反應，又能深入思考一樣，Anthropic 同樣認為推理能力不應依賴于單獨的模型。

最好是，一個模型搞定所有場景。

用戶可以自由選擇是讓模型快速作答，還是讓其進行更長時間的深度思考。

在標準模式下，它是 Claude 3.5 Sonnet 的升級版；在擴展思考（Extended Thinking）模式下，它會在回答前進行自我反思，大幅提升在數(shù)學、物理、指令理解和編程等復雜任務上的表現(xiàn)。

從基準測試結果來看，Claude 3.7 Sonnet（擴展思維版）適用于強邏輯推理和數(shù)學任務，而 Grok 3 Beta 和 DeepSeek R1 則在特定任務（推理、數(shù)學競賽）上表現(xiàn)更佳。

DeepSeek R1 在數(shù)學解題能力（97.3%）方面最強，同時在其他任務上也有不錯的表現(xiàn)。

在推理模型的優(yōu)化過程中，Anthropic 減少了對數(shù)學和計算機科學競賽問題的側(cè)重，更專注于滿足企業(yè)對 LLM 的實際應用需求。

在專門評估 AI 解決真實軟件問題能力的 SWE-bench Verified 基準測試中，Claude 3.7 Sonnet 達到了行業(yè)領先水平。同時，該模型在 TAU-bench 測試中也表現(xiàn)突出，展現(xiàn)了其在與用戶及工具交互方面的優(yōu)異能力。

值得一提的是，Claude 3.7 Sonnet 在 Anthropic 內(nèi)部的 Pokémon 游戲測試中超越了所有前代模型，展現(xiàn)了更強的決策與規(guī)劃能力。

該模型現(xiàn)已適用于所有 Claude 訂閱計劃，包括免費版、專業(yè)版、團隊版和企業(yè)版，同時也可通過 Anthropic API、Amazon Bedrock 和 Google Cloud 的Vertex AI 訪問。

值得注意的是，除免費版外，所有平臺均支持擴展思考模式（Extended Thinking Mode）。

無論使用哪種模式，定價與前代模型保持一致。輸入 100 萬個 token 收費 3 美元，輸出 100 萬個 token（包括思考過程中使用的 token）收費 15 美元。

在過去，Claude 出色的編程能力讓其成為許多開發(fā)者的首選模型，現(xiàn)在，Claude 3.7 Sonnet 也進一步放大了其優(yōu)勢。

Cursor、Cognition、Vercel、Replit 和 Canva 等公司均確認該模型在處理復雜代碼庫、高級工具使用、代碼修改規(guī)劃和全棧更新處理等方面表現(xiàn)出色。

為優(yōu)化用戶體驗，GitHub 集成功能已向所有訂閱計劃開放，開發(fā)者可以直接將代碼庫連接到 Claude，實現(xiàn)更高效的協(xié)作。無論是修復 Bug、開發(fā)新功能還是完善文檔，Claude 3.7 Sonnet 都能為個人項目和企業(yè)級 GitHub 代碼庫提供更好的支持。

在安全性方面，通過與外部專家合作，相比前代模型，Claude 3.7 Sonnet 能更準確地區(qū)分惡意請求和正常請求，不必要的拒絕減少了 45%，能夠提供更流暢的交互體驗。

▲截取自 Claude 3.7 Sonnet 系統(tǒng)卡

代碼寫到一半想放棄？把復雜問題甩給 Claude Code

Anthropic 還推出了一款用于智能編程工具——Claude Code，目前作為限量研究預覽版開放，開發(fā)者可以直接在終端中將大量工程任務交給 Claude 處理。

新推出的 Claude Code 能夠搜索和閱讀代碼、編輯文件、編寫并運行測試、提交和推送代碼到 GitHub，以及使用命令行工具等。

據(jù) Anthropic 官方介紹，在早期測試中，Claude Code 能一次性完成通常需要 45 分鐘以上的人工任務，大幅減少開發(fā)時間和工作量，特別是在測試驅(qū)動開發(fā)（TDD）、調(diào)試復雜問題和大規(guī)模重構方面表現(xiàn)突出。

作為一款終端運行的智能編程助手，Claude Code 能夠直接理解開發(fā)者的代碼庫，并通過自然語言命令幫助用戶更高效地編碼。它可以無縫集成到開發(fā)環(huán)境中，無需額外的服務器或復雜的配置，極大地簡化了工作流程。

其核心功能包括編輯文件、修復 Bug、回答關于代碼架構和邏輯的問題、執(zhí)行測試、修復測試錯誤、進行代碼格式檢查，以及搜索 Git 歷史記錄、解決合并沖突、創(chuàng)建提交和拉取請求等。

Anthropic 表示，在接下來的幾周內(nèi)，他們計劃持續(xù)優(yōu)化 Claude Code，重點改進包括提升工具調(diào)用的穩(wěn)定性、支持長時間運行的命令、改進應用內(nèi)的渲染效果，以及增強 Claude 對自身能力的理解。

這次發(fā)布預覽研究版本也是希望深入了解開發(fā)者如何使用 Claude 進行編程，從而為進一步優(yōu)化未來的模型版本提供參考。

感興趣的開發(fā)者在官方網(wǎng)站查看相關事項，指路

【上一篇】【返回頂部】【關閉本頁】【下一篇】

免费 国产 蜜桃视频,久久九九综合,女技师强制高潮xxxx按摩,米塔光溜溜身子,麻花星空天美视频,1137大但人文艺术,野原柚花的秘密直播,99re热这里只有精品18,JVID大陆版上线,樱花影视未成年入口,农村乱肉130全集

深夜重磅！全球首個混合推理模型發(fā)布，Claude 能「思考」了，實測發(fā)現(xiàn)這些細節(jié)

免费国产蜜桃视频,久久九九综合,女技师强制高潮xxxx按摩,米塔光溜溜身子,麻花星空天美视频,1137大但人文艺术,野原柚花的秘密直播,99re热这里只有精品18,JVID大陆版上线,樱花影视未成年入口,农村乱肉130全集

深夜重磅！全球首個混合推理模型發(fā)布，Claude 能「思考」了，實測發(fā)現(xiàn)這些細節(jié)