
繼 OpenAI 的 GPT-o3 後, Anthropic 也推出最新力作 Claude 3.7 Sonnet ,號稱是目前最智能的 AI 模型,不僅擁有混合推理能力,更大幅提升程式碼撰寫和電腦使用效率,為 AI 生成內容市場投下震撼彈。
Claude 3.7 Sonnet 是什麼?
Claude 3.7 Sonnet 是 Anthropic 開發的混合推理模型,採用全新「延伸思考」功能,並改進了程式碼撰寫和電腦使用方面的能力。 與其他大型語言模型相比, Claude 3.7 Sonnet 最獨特之處在於它結合了 LLM 和推理模型的優勢。 一般的 LLM 擅長生成文字和理解語言模式,而推理模型則可以將複雜問題分解成步驟,顯示其「思考鏈」,以得出解決方案。 Claude 3.7 Sonnet 則 兼具兩者 的能力,使其在市場上獨樹一幟。 此外,Claude 3.7 Sonnet 的輸出容量也大幅提升,可產生長達 128,000 個 token 的回應,是 Claude 3.5 Sonnet 的 16 倍。 更長的回應長度對於程式碼和內容生成特別有效。
混合推理: Claude 3.7 Sonnet 的秘密武器
Claude 3.7 Sonnet 導入了一種獨特的 AI 推理方法,將其與其他功能無縫整合。 不同於傳統模型將快速回應和需要深入思考的回應分開處理, Claude 3.7 Sonnet 允許用戶在標準和延伸思考模式之間切換。 在標準模式下,它的功能類似於 Claude 3.5 Sonnet 的升級版;而在延伸思考模式下,它會進行自我反思,以在各種任務中取得更好的結果。 用戶可以調整模型思考的時間,在速度和答案品質之間取得彈性平衡。 更重要的是, Claude 3.7 Sonnet 允許用戶設定「思考預算」,也就是調整模型思考的時間,最多可達 128,000 個 token,在速度、準確性和成本之間取得平衡。 這種彈性讓 AI 模型更能適應各種業務和技術需求。
Claude 3.7 Sonnet 的混合推理模式與傳統大型語言模型的推理方式截然不同,它更像是人類大腦的運作方式。 傳統 LLM 通常使用不同的模型來處理快速查詢和複雜問題,而 Claude 3.7 Sonnet 則將推理能力整合到單一模型中,無論是回答簡單問題還是解決困難的謎題,都使用相同的「大腦」。
程式碼撰寫能力大躍進
Claude 3.7 Sonnet 在軟體開發方面表現出色,尤其是在前端網頁開發方面。 它在程式碼基準測試中達到 最先進的效能 ,成為開發人員的強大工具。 此外, Anthropic 還推出了 Claude Code ,這是一款 AI 驅動的程式碼輔助工具,直接內建於模型中。 Claude Code 具備以下優勢:
- 卓越的程式碼生成能力: 基準測試顯示, Claude Code 在特定程式碼任務中的表現優於先前的 Claude 模型 。
- 除錯和重構: 該模型協助開發人員進行程式碼除錯、程式碼優化,並以更簡單的方式解釋複雜的邏輯。
- 多語言支援: Claude Code 支援多種程式語言,對軟體工程師、研究人員和 AI 開發人員都非常有用。
開發人員可以透過終端機委派工程任務,例如搜尋和編輯程式碼、執行自動化測試,以及將變更提交到 GitHub 等。
Claude 3.7 Sonnet 的進階功能
Claude 3.7 Sonnet 引入了「動作擴展」功能,這是一種改進的功能,允許模型迭代地呼叫函數、響應環境變化,並持續執行直到完成開放式任務。 其中一個例子是使用電腦: Claude 可以發出虛擬滑鼠點擊和鍵盤按鍵來代替用戶完成任務。與之前的模型相比, Claude 3.7 Sonnet 可以為電腦使用任務分配更多時間和計算能力,而且結果通常更好。
Claude 3.7 Sonnet 與其他模型的比較
功能 | Claude 3.7 Sonnet | GPT-o3 | Grok 3 | DeepSeek | Gemini 2.0 |
---|---|---|---|---|---|
混合推理能力 | ✅ | ✅ | ✅ | ✅ | ⚠️ (僅限 Flash Thinking) |
程式碼撰寫能力 | ✅ | ✅ | ✅ | ✅ | ✅ |
代理工作流程 | ✅ | ⚠️ | ✅ | ⚠️ | ✅ |
可見的逐步推理 | ✅ | ⚠️ (部分) | ✅ | ✅ | ✅ (僅限 Flash Thinking) |
可調整的推理預算 | ✅ | ⚠️ (僅限 o3-mini) | ✅ | ⚠️ | ❌ |
多模態輸入 | ⚠️ (部分) | ⚠️ (部分) | ✅ | ✅ | ✅ |
多模態輸出 | ❌ | ❌ | ✅ | ❌ | ⚠️ (僅限 Flash) |
網路搜尋 | ❌ | ❌ | ✅ | ❌ | ✅ |
Claude 3.7 Sonnet 在混合推理能力方面表現出色,允許用戶在快速回應和深入思考之間切換。 它也具備強大的程式碼撰寫能力,並在 SWE-bench Verified 和 TAU-bench 等基準測試中達到最先進的效能。 此外, Claude 3.7 Sonnet 還具備代理工作流程能力,可以自主導航多步驟流程。 它可以顯示其推理過程,提高 AI 決策的透明度。 用戶還可以控制模型思考的時間,平衡速度、成本和效能。
GPT-o3 在推理和程式碼撰寫方面也表現出色,尤其是在數學和科學領域。 它引入了「程式合成」功能,可以將現有知識重新組合成新的演算法,解決以前未曾遇到的問題。 GPT-o3 也採用了增強的「思考鏈」推理技術,模仿人類的腦力激盪過程。 然而, GPT-o3 的逐步推理過程並非完全可見, OpenAI 僅提供 CoT 的摘要版本。
Grok 3 是一款多模態模型,具備進階的文字生成、圖像生成和推理能力。 它可以透過 Think 和 Big Brain 模式進行逐步推理,並透過 DeepSearch 模式搜尋網路資訊。 Grok 3 在多項基準測試中表現出色,包括 AIME 2025 、 Chatbot Arena 和 GPQA 。
DeepSeek 專注於進階推理能力,並透過強化學習進行訓練。 它在數學、程式碼和科學問題解決方面表現出色。 DeepSeek 採用多頭潛在注意力 ( MLA ) 和多 token 預測 ( MTP ) 等架構創新,提高回應速度和準確性。
Gemini 2.0 是 Google 推出的多模態模型,具備文字、圖像和語音處理能力。 Gemini 2.0 Flash 是其最新版本,支援即時 Live API 和增強的代理能力。 Gemini 2.0 Flash Thinking Experimental 則具備進階推理能力,並在 AIME2024 、 GPQA Diamond 和 MMMU 等基準測試中表現出色。
Claude 3.7 Sonnet 的效能
Claude 3.7 Sonnet 在多項基準測試中展現出其強大的效能。 它在 SWE-bench Verified 和 TAU-bench 等基準測試中達到最先進的效能,證明了其強大的程式碼撰寫和問題解決能力。 此外,它在 AIME 2024 、 MMLU 等測試中的表現也相當出色,甚至在 Pokémon 遊戲測試中超越了所有先前的模型。 延伸思考模式讓 Claude 3.7 Sonnet 能夠更深入地分析複雜問題,進而在數學、物理和程式碼等任務中取得更好的結果。
安全性與可靠性
Anthropic 顯著提升了 Claude 3.7 Sonnet 的安全性機制,重點包括:
- 與先前版本相比,不必要的拒絕減少了 45% 。
- 更好地處理提示注入攻擊。
- 提高推理的可信度,減少幻覺和誤導性回應。
結語
Claude 3.7 Sonnet 是一款功能強大的大型語言模型,擁有混合推理、增強的程式碼撰寫能力和可調整的推理預算等多項優勢。 它在各個領域都有廣泛的應用潛力,可望成為 AI 生成內容市場的明日之星。 隨著 AI 技術的持續發展, Claude 3.7 Sonnet 將在推動 AI 應用和商業價值方面發揮重要作用。 其混合推理模式更接近人類的思考方式,讓 AI 模型不再只是單純的語言工具,而是能夠協助人類解決更複雜問題的合作夥伴。
常見問題 ( FAQ )
- Claude 3.7 Sonnet 在哪裡可以使用? Claude 3.7 Sonnet 目前可在所有 Claude 方案中使用,包括免費版、專業版、團隊版和企業版,以及 Anthropic API 、 Amazon Bedrock 和 Google Cloud 的 Vertex AI 。
- Claude 3.7 Sonnet 的價格是多少? Claude 3.7 Sonnet 的價格與其前身相同:每百萬個輸入 token 3 美元,每百萬個輸出 token (包括思考 token ) 15 美元。
- Claude 3.7 Sonnet 的主要競爭對手有哪些? Claude 3.7 Sonnet 的主要競爭對手包括 OpenAI 的 GPT-o3 和 Google 的 Gemini 2.0 Pro Experimental 、 Grok 3 及 DeekSeek R1 。
- Claude 3.7 Sonnet 有哪些潛在的應用? Claude 3.7 Sonnet 的潛在應用包括程式碼生成、進階聊天機器人、知識問答、視覺資料提取、客戶服務代理程式、內容生成和分析、機器人流程自動化等。