Claude 3.7 Sonnet 是 Anthropic 開發的混合推理模型,採用全新「延伸思考」功能,並改進了程式碼撰寫和電腦使用方面的能力。 與其他大型語言模型相比, Claude 3.7 Sonnet 最獨特之處在於它結合了 LLM 和推理模型的優勢。 一般的 LLM 擅長生成文字和理解語言模式,而推理模型則可以將複雜問題分解成步驟,顯示其「思考鏈」,以得出解決方案。 Claude 3.7 Sonnet 則 兼具兩者 的能力,使其在市場上獨樹一幟。 此外,Claude 3.7 Sonnet 的輸出容量也大幅提升,可產生長達 128,000 個 token 的回應,是 Claude 3.5 Sonnet 的 16 倍。 更長的回應長度對於程式碼和內容生成特別有效。
混合推理: Claude 3.7 Sonnet 的秘密武器
Claude 3.7 Sonnet 導入了一種獨特的 AI 推理方法,將其與其他功能無縫整合。 不同於傳統模型將快速回應和需要深入思考的回應分開處理, Claude 3.7 Sonnet 允許用戶在標準和延伸思考模式之間切換。 在標準模式下,它的功能類似於 Claude 3.5 Sonnet 的升級版;而在延伸思考模式下,它會進行自我反思,以在各種任務中取得更好的結果。 用戶可以調整模型思考的時間,在速度和答案品質之間取得彈性平衡。 更重要的是, Claude 3.7 Sonnet 允許用戶設定「思考預算」,也就是調整模型思考的時間,最多可達 128,000 個 token,在速度、準確性和成本之間取得平衡。 這種彈性讓 AI 模型更能適應各種業務和技術需求。
Claude 3.7 Sonnet 的混合推理模式與傳統大型語言模型的推理方式截然不同,它更像是人類大腦的運作方式。 傳統 LLM 通常使用不同的模型來處理快速查詢和複雜問題,而 Claude 3.7 Sonnet 則將推理能力整合到單一模型中,無論是回答簡單問題還是解決困難的謎題,都使用相同的「大腦」。
程式碼撰寫能力大躍進
Claude 3.7 Sonnet 在軟體開發方面表現出色,尤其是在前端網頁開發方面。 它在程式碼基準測試中達到 最先進的效能 ,成為開發人員的強大工具。 此外, Anthropic 還推出了 Claude Code ,這是一款 AI 驅動的程式碼輔助工具,直接內建於模型中。 Claude Code 具備以下優勢:
卓越的程式碼生成能力: 基準測試顯示, Claude Code 在特定程式碼任務中的表現優於先前的 Claude 模型 。
除錯和重構: 該模型協助開發人員進行程式碼除錯、程式碼優化,並以更簡單的方式解釋複雜的邏輯。
多語言支援: Claude Code 支援多種程式語言,對軟體工程師、研究人員和 AI 開發人員都非常有用。
Claude 3.7 Sonnet 引入了「動作擴展」功能,這是一種改進的功能,允許模型迭代地呼叫函數、響應環境變化,並持續執行直到完成開放式任務。 其中一個例子是使用電腦: Claude 可以發出虛擬滑鼠點擊和鍵盤按鍵來代替用戶完成任務。與之前的模型相比, Claude 3.7 Sonnet 可以為電腦使用任務分配更多時間和計算能力,而且結果通常更好。
Claude 3.7 Sonnet 與其他模型的比較
功能
Claude 3.7 Sonnet
GPT-o3
Grok 3
DeepSeek
Gemini 2.0
混合推理能力
✅
✅
✅
✅
⚠️ (僅限 Flash Thinking)
程式碼撰寫能力
✅
✅
✅
✅
✅
代理工作流程
✅
⚠️
✅
⚠️
✅
可見的逐步推理
✅
⚠️ (部分)
✅
✅
✅ (僅限 Flash Thinking)
可調整的推理預算
✅
⚠️ (僅限 o3-mini)
✅
⚠️
❌
多模態輸入
⚠️ (部分)
⚠️ (部分)
✅
✅
✅
多模態輸出
❌
❌
✅
❌
⚠️ (僅限 Flash)
網路搜尋
❌
❌
✅
❌
✅
Claude 3.7 Sonnet 在混合推理能力方面表現出色,允許用戶在快速回應和深入思考之間切換。 它也具備強大的程式碼撰寫能力,並在 SWE-bench Verified 和 TAU-bench 等基準測試中達到最先進的效能。 此外, Claude 3.7 Sonnet 還具備代理工作流程能力,可以自主導航多步驟流程。 它可以顯示其推理過程,提高 AI 決策的透明度。 用戶還可以控制模型思考的時間,平衡速度、成本和效能。
Gemini 2.0 是 Google 推出的多模態模型,具備文字、圖像和語音處理能力。 Gemini 2.0 Flash 是其最新版本,支援即時 Live API 和增強的代理能力。 Gemini 2.0 Flash Thinking Experimental 則具備進階推理能力,並在 AIME2024 、 GPQA Diamond 和 MMMU 等基準測試中表現出色。
Claude 3.7 Sonnet 的效能
Claude 3.7 Sonnet 在多項基準測試中展現出其強大的效能。 它在 SWE-bench Verified 和 TAU-bench 等基準測試中達到最先進的效能,證明了其強大的程式碼撰寫和問題解決能力。 此外,它在 AIME 2024 、 MMLU 等測試中的表現也相當出色,甚至在 Pokémon 遊戲測試中超越了所有先前的模型。 延伸思考模式讓 Claude 3.7 Sonnet 能夠更深入地分析複雜問題,進而在數學、物理和程式碼等任務中取得更好的結果。
安全性與可靠性
Anthropic 顯著提升了 Claude 3.7 Sonnet 的安全性機制,重點包括:
與先前版本相比,不必要的拒絕減少了 45% 。
更好地處理提示注入攻擊。
提高推理的可信度,減少幻覺和誤導性回應。
結語
Claude 3.7 Sonnet 是一款功能強大的大型語言模型,擁有混合推理、增強的程式碼撰寫能力和可調整的推理預算等多項優勢。 它在各個領域都有廣泛的應用潛力,可望成為 AI 生成內容市場的明日之星。 隨著 AI 技術的持續發展, Claude 3.7 Sonnet 將在推動 AI 應用和商業價值方面發揮重要作用。 其混合推理模式更接近人類的思考方式,讓 AI 模型不再只是單純的語言工具,而是能夠協助人類解決更複雜問題的合作夥伴。
常見問題 ( FAQ )
Claude 3.7 Sonnet 在哪裡可以使用? Claude 3.7 Sonnet 目前可在所有 Claude 方案中使用,包括免費版、專業版、團隊版和企業版,以及 Anthropic API 、 Amazon Bedrock 和 Google Cloud 的 Vertex AI 。
Claude 3.7 Sonnet 的價格是多少? Claude 3.7 Sonnet 的價格與其前身相同:每百萬個輸入 token 3 美元,每百萬個輸出 token (包括思考 token ) 15 美元。
Claude 3.7 Sonnet 的主要競爭對手有哪些? Claude 3.7 Sonnet 的主要競爭對手包括 OpenAI 的 GPT-o3 和 Google 的 Gemini 2.0 Pro Experimental 、 Grok 3 及 DeekSeek R1 。
Claude 3.7 Sonnet 有哪些潛在的應用? Claude 3.7 Sonnet 的潛在應用包括程式碼生成、進階聊天機器人、知識問答、視覺資料提取、客戶服務代理程式、內容生成和分析、機器人流程自動化等。
Deep Research 的運作核心建立在仿人類認知的三階段架構:首先進行大規模資料爬梳,系統能在 90 秒內掃描超過 200 個權威來源,包括學術期刊、財報文件與即時新聞。不同於傳統檢索工具,其特徵在於第二階段的動態推理模組,會根據初步發現自動生成後續研究路徑,這種遞歸式學習機制使分析深度可達傳統方法的 4.7 倍。最後的綜合報告階段採用專利敘事引擎,將碎片化資訊轉化為結構嚴謹的專業文件。
技術比較層面,Deep Research 的迭代搜尋(Iterative Search)功能使其有別於 ChatGPT 的線性檢索。在專利分析任務中,前者能自動延伸 4.3 個關聯技術分支,而競爭產品平均僅 1.7 個延伸維度。輸出功能支援 PDF 與 Markdown 格式,特別針對學術寫作與程式開發需求設計,這在現有競品中屬獨創性功能。
結語
Perplexity 的 Deep Research 不僅是技術突破,更是知識民主化進程的重要里程碑。其創新的三階段認知架構與激進的免費策略,正在重塑專業服務市場。儘管面臨運算成本與監管合規的雙重挑戰,該系統展現的 93.9% 事實準確率與跨領域分析能力,已為 AI 輔助研究樹立新標竿。未來發展將取決於動態推理引擎的持續優化與商業生態系的建立,這項技術可能引發的生產力革命,值得每個知識工作者密切關注。
Adobe 正式推出 Firefly Video 模型公開測試版,為 AI 影片創作領域樹立了全新標竿。這項尖端技術整合至 Adobe Creative Cloud 套件和 Firefly 網頁應用程式,讓影片專業人士和愛好者都能透過文字提示和圖像生成吸睛的影片內容。Firefly Video 將徹底改變影片製作方式,提供前所未有的創意掌控和效率,同時解決智慧財產權方面的關鍵問題。
Firefly Video 是 Adobe 生成式 AI 工具套件的最新成員,加入了 Firefly Image 2 和 Firefly Vector Model 的行列。這款創新模型允許使用者生成長達 5 秒、解析度達 1080p 的影片片段。值得注意的是,Firefly Video 是第一款公開可用且商業安全的影片生成器,突顯了 Adobe 在 AI 影片創作領域的領導地位。
使用者可以輸入文字提示或圖像,指定相機角度、運動和其他電影元素,以達到所需的視覺風格。Adobe 強調 Firefly Video 的「商業安全」特性,確保生成的內容對 IP 友善,適合用於商業用途。在 AI 影片生成快速發展的時代,版權侵權和法律挑戰的疑慮日益增加,這一點至關重要。Adobe Firefly Video 僅使用 Adobe Stock 素材和公共領域內容進行訓練,確保生成的影片不受版權限制。
為進一步解決錯誤資訊的疑慮並確保透明度,使用 Firefly Video 生成的影片將帶有內容憑證。這項浮水印技術由 Adobe 倡導,作為內容來源和真實性聯盟 (C2PA) 計畫的一部分,有助於建立標記 AI 生成內容的全產業標準。
Firefly Video 初期專注於生成自然景觀、植物和動物的影片,但它也具備更廣泛的功能。它還可以生成都市環境、動物運動和行為、天氣模式和粒子效果等大氣元素,甚至可以掌握 2D 和 3D 動畫。這種多功能性為各種應用開啟了令人興奮的可能性,從創造逼真的自然場景到開發動態的動態圖形和視覺效果,應有盡有。
Adobe Firefly Video 代表了 AI 影片創作的重大進步。透過將尖端技術與對 IP 安全性和創意控制的承諾相結合,Adobe 提供了一款有可能重塑影片製作格局的工具。Firefly Video 讓各級創作者(從經驗豐富的專業人士到有抱負的愛好者)都能以前所未有的輕鬆和效率製作高品質的影片內容。隨著 Firefly Video 的不斷發展,它無疑將釋放新的創意可能性,並重新定義影片製作的未來。