Anthropic 重磅升級 Claude 3.5 Sonnet 與 3.5 Haiku

Anthropic 於 2024 年 10 月 22 日正式發布 Claude 3.5 Sonnet 重大更新，不僅在程式碼處理和工具使用方面取得顯著進展，更首次推出革命性的電腦操作功能。

Introducing an upgraded Claude 3.5 Sonnet, and a new model, Claude 3.5 Haiku. We’re also introducing a new capability in beta: computer use.

Developers can now direct Claude to use computers the way people do—by looking at a screen, moving a cursor, clicking, and typing text. pic.twitter.com/ZlywNPVIJP
— Anthropic (@AnthropicAI) October 22, 2024

卓越性能突破

程式碼與推理能力提升

在權威的 SWE-bench Verified 測試中，新版本得分從 33.4% 大幅提升至 49.0%，成為目前所有公開可用模型中的最高分。在企業應用測試 TAU-bench 中，零售領域測試分數從 62.6% 提升至 69.2%，航空領域則從 36.0% 提升至 46.0%。

革命性電腦操作功能

突破性技術

此次更新最大亮點是首次在公測版中推出電腦使用功能（Computer Use），讓 AI 能夠像人類一樣操作電腦介面。具體功能包括：

螢幕內容識別
游標移動控制
按鈕點擊操作
文字輸入功能

在 OSWorld 測試中，Claude 3.5 Sonnet 在截圖類別中獲得 14.9% 的得分，遠超其他 AI 系統的 7.8%。

企業實際應用效益

多家知名企業已開始測試新版本的實際應用效果。Replit 正在運用 Claude 3.5 Sonnet 的電腦操作和使用者介面導航功能，開發其 Replit Agent 產品的關鍵功能。GitLab 在測試 DevSecOps 任務時發現，新版本在不增加延遲的情況下，推理能力提升最高達 10%。

Claude 3.5 Haiku：高效能與經濟性的完美結合

Anthropic 同時宣布推出全新的 Claude 3.5 Haiku 模型，這是該公司最快速模型的新一代產品。在維持與前代相同的成本和運算速度的情況下，Haiku 在各項技能指標上都有顯著提升。

卓越的程式碼處理能力

在 SWE-bench Verified 測試中，Claude 3.5 Haiku 獲得了 40.6% 的優異成績，超越了包括原版 Claude 3.5 Sonnet 和 GPT-4 在內的多個公開可用模型。

應用場景與優勢

Claude 3.5 Haiku 特別適合以下應用場景：

需要快速響應的用戶端產品
專門的子代理任務
電子商務解決方案
教育平台
客戶服務聊天機器人

這個新模型還特別擅長處理大量非結構化數據，可協助金融、醫療保健和研究等領域的數據處理與分類工作。Haiku 將於本月晚些時候在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上線，初期將僅支援文字輸入，圖像輸入功能將在後續更新中推出。

安全性與部署

Anthropic 特別強調安全性的重要，新版本已通過美國 AI 安全研究所（US AISI）和英國安全研究所（UK AISI）的聯合測試驗證。企業用戶現可透過 Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台部署使用這個升級版本。

結語

在維持相同價格和運算速度的情況下實現如此重大突破，Claude 3.5 Sonnet 的升級無疑為 AI 市場帶來新的競爭態勢。隨著 Asana、Canva、Cognition、DoorDash 等企業陸續開始探索新功能的應用可能，預期將為產業帶來更多創新應用場景。

這次更新不僅展現了 Anthropic 在 AI 技術發展上的實力，更顯示了 AI 技術正朝著更實用、更智能的方向快速發展。然而，Anthropic 也提醒開發者，由於電腦操作功能仍處於實驗階段，建議優先從低風險任務開始測試。