Anthropic 重磅升級 Claude 3.5 Sonnet 與 3.5 Haiku

Anthropic 重磅升級 Claude 3.5 Sonnet:AI 突破性進展引領產業新標竿

Anthropic 於 2024 年 10 月 22 日正式發布 Claude 3.5 Sonnet 重大更新,不僅在程式碼處理和工具使用方面取得顯著進展,更首次推出革命性的電腦操作功能。

卓越性能突破

程式碼與推理能力提升

在權威的 SWE-bench Verified 測試中,新版本得分從 33.4% 大幅提升至 49.0%,成為目前所有公開可用模型中的最高分。在企業應用測試 TAU-bench 中,零售領域測試分數從 62.6% 提升至 69.2%,航空領域則從 36.0% 提升至 46.0%。

革命性電腦操作功能

突破性技術

此次更新最大亮點是首次在公測版中推出電腦使用功能(Computer Use),讓 AI 能夠像人類一樣操作電腦介面。具體功能包括:

  • 螢幕內容識別
  • 游標移動控制
  • 按鈕點擊操作
  • 文字輸入功能
影片來源:Anthropic

在 OSWorld 測試中,Claude 3.5 Sonnet 在截圖類別中獲得 14.9% 的得分,遠超其他 AI 系統的 7.8%。

企業實際應用效益

多家知名企業已開始測試新版本的實際應用效果。Replit 正在運用 Claude 3.5 Sonnet 的電腦操作和使用者介面導航功能,開發其 Replit Agent 產品的關鍵功能。GitLab 在測試 DevSecOps 任務時發現,新版本在不增加延遲的情況下,推理能力提升最高達 10%。

Claude 3.5 Haiku:高效能與經濟性的完美結合

Anthropic 同時宣布推出全新的 Claude 3.5 Haiku 模型,這是該公司最快速模型的新一代產品。在維持與前代相同的成本和運算速度的情況下,Haiku 在各項技能指標上都有顯著提升。

卓越的程式碼處理能力

在 SWE-bench Verified 測試中,Claude 3.5 Haiku 獲得了 40.6% 的優異成績,超越了包括原版 Claude 3.5 Sonnet 和 GPT-4 在內的多個公開可用模型。

應用場景與優勢

Claude 3.5 Haiku 特別適合以下應用場景:

  • 需要快速響應的用戶端產品
  • 專門的子代理任務
  • 電子商務解決方案
  • 教育平台
  • 客戶服務聊天機器人

這個新模型還特別擅長處理大量非結構化數據,可協助金融、醫療保健和研究等領域的數據處理與分類工作。Haiku 將於本月晚些時候在 Anthropic API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台上線,初期將僅支援文字輸入,圖像輸入功能將在後續更新中推出。

安全性與部署

Anthropic 特別強調安全性的重要,新版本已通過美國 AI 安全研究所(US AISI)和英國安全研究所(UK AISI)的聯合測試驗證。企業用戶現可透過 Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台部署使用這個升級版本。

結語

在維持相同價格和運算速度的情況下實現如此重大突破,Claude 3.5 Sonnet 的升級無疑為 AI 市場帶來新的競爭態勢。隨著 Asana、Canva、Cognition、DoorDash 等企業陸續開始探索新功能的應用可能,預期將為產業帶來更多創新應用場景。

這次更新不僅展現了 Anthropic 在 AI 技術發展上的實力,更顯示了 AI 技術正朝著更實用、更智能的方向快速發展。然而,Anthropic 也提醒開發者,由於電腦操作功能仍處於實驗階段,建議優先從低風險任務開始測試。