Google 推出 Gemini 2.0：AI 能力的飛躍

Google 宣布推出 Gemini 2.0，這是迄今為止最先進的 AI 模型。設計用於「代理時代」，Gemini 2.0 引入了一系列新功能，這些功能承諾將改變 AI 與世界互動的方式。

Google 推出 Gemini 2.0。影片來源：Google

Gemini 2.0 的一大亮點是其多模態輸出功能，包括本地圖像生成和音頻輸出。這意味著該模型可以直接生成圖像和音頻，增強其創建更沉浸和互動體驗的能力。此外，Gemini 2.0 可以本地使用 Google 搜索和地圖等工具，無縫集成現有的 Google 服務，提供更全面和準確的回應。

開發人員已經開始體驗 Gemini 2.0 的潛力，Gemini 2.0 Flash 是該模型的實驗版本。通過 Google AI Studio 和 Vertex AI 提供的 Gemini 2.0 Flash 具有低延遲和增強性能，使其成為希望構建下一代 AI 應用程序的開發人員的強大工具。Google 還使其第六代 TPU Trillium 普遍可用於 Google Cloud 客戶，進一步簡化了構建 AI 驅動應用程序的過程。

Gemini 2.0 Flash 的性能改進顯著。Google 報告稱，新模型的運行速度是其前代 Gemini 1.5 Pro 的兩倍，並且在各種基準測試中表現出色。在軟件工程任務中，Gemini 2.0 Flash 在 SWE-bench Verified 上獲得了 51.8% 的分數，突顯了其協助開發人員進行代碼生成、調試和優化過程的潛力。Google 正在將 Gemini 2.0 Flash 集成到其自身的開發工具中，表明其強烈承諾利用這項技術內部。

Gemini 2.0 的能力不僅僅限於速度和性能。該模型支持圖像、視頻和音頻等多模態輸入，並且可以生成文本與內聯圖像等多模態輸出。這使得會話式圖像編輯和創建多模態內容成為可能，例如在一個回合中生成帶有文本和圖像的部落格文章。該模型還可以本地調用 Google 搜索、代碼執行和第三方用戶定義函數，使其成為各種應用程序的多功能工具。

Google 已經看到初創公司使用 Gemini 2.0 Flash 進行實驗取得了令人印象深刻的進展。例子包括 tldraw 的視覺遊樂場、Viggle 的虛擬角色創建和音頻敘述、Toonsutra 的情境多語言翻譯以及 Rooms 的實時音頻添加。為了幫助開發人員入門，Google 在 Google AI Studio 中發布了三個入門應用程序體驗，以及用於空間理解、視頻分析和 Google 地圖探索的開源代碼。

未來 Google 計劃在 2025 年初將 Gemini 2.0 的功能集成到其搜尋應用程序中，進一步增強其主要盈利平台的用戶體驗。Google 還在探索 Gemini 2.0 的代理體驗，包括 Astra、Mariner 和 Jules 等項目，這些項目旨在推動 AI 能夠實現的邊界。

正如 Google DeepMind 的首席執行官 Demis Hassabis 和首席技術官 Koray Kavukcuoglu 所說，「如果 Gemini 1.0 是關於組織和理解資訊，那麼 Gemini 2.0 就是關於使其更加有用。」