Google I/O 2024:Gemini 1.5 Pro 引領 AI 新時代,擴展多模態處理能力

Gemini 1.5 Pro 引領 AI 新時代,擴展多模態處理能力

在 Google I/O 2024 大會上,Google 公佈了多項關於 Gemini 1.5 Pro 的最新進展,這些進展展示了該公司在人工智能領域的最新突破。Gemini 1.5 Pro 作為一個多模態模型,能夠處理文本、圖像、音頻、視頻等多種輸入形式,並且擁有擴展的上下文窗口,這使得它在處理複雜任務時更加靈活和強大。

Gemini 1.5 Pro 的主要更新

Gemini 1.5 Pro 的一個顯著特點是其上下文窗口的擴展。該模型現在擁有 1 百萬個 token 的上下文窗口,並且在私人預覽中提供 2 百萬個 token 的上下文窗口。這意味著該模型可以處理更大規模的數據,例如長達 11 小時的音頻或 1 小時的視頻。這一擴展使得 Gemini 1.5 Pro 能夠在處理長文本和多媒體內容時保持高效和準確。

此外,Gemini 1.5 Pro 的多模態處理能力也是一大亮點。該模型能夠處理文本、圖像、音頻和視頻等多種輸入形式,這使得它在處理多媒體內容方面更加靈活和強大。例如,用戶可以向模型提供一張圖片並要求生成該圖片的描述,或者提供一段音頻並要求生成該音頻的轉錄文本。這些功能使得 Gemini 1.5 Pro 在處理多媒體數據時更加高效和準確。

除了上下文窗口的擴展和多模態處理能力,Gemini 1.5 Pro 還新增了視頻幀提取和並行函數調用等 API 功能,並計劃在 6 月增加上下文緩存功能,這將使長上下文的使用更加實用和經濟。這些功能的新增使得開發者可以更靈活地使用 Gemini 1.5 Pro 來處理各種複雜的任務。

Gemini 1.5 Pro 的應用場景

Gemini 1.5 Pro 在多個應用場景中展示了其強大的能力。首先,在翻譯、編碼和推理等領域,該模型進行了一系列質量改進,這些改進將幫助用戶處理更廣泛和更複雜的任務。例如,該模型可以用於自動生成高質量的翻譯文本,或者用於代碼生成和優化,這些功能對於開發者和企業來說都是非常有價值的。

其次,Gemini 1.5 Pro 能夠處理長達 11 小時的音頻或 1 小時的視頻,這使得它在處理大規模數據時更加高效和準確。例如,該模型可以用於分析長時間的會議錄音,並生成詳細的會議紀要,這對於企業來說是一個非常實用的功能。此外,該模型還可以用於分析長篇文檔,並生成詳細的文檔摘要,這對於需要處理大量文檔的用戶來說也是非常有價值的。

此外,Gemini 1.5 Pro 還提供了詳細的文件分析和總結功能。用戶可以向模型提供一個長篇文檔,並要求生成該文檔的摘要,或者要求模型分析文檔中的關鍵信息。這些功能使得 Gemini 1.5 Pro 在處理大規模數據和複雜任務時更加高效和準確。

Gemini 1.5 Pro 的全球推廣

Google 將 Gemini 1.5 Pro 向全球開發者開放,並支持 35 種語言,這使得該模型在全球範圍內具有廣泛的應用前景。此外,該模型還與 Google 的多項服務進行了深度整合,例如 Google Drive、Gmail、Google Calendar 等,這使得用戶可以更方便地使用 Gemini 1.5 Pro 來處理各種任務。

例如,用戶可以將 Gemini 1.5 Pro 與 Google Drive 整合,並使用該模型來分析和總結存儲在 Google Drive 中的文檔。這對於需要處理大量文檔的用戶來說是一個非常實用的功能。此外,用戶還可以將 Gemini 1.5 Pro 與 Gmail 整合,並使用該模型來分析和總結電子郵件內容,這對於需要處理大量電子郵件的用戶來說也是非常有價值的。

此外,Gemini 1.5 Pro 還可以與 Google Calendar 整合,並使用該模型來分析和總結日程安排,這對於需要管理複雜日程的用戶來說是一個非常實用的功能。這些整合使得用戶可以更方便地使用 Gemini 1.5 Pro 來處理各種任務,並提高工作效率。

其他相關更新

除了 Gemini 1.5 Pro,Google 還推出了 Gemini 1.5 Flash,這是一個更小的 Gemini 模型,專為需要快速響應的高頻任務而優化。該模型同樣擁有 1 百萬個 token 的上下文窗口,並在私人預覽中提供 2 百萬個 token 的上下文窗口。這使得 Gemini 1.5 Flash 能夠在處理高頻任務時保持高效和準確。

此外,Google 還推出了 PaliGemma,這是 Google 的首個視覺-語言開放模型,專為圖像標註任務而優化。該模型能夠處理文本和圖像的多模態輸入,並生成高質量的圖像標註,這對於需要處理大量圖像數據的用戶來說是一個非常實用的功能。

此外,Google 還計劃在 6 月推出 Gemma 2,這是一個擁有 27B 參數的模型,能夠在 GPU 或單個 TPU 上高效運行。這使得 Gemma 2 能夠在處理大規模數據和複雜任務時保持高效和準確。

最後,Google 還啟動了首屆 Gemini API 開發者競賽,鼓勵開發者使用 Gemini 模型創建創新和有影響力的應用。這些更新展示了 Google 在 AI 領域的最新進展,特別是 Gemini 1.5 Pro 的多模態處理能力和擴展的上下文窗口,將為開發者和企業提供更強大的工具來處理複雜的數據和任務。

結語

Google 對 AI 平台轉型的願景是通過不斷創新和改進來推動技術的發展,並為用戶提供更強大的工具來處理各種複雜的任務。Gemini 1.5 Pro 的發布展示了 Google 在這一領域的最新進展,並為未來的技術發展奠定了基礎。

此外,Google 還計劃推出 Trillium TPU,這是一個專為 AI 計算優化的硬件平台,將進一步提高 AI 模型的計算效率和性能。這些技術的發展將使得 AI 模型在處理大規模數據和複雜任務時更加高效和準確,並為用戶提供更強大的工具來處理各種任務。

整體而言,Gemini 1.5 Pro 的創新和潛力展示了 Google 在 AI 領域的最新進展,並為未來的技術發展奠定了基礎。隨著技術的不斷進步,Google 將繼續推動 AI 技術的發展,並為用戶提供更強大的工具來處理各種複雜的任務。

Google 搜尋引入生成式 AI(SGE) 重塑使用者體驗

Google搜尋引入生成式AI,重塑使用者體驗

科技巨頭 Google 在 5月14日的 Google I/O 2024 活動中宣布,將在其旗艦產品 Google 搜尋中引入生成式人工智能(Generative AI, SGE, 現在稱為 AI Overviews)技術,旨在為使用者提供更直觀、高效、與上下文相關的搜尋體驗。這一舉措標誌著搜尋引擎發展進入新的里程碑,生成式 AI 有望徹底改變用戶獲取和探索資訊的方式。

YouTube thumbnailYouTube icon
Google 在美國向所有人推出 SGE 服務,未來將拓展到其他地區。影片來源:Google

生成式 AI 是一種先進的機器學習技術,能夠理解使用者意圖,並根據上下文生成連貫、全面的回答。在 Google 搜尋中,這一技術被應用於多個方面,包括 AI 概覽、多步驟推理、規劃功能、 AI 組織搜尋結果以及視覺搜尋等。

AI 概覽功能可以幫助使用者快速掌握一個主題的精華內容。當用戶搜尋一個話題時, Google 會生成一個簡潔扼要的總結,讓用戶在短時間內了解最重要的資訊點。多步驟推理則使 Google 搜尋能夠處理更加複雜的查詢,理解問題中的細微差別,給出詳盡的建議。

規劃功能則像是一位得力助手,協助用戶完成日常任務,如制定飲食計劃、旅行行程等。當用戶輸入諸如「為一個10人的聚會制定健康的三道菜菜單」這樣的問題時, Google 會綜合各種食譜資訊,為用戶量身定制一份菜單。

另一個令人興奮的更新是 AI 組織搜尋結果。當用戶輸入某些查詢時, Google 會智慧地將搜尋結果分類,並以 AI 生成的標題呈現,幫助用戶更高效地探索新的點子和靈感。此外,視覺搜尋功能允許用戶上傳影片截圖進行提問,尤其適用於解決實際操作中遇到的問題。

這些創新背後是 Google 定制化的 Gemini 語言模型。這一模型匯集了Gemini的多步驟推理、規劃、多模態處理等多項尖端能力,與 Google 領先業界的搜尋系統相結合,共同驅動了Search Generative Experience(SGE)的誕生。

YouTube thumbnailYouTube icon
Google 宣告正式進入 Gemini 時代。影片來源:Google

對於使用者而言,生成式 AI 意味著更加豐富、個人化、與需求貼合的搜尋體驗。用戶可以更自然地提問,獲得更全面、易於理解的答案,並在探索新知識的過程中獲得智慧助理的引導。然而,對於內容創作者和網站管理者而言,這一變革可能帶來一定的挑戰。由於使用者可以直接在搜尋結果頁獲取所需信息,可能減少了對網站的訪問量。但與此同時,這也促使內容創作者製作更高品質、與眾不同的內容,以吸引使用者的關注。

Google 在人工智能領域的探索由來已久。早在2016年, Google 就推出了基於神經網絡的機器翻譯系統 Google Neural Machine Translation(GNMT)。近年來, Google 更加重視 AI 技術在旗下各產品中的應用,並致力於以負責任、有益社會的方式發展 AI。此次在搜尋中引入生成式 AI,正是 Google AI 願景的又一次落地。

未來生成式 AI 技術勢必會深刻影響搜尋引擎的發展方向。隨著技術的不斷成熟,有望看到更加智慧、高效、人性化的搜尋方式。作為業界領導者, Google 正在這場變革中扮演著重要的角色。

進一步閱讀

  1. Google 大規模擴展 AI Overviews 功能,覆蓋全球超過百國

OpenAI 發佈 GPT-4o(Omni) ,免費開放 GPT-4 級 AI 助手

OpenAI發佈GPT-4o

在2024年5月13日的直播發佈會上, OpenAI 宣佈推出其最新旗艦語言模型 GPT-4o(Omni) ,並將這款強大的 AI 助手免費開放給所有用戶。這一重大舉措標誌著人工智能技術的新里程碑,有望加速 AI 在各行各業的應用落地,並深刻影響人們的工作和生活方式。

YouTube thumbnailYouTube icon
OpenAI GPT-4o 發布會。影片來源:OpenAI

GPT-4o 是 OpenAI 在其前代產品 GPT-4 基礎上的又一次突破性進展。這款新模型不僅在自然語言處理、計算機視覺、語音識別等方面展現了卓越的性能,還大幅提升了執行效率和易用性。通過 GPT-4o ,普通用戶無需任何技術背景,即可享受到媲美 GPT-4 的 AI 助手服務,而研發成本和使用門檻的大幅降低,更將助力 AI 技術的普及和應用創新。

在發佈會上, OpenAI 團隊詳細介紹了 GPT-4o 的技術細節和創新亮點。這款多模態AI系統能夠處理文字、圖像、音頻等多種形式的數據,並支持實時互動和上下文理解。通過對海量數據的深度學習, GPT-4o 建立起了龐大的知識圖譜和語義網絡,可以就各種主題進行智能問答、分析推理、創意生成等任務。

令人印象深刻的是, GPT-4o 還擁有逼真的語音交互能力。在現場演示環節, GPT-4o 展示了其在語音識別、語義理解、情感分析等方面的出色表現,並能夠根據上下文和用戶反饋動態調整回應策略,呈現出近乎真人的互動體驗。這一功能的突破性進展,有望在客戶服務、教育培訓、虛擬助理等領域掀起一場革命。

除了服務終端用戶外, OpenAI 還宣佈將 GPT-4o 的 API 開放給第三方開發者,以加速其在各垂直領域的應用落地。通過 API 接入,開發者可以將 GPT-4o 的強大能力與特定行業場景相結合,打造出創新的智能應用和解決方案。這無疑將為企業數字化轉型和產業智能升級帶來新的動能。

值得一提的是, OpenAI 在發佈 GPT-4o 的同時,還推出了全新的 ChatGPT 桌面應用程式,為用戶帶來更便捷、高效、人性化的交互體驗。新的應用界面設計簡潔美觀,支持語音輸入和多輪對話,並針對不同使用場景提供定制化的聊天模板和功能插件。這一舉措旨在讓 AI 技術真正走入尋常百姓家,成為人們日常工作和生活中的得力助手。

在談到 OpenAI 的目標和未來願景時,聯合創始人兼 CEO Sam Altman 表示,該公司一直秉承”造福全人類”的初心,致力於讓先進的 AI 技術惠及每一個人。免費開放 GPT-4o 正是基於這一宗旨的重要舉措,體現了 OpenAI 在 AI 民主化道路上的決心和擔當。 Altman 強調,隨著 AI 技術的日益強大,開發者和研究者更需要保持謹慎負責的態度,並呼籲社會各界共同參與,攜手構建一個安全、包容、可信賴的 AI 生態。

GPT-4o 的問世,在業界引起了廣泛關注和熱議。不少專家學者認為,這是 AI 發展史上的一個重要里程碑,標誌著人機協作和認知智能的新篇章。隨著 AI 在感知、理解、決策等方面的能力不斷提升,未來將在更多領域取代或協助人類完成任務,並催生出一系列顛覆性的創新應用。但與此同時, AI 的發展也對現有的就業格局、隱私保護、倫理道德等提出了新的挑戰,需要產業界、學術界、政府部門等多方協同應對。

對於廣大普通用戶而言, GPT-4o 無疑是一個振奮人心的好消息。這意味著每個人都有機會免費體驗到頂尖 AI 技術帶來的便利和樂趣,無論是日常問答、寫作創作,還是學習成長、職業規劃, GPT-4o 都能提供專業、高效、因材施教的智能支持。 AI 助手的普及,也將推動全民數字素養和創新思維的提升,為培養未來人才打下良好基礎。

官方新聞稿

筆者初步試用心得

  1. 問答輸出速度明顯高於 GPT-4 Turbo Vision ,接近 Claude 3 Haiku
  2. 實現完整的連網功能(之前的連網功能一直有問題),連網搜尋能力優於之前的所有版本,但是仍然無法搜尋到最新的資訊
  3. 對中文語音的接收、理解、反應及互動非常地流暢及自然,真正的達到了中文語音助理的程度
  4. 官方發布會中 OpenAI 技術長 Mira Murati 提到 GPT-4o 和 GPTs 將提供給免費用戶,但目前筆者測試仍然只有付費用戶可以使用。 Mira Murati 在發布會中表示未來數週會陸續開放給所有用戶
  5. 根據 OpenAI 的官方公告,這次僅在發佈時推出文字和圖像輸入和文字輸出的功能以及有限的音訊,音訊功能將於幾週內向 ChatGPT Plus 和 API 用戶發布有限的 alpha 階段版本
  6. GPTs 還沒有很好的與 GPT-4o 整合,使用 GPTs 時輸出速度明顯落後於直接使用 GPT-4o ,而且在外部連結的引用及處理上仍然不是很好
  7. 在文字表達能力及文學呈現上,仍然落後 Claude 3 Opus

打破「新内容才是王道」迷思!Google 剖析應對「內容衰退」

打破「新内容才是王道」迷思!Google 剖析應對「內容衰退」

在數位時代,網站內容的生命週期不斷加速。許多網頁在發布後的點擊率和搜尋排名會隨著時間而下降,這種現象被稱為「內容衰退」( Content Decay )。面對這個問題,網站管理者常感到困擾︰是否應該不斷更新內容?舊內容就真的沒有價值了嗎?

事實上,內容變舊並不全然等於品質下降,許多內容即便已有一段歷史,但其正確性和實用性並不會因此打折。內容衰退的原因,更可能是使用者的搜尋趨勢改變,而非內容本身出了問題。

為了深入探討如何應對內容衰退,最近一期的 Google PODCAST,Google 搜尋團隊的 Lizzi Sassman 及 John Mueller 以 Google 搜尋開發者網站為例,看看他們是如何處理舊內容的。

首先,針對部落格文章, Google 的做法是保留原始內容,並在上方加入更新說明。這樣不僅維持了文章的史料價值,也能引導讀者前往最新的相關內容。畢竟,即便是被淘汰的功能或工具,其誕生背景和演變歷程,仍值得被記錄下來。

至於「長青內容」( Evergreen Content ),即那些原本預期能長期發揮價值的內容,一旦過時,可能反而會誤導讀者。此時適時下架,並提供替代方案就顯得格外重要。Google 團隊的建議是設置說明頁面,清楚交代下架原因,並引導使用者至最新的資訊。

當然,並非所有內容都需要頻繁更新。Google 工程師在節目中特別提醒,在文章中標示「最後更新日期」是一把雙面刃。如果只是修正了錯別字或連結,反而可能讓讀者誤以為文章有了重大變動。濫用關鍵字置入年份,更是一種自欺欺人的危險做法。

對於活動網站和案例研究,保存時限也是一個值得斟酌的問題。Google 的建議是,活動網站可在兩年後歸檔,以兼顧參考價值和管理工作量。而案例研究則須視其討論的功能是否被淘汰,再決定是否繼續保留。

最後, Google 團隊分享了他們的祕訣︰建立內容定期審視機制。透過自動化提醒,工程師們能夠定期檢視既有內容,評估更新或汰換的需求。這不僅能確保內容品質,更能優化網站的整體使用者體驗。

面對內容衰退,網站管理者不必過度恐慌,但也不能掉以輕心。關鍵是要透過縝密的分析,判斷內容的真正價值所在。有時,適度更新能讓內容重新煥發生命力;但有時,保留「過時」的內容,反而更能彰顯其歷史意義。

站在使用者的角度思考,建立長期的內容品質維護策略,才是應對內容衰退的不二法門。畢竟,內容價值的評判標準,終究取決於它能否滿足使用者的需求,為他們創造真正的價值。

全新學習方式:「Learn Anything」—你的個人化學習夥伴

Learn Anything GPT

面對現代學習的新需求

在當今知識爆炸的時代,不論是學生、職場人士還是終身學習者,每個人都面臨著不斷更新的學習需求和資訊過載的挑戰。傳統的學習方法已經難以滿足個人化和高效率的需求,學習者需要一種更靈活、更高效的學習方式來應對快速變化的世界。

在這樣的背景下, Leggie 團隊開發的「Learn Anything」GPT 應運而生。這是一個 GPT 學習工具,旨在提供完全個性化的學習體驗,以幫助用戶更有效地掌握知識和技能。

「Learn Anything」GPT 的核心功能

「Learn Anything」GPT 利用先進的生成預訓練變換器(GPT)技術,專為個體學習需求設計。透過自然語言處理能力,它可以理解和回應用戶的查詢與需求,從而創建一個互動且吸引人的學習環境。不論是視覺學習者還是偏好透過實踐學習的人,「Learn Anything」都能提供適合的學習方式。

這個工具的一大亮點是它的個性化課程設計。根據用戶的學習風格、知識水平和學習目標,「Learn Anything」能夠生成專門的學習計劃和材料,包括課程、互動練習和挑戰,所有這些都是實時更新和調整以符合用戶進展和反饋。

個性化學習體驗:從評估到設計

在開始使用「Learn Anything」的過程中,首先進行的是一個全面的初始評估。這包括識別你的學習風格,如視覺、聽覺或動手操作,以及通過問題來評估你當前的知識水平。這些資訊將用來設計一個完全個人化的學習計劃。

這個設計過程考慮到了學習的連續性和循序漸進的原則,意味著課程將根據學習者的進度逐步展開,每個階段都會有相應的學習材料和練習,這樣可以確保學習者在達到一定的掌握程度前不會進入下一階段。

互動式教學:讓學習更加生動有趣

「Learn Anything」不僅僅是一個靜態的學習平台,它內置的互動式教學功能使得學習過程變得更加生動和引人入勝。透過問答模式,用戶可以像與真人對話一樣與 GPT 交流,這種方式不僅可以增加學習的趣味性,還可以加深理解和記憶。

這種互動式教學不僅限於學術知識,也適用於實務技能的學習,如程式編碼、語言學習等,「Learn Anything」提供的實時反饋和修正建議能夠立即指出用戶在實踐中的不足,從而幫助他們在最短的時間內改進。

加入全新學習革命

隨著人工智能技術的不斷進步,「Learn Anything」正引領一場學習方式的革命。這不僅是一種新的學習工具,更是一種讓學習變得更加個性化、高效和有趣的方式。無論是學生、職業人士還是終身學習者,「Learn Anything」都能為你提供支持,幫助你在快速變化的世界中保持知識和技能的更新。

現在,歡迎體驗「Learn Anything」帶來的全新學習方式,讓我們一起開啟這段旅程,探索知識的無限可能,並在這個過程中發現和實現自己的潛力。

立即訪問「Learn Anything」,開始個人化學習之旅。透過「Learn Anything」,你不只是學到知識,更是學會如何學習,這是一項終身受益的技能。

附錄

使用小秘訣

受限於 GPT-4 的天然限制,雖然「Learn Anything」在每次對話中都會盡力保持上下文的連貫性,以便為用戶提供流暢的學習體驗。然而,它的設計不允許在不同會話之間保存或記住特定的對話細節。每次對話結束時,之前的對話記憶會被重置。

為了維持學習進度,你可以在每次對話時告訴「Learn Anything」上次學習的終點,或者任何需要特別關注的細節。這樣,它就可以從你提供的最後一點重新開始,確保學習的連續性。

如果你有在進行的筆記或文件,更新這些文件也是一種很好的方式來追踪你的學習進度。這會對你的長期學習計劃大有裨益。若你需要,也可以請「Learn Anything」幫助你設計一個簡單的學習進度表或記錄表。記住,在學習的過程中,只要有任何需要「Learn Anything」幫助你的地方,先停下來,告訴它你的需求,讓它根據你的需求進行必要的修正,這會讓你的學習之旅更為順利。