Leggie - AI and SEO trends, exploring the digital world

OpenAI 推出 Canvas 功能，為 ChatGPT 帶來重大界面更新

文章作者作者：Leggie
發表日期 2024 年 10 月 4 日
分類分類於 AI, ChatGPT

OpenAI 於2024年10月4日宣布推出名為「 Canvas 」的新功能，這是 ChatGPT 自 2022 年推出以來首次重大界面更新。這項功能旨在改善用戶在寫作和編碼項目上的體驗，標誌著 AI 輔助工具向更具協作性和互動性方向發展的重要一步。

We’re rolling out an early version of canvas—a new way to work with ChatGPT on writing & coding projects that go beyond simple chat.

Starting today, Plus & Team users can try it by selecting “GPT-4o with canvas” in the model picker. https://t.co/GoGZiRzCsB
— OpenAI (@OpenAI) October 3, 2024

Canvas 功能在單獨的窗口中打開，允許用戶與 ChatGPT 並肩協作完成項目，而不僅僅是通過對話方式進行交互。這種新的工作方式使用戶能夠更有效地進行編輯和修訂，這在傳統的聊天界面中往往較為困難。

OpenAI 產品經理 Daniel Levine 在演示中表示：「這是一個與 ChatGPT 協作的更自然的界面。」

Canvas 的主要特點包括：

寫作輔助：用戶可以生成文本，然後使用滑塊調整長度，突出顯示特定句子進行修改，甚至可以要求 ChatGPT 用另一種語言重寫整個文本。
編碼支持：對於編碼項目， Canvas 提供了添加註釋、解釋代碼、進行代碼審查等功能。
智能觸發： ChatGPT 經過訓練，能夠識別何時啟動 Canvas ，例如對於「寫一篇關於咖啡豆歷史的博客文章」這樣的提示。
版本控制：用戶可以使用後退按鈕恢復先前的工作版本。

OpenAI 的這一舉措被視為對競爭對手如 Anthropic 的 Artifacts 功能的回應。然而一些人認為 Canvas 雖然在可用性方面有所改進，但在創新性方面可能略顯不足。

Canvas 目前處於測試階段，已向 ChatGPT Plus 和 Teams 用戶推出。 Enterprise 和 Edu 用戶將於下週獲得訪問權限。 OpenAI 計劃在 Canvas 退出測試階段後向所有免費用戶開放此功能。

隨著 OpenAI 最近獲得 66 億美元的融資，並計劃到 2025 年將收入提高到 110 億美元，像 Canvas 這樣的功能增強可能在實現公司雄心勃勃的財務目標中發揮關鍵作用。

OpenAI 表示， Canvas 目前處於早期測試階段，公司計劃迅速改進其功能。隨著 AI 輔助工具的持續發展，業界期待看到更多突破性的創新，特別是在人工智能輔助協作方面。

Pika 1.5 推出：AI 視頻生成的新里程碑

文章作者作者：Leggie
發表日期 2024 年 10 月 3 日
分類分類於 AI, 生成式AI

Pika Labs 於2024年10月1日推出其最新版本的 AI 視頻生成模型 Pika 1.5，為創作者和企業帶來了突破性的特效和功能。這家估值 4.7 億美元的新創公司再次展現了其在 AI 視頻領域的領先地位。

令人驚嘆的「Pikaffects」

Pika 1.5 的最大亮點是其稱為「Pikaffects」的新特效功能。這些特效能夠將任何物體或人物進行壓扁、膨脹、融化或爆炸等超現實變形，為創作者提供了前所未有的創意可能性。

Sry, we forgot our password.
PIKA 1.5 IS HERE.

With more realistic movement, big screen shots, and mind-blowing Pikaffects that break the laws of physics, there’s more to love about Pika than ever before.

Try it. pic.twitter.com/lOEVZIRygx
— Pika (@pika_labs) October 1, 2024

「這些新功能將徹底改變 meme 創作和視頻特效製作，」一位業內分析師表示。「Pika 正在將專業級的視頻效果民主化。」

電影級鏡頭和更長的剪輯

除了特效之外，Pika 1.5 還引入了多種電影級鏡頭選項，如子彈時間、眩暈效果和平移鏡頭等。此外，新版本還支持生成更長時間的視頻內容，為創作者提供了更大的創作空間。

市場反應和競爭格局

自推出以來，Pika 1.5 在社群媒體上引發了廣泛討論，許多用戶稱讚其「史詩級的工作」。這一升級使 Pika 在與 OpenAI 的 Sora 等競爭對手的較量中重新佔據了有利地位。

Pika Labs 的 CEO Demi Guo 表示：「我們的目標是讓任何人都能輕鬆創作出高質量、富有創意的視頻內容。Pika 1.5 正是朝著這個方向邁出的重要一步。」

結語

Pika 1.5 的推出將對多個行業產生深遠影響。小型企業可能會利用這一工具製作高質量的廣告，而教育工作者則可能用它來創作更具吸引力的教學內容。

隨著視頻內容在網絡流量中的佔比持續上升，AI 在視頻生成領域的應用可能會像在文本生成領域一樣具有變革性。

Pika 1.5 現已向付費和免費用戶開放使用。有興趣的用戶可以通過 https://pika.art/login 訪問並體驗這一突破性的 AI 視頻生成工具。

實際測試

原圖

充氣( Inflate )

融化( Melt )

引爆( Explode )

壓扁( Squish )

粉碎( Crush )

進一步閱讀

讓 ChatGPT 更高效的隱藏快速指令

文章作者作者：Leggie
發表日期 2024 年 10 月 2 日
分類分類於 AI, ChatGPT

大多數人可能都不知道， OpenAI 上線 o1 模型之後，隨即推出了3個隱藏快速指令：圖像、搜尋、推理。善用這3個快速指令，可以有效加速使用者平時工作流程，大幅提昇生產力。只要在命令行輸入”/”即可調用這3個指令，如下圖：

搜尋

在以往的時候，我們在使用 ChatGPT 來進行資訊搜尋，常常需要耗費不少力氣去輸入諸如“搜尋某某內容”這樣的指令。然而到了現在僅僅只需要輸入一個極為簡單的“/Search”命令(不分大小寫)， ChatGPT 便能够為我們把所有的事情都處理妥當。不但如此，即便是在你沒有一個明確的搜尋主題的情况下，它也能够憑藉其智慧識別上下文的能力，主動地為你選取出最為相關的資訊。不管是去查找新聞方面的內容，還是去搜尋學術資料，亦或是想要瞭解某個最新的科技動向，這一强大的功能都能够在極大程度上提升工作效率。

圖像

DALL-E 3無疑已經成為了業界的重要標杆。其在影像生成方面展現出了卓越的能力和創造力。如今，ChatGPT也將這一强大的繪畫能力納入其中。過去當人們想要生成影像時，往往需要輸入極為詳細的描述詞句，花費大量的時間和精力去構思和組織語言，以期望能够得到符合自己想像的影像結果。現在僅僅通過一個簡單的“/Picture”指令，就能够充分調動 AI 的創意，為使用者繪製出令人驚豔的影像。無論是簡潔明瞭的場景描述，比如“美麗的海邊日落”，還是極其複雜的創意概念，例如“未來都市中融合了古老神話元素的奇幻場景”， ChatGPT 都能够憑藉其强大的智慧和創造力，為使用者帶來獨一無二的視覺作品，滿足使用者對於不同類型影像的需求。

OpenAI 近期發佈的 o1 推理模型引發了極為廣泛的關注。如今使用者可以通過“/Reason”指令直接對這一極為强大的推理引擎進行調用。不管是那些需要進行深度分析的極具挑戰性的邏輯問題，還是複雜程度頗高的數學推算， o1 模型都能够為人們提供極為精准且十分詳細的解答。這一模型的作用可絕不僅僅是單純地回答問題那麼簡單，它更像是為使用者配備了一個專屬的私人智囊團，能够切實地為人們提供科學合理的決策支援，協助我們在面對各種複雜情况時做出更為明智的選擇。

Google Gemini 多模態提示詞指南

文章作者作者：Leggie
發表日期 2024 年 9 月 28 日
分類分類於 AI, Gemini

在人工智能快速發展的今天，Google 推出的 Gemini 模型無疑是一個重大突破。這個多模態 AI 系統不僅能理解文字，還能解讀圖像和視頻，為我們開啟了一個全新的人機互動時代。然而，要充分發揮 Gemini 的潛力，掌握正確的提示詞技巧至關重要。

Gemini：跨越感知鴻溝的 AI 先鋒

Gemini 的多模態能力使其成為 AI 領域的佼佼者。目前支持多模態提示的 Gemini 版本包括：

Gemini 1.5 Flash
Gemini 1.5 Pro
Gemini 1.0 Pro Vision

這些模型能夠同時處理文本、圖像和視頻輸入，為用戶提供更全面、更智能的互動體驗。

提示詞設計的黃金法則

要有效利用 Gemini 的多模態能力，以下幾點原則尤為重要：

明確具體的指令：提供清晰、簡潔的指示，避免模糊不清的表述。
示例引導：通過具體的少樣本示例，幫助模型理解您的目標。
任務分解：將複雜任務拆分為多個易於管理的子目標。
指定輸出格式：明確要求模型以特定格式（如 Markdown、JSON、HTML）輸出結果。
圖像優先：對於單張圖片的提示，將圖像放在文本之前通常效果更佳。

排查問題的智慧之道

在使用過程中，如果遇到模型輸出不如預期的情況，可以嘗試以下策略：

引導關注：明確指出您希望模型關注圖像的哪些方面。
描述再推理：要求模型先描述圖像，然後再執行任務。
步驟分解：對於複雜任務，引導模型逐步思考。
參數調優：嘗試調整溫度、Top-P 和 Top-K 等參數，以獲得最佳結果。

案例分析：提升 Gemini 輸出質量

讓我們通過一些具體例子來說明如何優化提示詞：

案例 1：解析機場資訊面板

初始提示：「描述此圖片。」
改進提示：「將下圖中顯示的機場面板中的時間和城市解析為列表。」

這個改進明確指出了我們想要的資訊，有助於模型生成更精確的回答。

案例 2：識別地標

初始提示：「確定城市以及地標。」
改進提示：

確定城市以及地標。
城市：羅馬，地標：鬥獸場
城市：北京，地標：紫禁城
城市：里約熱內盧，地標：基督救世主像

通過提供示例，我們幫助模型理解了所需的輸出格式。

案例 3：數學問題解析

初始提示：「序列中的第 4 項是什麼？」
改進提示：「序列中的第 4 項是什麼？請分步思考。」

這種改進鼓勵模型展示其推理過程，有助於我們理解和驗證結果。

輸出格式：精準控制 Gemini 的回答

在某些情況下，我們需要 Gemini 以特定格式輸出結果。例如：

Markdown 表格

提示：「將此圖片中的表格解析為 Markdown 格式」

JSON 輸出

提示：「請提供以下所有屬性的列表：配料、菜系類型、是否為素菜，採用 JSON 格式」

通過明確指定輸出格式，我們可以獲得結構化的數據，便於後續處理和分析。

深入理解：Gemini 的思考過程

有時，了解 Gemini 的推理過程可以幫助我們優化提示詞。例如，當詢問「這些圖片有什麼共同之處？」時，我們可以要求模型先描述每張圖片，然後再進行比較分析。

改進提示：「首先，詳細描述每張圖片中的內容。這些圖片有什麼共同之處？」

這種方法不僅能得到更全面的分析，還能幫助我們了解模型的觀察和推理過程。

參數調優：釋放 Gemini 的潛力

Gemini 的輸出質量不僅取決於提示詞，還與採樣參數密切相關。以下是幾個關鍵參數(透過 API 或 Vertex AI Studio 的聊天面板進行相關設定)：

溫度：控制詞元選擇的隨機性。較低的溫度（如 0.4）適合需要確定性答案的場景，較高的溫度則可能產生更具創意的結果。
Top-K：限制模型在每個步驟中考慮的最高概率詞元數量。默認值為 32，較低的值會產生更確定的回答，較高的值則增加多樣性。
Top-P：控制累積概率閾值。默認值為 1.0，降低這個值可以得到更保守的回答，提高則增加創意性。

通過調整這些參數，開發者可以根據具體需求優化 Gemini 的輸出。

結語

Google Gemini 的多模態能力為 AI 應用開闢了新的前景。通過掌握高效的提示詞技巧，我們可以充分發揮這一強大工具的潛力，實現更智能、更自然的人機交互。無論是在圖像分析、數據處理還是創意生成方面，Gemini 都展現出了令人驚嘆的能力。

隨著技術的不斷進步，Gemini 及類似的多模態 AI 系統將在未來扮演越來越重要的角色。對於開發者和企業來說，及時掌握這些技術並將其整合到產品和服務中，將成為保持競爭力的關鍵。

進一步閱讀

Google 推出 Gemini 1.5 Pro 升級版本，性能提升價格大降

文章作者作者：Leggie
發表日期 2024 年 9 月 26 日
分類分類於 AI, Gemini

Google 2024年9月24日發布了其旗艦 AI 模型 Gemini 的重大升級，推出 Gemini-1.5-Pro-002 和 Gemini-1.5-Flash-002 兩個新版本，在性能和定價方面都有顯著改進。此舉被視為 Google 在與 OpenAI 的激烈競爭中的最新動作。

性能全面提升

根據 Google 的公告，新版 Gemini 模型在多個關鍵指標上都有明顯進步：

在綜合能力測試 MMLU-Pro 中提升約 7%-8%
數學和競賽數學問題的表現提升約 20%
邏輯推理能力提升超過 10%
多模態理解、安全性等方面也有所改善

此外，模型的回應速度提高了 2 倍，延遲降低了 3 倍，這將顯著改善用戶體驗。

價格大幅下調

除了性能提升，Google 還宣布大幅降低 Gemini 1.5 Pro 的使用價格：

對於提示詞少於 128K tokens 的情況，輸入 token 價格降低 64%，輸出 token 價格降低 76%
提示詞超過 128K tokens 時，輸入和輸出 token 價格分別降低 29% 和 53%

這一降價措施使 Gemini 1.5 Pro 的價格低於其主要競爭對手 OpenAI 的 GPT-4。

競爭態勢升溫

Google AI 部門負責人 Jeff Dean 表示：「這次升級體現了我們在 AI 技術和商業模式上的持續創新。我們希望通過提供更強大、更實惠的 AI 模型，幫助開發者和企業更好地利用 AI 技術。」

分析師指出，Google 此次大動作顯示了 AI 巨頭之間競爭的白熱化。Wedbush Securities 分析師 Dan Ives 評論道：「Google 正在全力以赴，試圖縮小與 OpenAI 的差距。這場 AI 軍備競賽才剛剛開始，我們預計未來幾個月還會看到更多重大突破。」

隨著 AI 技術的快速發展，業界普遍認為，誰能在性能和價格之間取得最佳平衡，誰就能在這場 AI 革命中佔據優勢地位。Google 此次升級無疑為這場競爭注入了新的活力。