Leggie - AI and SEO trends, exploring the digital world

Google 推出 Gemini Pro 1.5 ：支援 1M token 上下文長度的高效能多模式模型

文章作者作者：Leggie
發表日期 2024 年 2 月 16 日
分類分類於 AI, Gemini

Google 於2024年2月16日宣布推出 Gemini Pro 1.5，這是 Gemini 系列的最新版本。Gemini Pro 1.5 是一種高效能多模式模型，支援 1M token 的上下文長度（筆者更正：原始的數據為10M token，但根據Google後續的官方新聞稿，Google 1.5標準版可支援12.8萬個token，付費版可支援1M個token)。這項突破性技術將為自然語言處理 (NLP) 領域帶來重大變革。

更長的上下文長度、更快的推理速度、多模式數據處理

Gemini Pro 1.5 的主要特性包括：

支援 1M token 的上下文長度，可處理更長的文本序列。這意味著模型可以更好地理解文本的上下文，從而提高準確性。
採用高效能的 Transformer 架構，可更快地進行推理。這使得模型能夠在更短的時間內完成任務，從而提高效率。
可同時處理多種模式的數據，例如文本、影像和音訊。這使得模型能夠從多種角度理解信息，從而提高準確性和可靠性。

廣泛的應用範圍

Gemini Pro 1.5 可應用於各種 NLP 任務，例如：

機器翻譯：Gemini Pro 1.5 可以更準確地翻譯文本，並且能夠保留文本的風格和語氣。
文本摘要：Gemini Pro 1.5 可以生成更準確和更完整的文本摘要。
問答系統：Gemini Pro 1.5 可以更準確地回答用戶的疑問。
自然語言生成：Gemini Pro 1.5 可以生成更具創意和更符合用戶需求的文本內容。

NLP 領域的重大突破

Gemini Pro 1.5 的推出將為 NLP 領域帶來以下益處：

提高模型的準確性：Gemini Pro 1.5 可以更好地理解文本的上下文，從而提高準確性。
擴展模型的應用範圍：Gemini Pro 1.5 可應用於各種 NLP 任務，從而擴展模型的應用範圍。
降低模型的開發成本：Gemini Pro 1.5 採用高效能的 Transformer 架構，從而降低模型的開發成本。

(本報導由 Gemini Advanced 所創作)

進一步閱讀

Gemini Prompt 入門指南

OpenAI 推出 Sora 文字轉視頻模型：可以製作長達60秒的高品質視頻

文章作者作者：Leggie
發表日期 2024 年 2 月 16 日
分類分類於 AI, ChatGPT, 生成式AI

2024年2月16日，OpenAI 再次引領科技潮流，推出了名為 Sora 的文字轉視頻模型。這項創新技術不僅能夠將文字指令轉化為高達一分鐘的視頻，而且在視覺品質和對用戶提示的遵從性方面都保持了高水準。

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

影片來源： OpenAI X

This video from OpenAI's new video model is the first time I've seen an AI produced video and almost couldn't tell it apart from a real one. pic.twitter.com/QcAOu8EyfF
— Garrett Scott 🕳 (@thegarrettscott) February 15, 2024

影片來源：Garrett Scott X

Sora 的推出，標誌著人工智能對現實世界的理解和模擬能力邁出了重要的一步。這不僅是實現通用人工智能（AGI）的重要里程碑，也為解決需要真實世界互動的問題提供了新的可能性。Sora 能夠生成包含多個角色、特定類型動作和背景細節的複雜場景，這對於視覺藝術家、設計師和電影製作人來說，無疑是一項革命性的工具。

目前，Sora 已向「紅隊」成員開放，以評估模型可能帶來的危害或風險。OpenAI 也向一些視覺藝術家、設計師和電影製作人提供了訪問權限，以獲得如何使模型對創意專業人士更有幫助的反饋。OpenAI 早期分享研究進展，目的是開始與外界合作並獲得反饋，同時讓公眾對即將到來的人工智能能力有所了解。

Sora 的視頻生成能力不僅限於特定風格（如照片寫實、動畫、黑白等），還能在保持合理連貫性的同時，生成長達一分鐘的視頻。這些視頻在物理上的動作方向上不會總是顯得不合理，這是其他文字轉視頻技術所無法比擬的。

然而，Sora 並非完美無缺。它可能在模擬複雜場景的物理特性時遇到困難，並且可能無法理解特定的因果關係。例如，人物可能咬了一口餅乾，但之後餅乾可能不會出現咬痕。模型也可能混淆提示中的空間細節，例如左右混淆，並且可能在隨時間發生的事件的精確描述上遇到困難，比如遵循特定的攝影機軌跡。

OpenAI 明確表示，Sora 目前仍處於研究預覽階段，並未透露用於訓練模型的數據細節（除了約10,000小時的「高品質」視頻），也沒有將 Sora 普遍開放。其理由是潛在的濫用風險；OpenAI 正確指出，像 Sora 這樣的模型可能被不法分子以多種方式濫用。

OpenAI 表示，它正在與專家合作探索模型的漏洞，並正在開發工具來檢測視頻是否由 Sora 生成。該公司還表示，如果選擇將模型構建成面向公眾的產品，它將確保在生成的輸出中包含來源元數據。

OpenAI 寫道：「我們將與全球的政策制定者、教育工作者和藝術家進行接觸，以了解他們的擔憂，並識別這項新技術的積極用例。」「儘管進行了廣泛的研究和測試，我們無法預測人們將如何利用我們的技術，也無法預測人們將如何濫用它。這就是為什麼我們相信，從現實世界的使用中學習是隨著時間創建和發布越來越安全的人工智慧系統的關鍵組成部分。」

OpenAI 推出 ChatGPT 新功能：記憶與你的對話內容

文章作者作者：Leggie
發表日期 2024 年 2 月 14 日
分類分類於 AI, ChatGPT

隨著語音助手和聊天機器人的興起，記住上下文和用戶偏好變得越來越重要。2024年2月14日， OpenAI 為其流行的語言模型 ChatGPT 推出了全新功能，允許其記住與用戶之前的對話。這項功能將大大提高 ChatGPT 的個性化和上下文意識。

We’re testing ChatGPT's ability to remember things you discuss to make future chats more helpful.

This feature is being rolled out to a small portion of Free and Plus users, and it's easy to turn on or off. https://t.co/1Tv355oa7V pic.twitter.com/BsFinBSTbs
— OpenAI (@OpenAI) February 13, 2024

影片來源：OpenAI X

ChatGPT 新功能介紹

這項新功能允許 ChatGPT 記住它在對話期間學到的資訊。例如，如果你告訴 ChatGPT 你喜歡的食物或你最喜歡的書，它將記住這些偏好，並在未來的對話中參考，這可以使對話更加個性化和相關。對於企業和團隊用戶，這也意味著 ChatGPT 可以學習他們的風格和偏好，並相應地調整其回覆。此外，記憶功能還允許 ChatGPT 跟踪對話的上下文和進度。例如，如果你詢問一個複雜的問題，它可以在之後的對話中回顧和參考以前的資訊。這將大大提高長期任務和對話的效率。

用戶控制與隱私

用戶可以選擇啟用或禁用記憶功能。此外，用戶可以選擇 ChatGPT 忘記特定資訊，或完全重置其記憶。OpenAI 還實施了嚴格的隱私保護措施，以確保用戶數據的安全性。用戶提供的任何敏感內容都將受到保護，不會用於改進模型。

記憶功能的實際應用

ChatGPT 的記憶功能在很多場景下都大有用處。例如，它可以用於提供更加個性化的書籍或電影推薦，或者在教育領域，記住學生的學習進度和偏好。記憶功能也可以應用於規劃多日旅行行程。整體而言，這項功能將使 ChatGPT 的對話更加主動和個性化。

安全性與敏感資料處理

OpenAI 採取了嚴格的措施來確保記憶功能不會記住或泄露敏感資訊，例如醫療或金融記錄。此外，用戶可以隨時選擇重置 ChatGPT 的記憶。OpenAI 還允許用戶查詢 ChatGPT 已經學到的有關其個人的資訊。用戶可以選擇刪除這些記錄，有效地使 ChatGPT “忘記”特定資訊。這給予了用戶更多的控制權和透明度。

臨時聊天模式

除了完整的記憶功能外，OpenAI 還推出了臨時聊天模式。在這種模式下， ChatGPT 將進行對話但不記住任何內容。這相當於一種“隱私模式”，用於用戶不希望留下記錄的敏感對話。

記憶功能的測試與未來展望

OpenAI 稱記憶功能目前處於測試階段，預計在未來幾個月內面向更多用戶推出。隨著時間的推移，這項功能有望使 ChatGPT 的對話更加流暢和智能。最終，個性化的聊天機器人有望成為我們日常生活的一部分。

結語

OpenAI 推出的 ChatGPT 記憶功能標誌著語言模型的一大進步，將使其對話更加主動和個性化。這項功能仍在測試中，但未來用戶可以期待與 ChatGPT 之間更加流暢和有意義的長期對話。與此同時，OpenAI 也重視用戶隱私，允許用戶控制記憶功能和查詢已學習的資訊，這是語音助手領域的一大飛躍。

AI 藝術版權戰最新進展：Stability 和 Midjourney 如何在法庭上反擊藝術家的指控

文章作者作者：Leggie
發表日期 2024 年 2 月 13 日
分類分類於 AI, Midjourney, 生成式AI

AI 藝術版權戰持續升溫，Stability AI 、Midjourney 等公司近日在法庭上對藝術家的集體訴訟進行了強力反擊。這起源於美國視覺藝術家指控 AI 公司未經授權使用其作品訓練 AI 圖像生成模型的訴訟，隨著法院的初步裁決和 AI 公司的辯護策略，正朝著複雜的方向發展。

事情起源於2022年，藝術家 Kelly McKernan 、Karla Ortiz 和 Sarah Andersen 等人指控 AI 新創公司 Stability AI 、 Midjourney 、DeviantArt 以及 Runway ML 等公司，在未經授權的情況下使用包含他們作品的圖像數據集來訓練 AI 圖像生成模型，從而能夠生成新的高度相似的圖像，這侵犯了他們的版權。這些藝術家試圖通過法律途徑來制止這種行為並追究相關公司的法律責任。

最新的進展中，Midjourney 的訓練資料遭到曝光，其中包含超過16000筆未經授權的藝術家名單，這一事件無疑為這場訴訟增添了新的火藥味。這一發現不僅加深了公眾對 AI 藝術生成器合法性的疑慮，也為藝術家們的訴訟增添了新的論據。

然而，法院的初步裁決並不完全站在藝術家一邊。2022年10月底，加州北區聯邦地區法院法官 William H. Orrick 駁回了藝術家提出的大部分原始侵權主張。 Orrick 法官認為，藝術家並未在許多情況下真正尋求或獲得美國版權局的正式版權登記，這使得他們在法律上證明自己作品的獨特性和原創性非常困難。

儘管遭遇法院的初步打擊，藝術家群體並未放棄訴訟。2022年11月底，他們重新提交了經過修訂的訴狀，加入了更多原告，並提出了進一步的證據材料試圖支持他們的指控。與此同時，AI 公司也沒有坐以待斃，它們提出了大量法律文件和論據，力圖在法庭上取得勝利並完全駁回藝術家的集體訴訟。

AI 公司的主要辯護論點是，它們開發或提供的 AI 模型本身並不等同於任何藝術家作品的完整複製品。這些模型的訓練資料雖然包含了大量藝術圖像，但最終生成的模型更像是一種新的創作工具，能夠根據用戶的文字輸入提示生成全新的圖像。換言之，這些 AI 圖像生成器並不是單純地在機械化地複製或替代人類藝術家的創作過程。

法院對此論點也表示認同。Orrick 法官在他的裁決中指出，這些 AI 模型並不會在沒有用戶明確要求的情況下主動生成侵犯他人版權的內容，所以它們本身並不應該為可能的版權侵權行為負責。這為 AI 公司提供了重要的法律依據。

在法庭文件中，DeviantArt 也明確表態，認為它被列為被告完全是沒有道理的。 DeviantArt 所提供的只是一個開源的 AI 圖像生成工具 Stable Diffusion 的網絡接口，而該工具的開發者是 Stability AI 。 DeviantArt 主張，僅僅提供第三方開發的工具介面不應成為它被起訴的理由。

Runway ML 也在法庭上提出了自己的辯解。其表示在平台上運行的 AI 模型都是基於用戶提供的資料進行訓練的，並不涉及到未經授權使用藝術家作品的情形。 Runway ML 也強調，它並未在自己的服務器上存儲那些可能侵權的訓練用圖像資料。

在眾多被告中，Stability AI 面臨的法律壓力可能最大。該公司是 Stable Diffusion 等開源圖像生成模型背後的開發團隊，如果被證明其訓練資料中確實大量包含未經授權的藝術家作品，那麼它將成為藝術家集體訴訟的主要目標。

這場 AI 藝術版權大戰的每個新進展都在引發社會各界的廣泛關注。它直接挑戰了人類對藝術創作和知識產權的傳統理解，同時也對現有的法律體系提出了考驗。人工智能技術在文化創意領域的應用將面臨怎樣的法律和道德規範？人類智慧與算法之間的交互將如何平衡公平和效率？這場看似藝術家與科技公司之間的法庭戰爭，其實也是人性、道德和社會進步之間緊張關係的縮影。

這場針對 AI 藝術生成器的版權大戰，將是一個漫長的過程。法院的裁決很難在短期內出現定論，技術的發展也會給法律制度帶來新的挑戰。但可以確定的是，人類社會將在這場較量中不斷反思、磨合，並最終達成新的共識。這共識將兼容並蓄，代表了人性的智慧。它不會偏袒任何一方，但會努力實現技術進步與人文精神、效率與道德之間的和諧統一。

OpenAI 為 DALL-E3 添加浮水印，以提高數位資訊的可信度

文章作者作者：Leggie
發表日期 2024 年 2 月 9 日
分類分類於 AI, DALL-E

OpenAI 於2024年2月6日宣布，為其 DALL-E3 圖像生成器添加新水印，行動用戶將在2月12日前看到這些水印，這些水印將包含不可見的元數據組件和可見的 CR 符號。此舉旨在提高數位資訊的可信度，並幫助人們識別由 AI 生成圖像。

DALL-E3 是一款強大的圖像生成器，可以根據文字描述生成逼真的圖像。自 2023 年推出以來，它已成為藝術家、設計師和其他創意專業人士的流行工具。

然而，隨著 AI 生成圖像的普及，人們也越來越擔心這些圖像可能被用於欺騙或誤導他人。例如，有人可能會使用 AI 生成圖像來創建虛假新聞文章或冒充他人。

為了解決這個問題，OpenAI 為 DALL-E3 添加了新水印。新水印是一個由 Adobe 和 Microsoft 等公司開發的 Content Credentials 符號。它包含有關圖像來源和創建方式的元數據。例如，水印可能包含以下資訊：

圖像是由 DALL-E3 生成的
圖像的創建日期
圖像的創建者

OpenAI 首席執行官 Sam Altman 表示，新水印將有助於建立對 AI 生成圖像的信任。他說：「我們認為，重要的是要讓人們能夠識別 AI 生成圖像，並了解它們的來源。」

Adobe 和 Microsoft 等公司也表示支持 OpenAI 的舉措。Adobe 數位媒體部門副總裁 Scott Belsky 表示：「Content Credentials 是提高數位資訊可信度的重要工具。我們很高興看到 OpenAI 將其添加到 DALL-E3 中。」

專家表示，OpenAI 的新水印是一項積極的舉措，但它並不能完全解決 AI 生成圖像的信任問題。加州大學柏克萊分校資訊學院教授 danah boyd 表示：「水印是一個很好的第一步，但它並不能保證人們能夠識別 AI 生成圖像。我們需要教育人們了解 AI 生成的圖像，並幫助他們批判性地思考這些圖像。」

儘管存在一些挑戰，但 OpenAI 的新水印是提高數位資訊可信度的重要一步。它將有助於人們更好地了解 AI 生成圖像，並做出更明智的決策。