OpenAI 推出 Sora 文字轉視頻模型：可以製作長達60秒的高品質視頻

2024年2月16日，OpenAI 再次引領科技潮流，推出了名為 Sora 的文字轉視頻模型。這項創新技術不僅能夠將文字指令轉化為高達一分鐘的視頻，而且在視覺品質和對用戶提示的遵從性方面都保持了高水準。

Introducing Sora, our text-to-video model.

Sora can create videos of up to 60 seconds featuring highly detailed scenes, complex camera motion, and multiple characters with vibrant emotions. https://t.co/7j2JN27M3W

Prompt: “Beautiful, snowy… pic.twitter.com/ruTEWn87vf
— OpenAI (@OpenAI) February 15, 2024

影片來源： OpenAI X

This video from OpenAI's new video model is the first time I've seen an AI produced video and almost couldn't tell it apart from a real one. pic.twitter.com/QcAOu8EyfF
— Garrett Scott 🕳 (@thegarrettscott) February 15, 2024

影片來源：Garrett Scott X

Sora 的推出，標誌著人工智能對現實世界的理解和模擬能力邁出了重要的一步。這不僅是實現通用人工智能（AGI）的重要里程碑，也為解決需要真實世界互動的問題提供了新的可能性。Sora 能夠生成包含多個角色、特定類型動作和背景細節的複雜場景，這對於視覺藝術家、設計師和電影製作人來說，無疑是一項革命性的工具。

目前，Sora 已向「紅隊」成員開放，以評估模型可能帶來的危害或風險。OpenAI 也向一些視覺藝術家、設計師和電影製作人提供了訪問權限，以獲得如何使模型對創意專業人士更有幫助的反饋。OpenAI 早期分享研究進展，目的是開始與外界合作並獲得反饋，同時讓公眾對即將到來的人工智能能力有所了解。

Sora 的視頻生成能力不僅限於特定風格（如照片寫實、動畫、黑白等），還能在保持合理連貫性的同時，生成長達一分鐘的視頻。這些視頻在物理上的動作方向上不會總是顯得不合理，這是其他文字轉視頻技術所無法比擬的。

然而，Sora 並非完美無缺。它可能在模擬複雜場景的物理特性時遇到困難，並且可能無法理解特定的因果關係。例如，人物可能咬了一口餅乾，但之後餅乾可能不會出現咬痕。模型也可能混淆提示中的空間細節，例如左右混淆，並且可能在隨時間發生的事件的精確描述上遇到困難，比如遵循特定的攝影機軌跡。

OpenAI 明確表示，Sora 目前仍處於研究預覽階段，並未透露用於訓練模型的數據細節（除了約10,000小時的「高品質」視頻），也沒有將 Sora 普遍開放。其理由是潛在的濫用風險；OpenAI 正確指出，像 Sora 這樣的模型可能被不法分子以多種方式濫用。

OpenAI 表示，它正在與專家合作探索模型的漏洞，並正在開發工具來檢測視頻是否由 Sora 生成。該公司還表示，如果選擇將模型構建成面向公眾的產品，它將確保在生成的輸出中包含來源元數據。

OpenAI 寫道：「我們將與全球的政策制定者、教育工作者和藝術家進行接觸，以了解他們的擔憂，並識別這項新技術的積極用例。」「儘管進行了廣泛的研究和測試，我們無法預測人們將如何利用我們的技術，也無法預測人們將如何濫用它。這就是為什麼我們相信，從現實世界的使用中學習是隨著時間創建和發布越來越安全的人工智慧系統的關鍵組成部分。」