
2023年12月6日, Meta 公司推出了一款全新的獨立 AI 圖像生成工具,名為「Imagine with Meta」。這款工具允許用戶通過自然語言描述來創建圖像,標誌著Meta在人工智能圖像生成領域的又一次大躍進。這不僅是對 Google 的 Gemini 、 OpenAI 的 DALL-E、Midjourney 以及 Stable Diffusion 等類似工具的直接回應,更展示了 Meta 對於 AI 技術的深厚積累和創新應用。
Imagine with Meta 的基礎技術是 Meta 旗下已有的 Emu 圖像生成模型。該模型能夠根據用戶的文字提示創建高解析度圖像。目前,這項服務對美國用戶免費開放,並且每次提示可生成四幅圖像。(筆者註:圖片輸出固定比例為1:1、1280×1280)
除了技術創新之外, Meta 此次將圖像生成工具的應用範圍從聊天擴展到了網頁平台。 Meta 在官方部落格中提到,雖然他們原有的即時通訊體驗是為了更加玩味和互動設計的,但現在用戶也可以在網頁上免費創建圖像。這一轉變不僅豐富了 Meta 的產品線,也使得 AI 圖像生成更加易於普及和應用。
然而, Meta 過去在圖像生成領域的一些嘗試曾經引發了爭議,例如曾經推出的具有種族偏見的 AI 貼紙生成器。因此,對於 Imagine with Meta 是否設有足夠的安全機制以防止歷史重演,社會各界都保持著高度的關注。為了提高透明度和可追溯性, Meta 承諾在未來幾週內為 Imagine with Meta 生成的內容添加水印,儘管一些水印已經可見。這些無形水印將由 AI 模型生成,並能通過相應的模型檢測出來。 Meta 並未透露檢測模型是否會公開。
這種水印技術對於抵抗常見的圖像處理操作,如裁剪、調整大小、顏色變化(亮度、對比度等)、截屏、圖像壓縮、噪音、貼紙覆蓋等都具有很強的抗性。 Meta 在部落格中表示,他們計劃將這種無形水印技術未來應用於多個擁有 AI 生成圖像的產品中。
此外,隨著 AI 生成藝術的普及,各大科技公司面臨著越來越大的壓力,需要明確標示作品是由 AI 生成的。例如,法國初創公司 Imatag 提供的水印工具聲稱可以抵抗圖像的重置、裁剪、編輯或壓縮。另一家公司 Steg.AI 則運用 AI 模型應用水印,這些水印能夠在經過重置和其他編輯後依然存在。微軟和 Google 已經採用了基於 AI 的水印標準和技術,而在其他地方, Shutterstock 和 Midjourney 同意了嵌入標記的指南,表明其內容是由生成性 AI 工具創建的。
最近,中國的網絡空間管理局發布了規定,要求生成性 AI 供應商標記生成內容,包括文本和圖像生成器,而不影響用戶使用。此外,在最近的美國參議院委員會聽證會上,參議員 Kyrsten Sinema 強調了在生成性 AI 中使用水印以提高透明度的必要性。
總結來看,Meta 的 Imagine 工具在 AI 圖像生成領域具有重要意義,不僅展示了 Meta 在技術創新方面的雄心,也體現了對安全和道德問題的深刻關注。未來,隨著這一工具的進一步更新和完善,其在 AI 藝術和創意領域的應用前景值得期待。
比較實測
為了了解 Meta 這款 AI 圖像生成工具是否已達到可以應付我們日常圖像的成像品質需求,筆者使用相同的 Prompt 透過 Imagine 產生圖像與其他主流圖像生成工具 DALL-E 3 、Bing 影像建立工具、 Midjourney 5.2 、 Stable Diffusion XL 0.9 比較,並分別使用超現實圖像、一般人像、圖像含文字分別產出圖像,取其中品質最好的一張來作為比較參考,各位讀者可以看看其中的效果差異。目前大多數 Imagine 生成的圖都已經出現水印,所以想使用 Imagine 在工作上的朋友需要特別注意。Bing 影像建立工具雖然也會產生水印,但是因為是數位水印,實際使用時是看不到的。
整體測試的結果 Imagine 的成像品質仍然距離其他競爭者有一段差距,後續等到 Meta 正式推向全球後各位讀者可以再做觀察。
超現實圖像
Prompt: galaxy sky, big tree, dramatic atmosphere, flying island, waterfall.
DALL-E 3

Bing

Midjourney 5.2

Stable Diffusion XL 0.9

Imagine

一般人像
Prompt: Hyper-realistic photography, a Japanese girl sits on a chair in a hotel room, dressed in a dress with thin shoulder straps, big eyes, good face, perfect body, fair natural skin, cinematic shot, shoulder level shot.
DALL-E 3

Bing

Bing 的內容審核政策會擋細肩帶跟身材相關的字,故稍加調整 prompt
Midjourney 5.2

Midjourney 預設會把 girl 這個單字描繪成6-12歲左右的小女生,故稍加調整 prompt
Stable Diffusion XL 0.9

Imagine

圖像含文字
Prompt: A classic [Coca Cola] advertising board with the words [Coca Cola] on it, standing in front of a busy department store street.
DALL-E 3

DALL-E 3 的內容審核政策會阻擋跟品牌有關的內容,識了幾次它只讓我出現在一個小角落
Bing

Bing 的內容審核政策不允許我們輸出跟品牌有關的內容,直接改成別的文字
Midjourney 5.2

Stable Diffusion XL 0.9

Imagine
