Midjourney 推出新的「角色參考」測試功能

2024年3月12日,Midjourney 推出新功能“ Character Reference ”(角色參考)的測試,代表著在人工智能圖像生成領域的一大步。這項創新功能類似於既有的“ Style Reference ”(風格參考),但不同之處在於它專注於根據“角色參考”圖像來匹配角色,而非僅僅匹配參考風格。此功能允許用戶透過在提示命令後加上--cref URL並附上角色圖像的 URL 來使用角色參考,從而使生成的角色能更貼近用戶所提供的參考圖像。用戶還可以透過 --cw 命令來調整參考強度,範圍從100到0不等,以此來控制生成圖像的細節程度,從臉部、頭髮到服裝等各方面的匹配度。

此功能主要設計用於使用 Midjourney 生成的角色圖像,並非針對真實人物或照片。它在處理真人圖像時可能會產生扭曲,這與普通圖像提示的處理方式相似。這意味著,雖然 cref 功能與常規圖像提示在操作上相似,但它更專注於角色特徵,而非逐一複製如雀斑、痣或T恤上的標誌等細節。

進階功能方面, Midjourney 支援使用多個 URL 來融合來自多個圖像的資訊或角色,這類似於使用多個圖像或風格提示。在 Web Alpha 版本上,用戶可以拖動或粘貼圖像至想像欄,並通過選擇三個圖標之一來設定圖像是作為圖像提示、風格參考還是角色參考使用。若要將圖像用於多個類別,則可按住 Shift 鍵選擇適用的選項​​​​。

值得注意的是,儘管此功能目前處於 alpha 測試階段,且隨著 Midjourney V6 正式進入 beta 階段,功能可能會有所變化,但 Midjourney 團隊鼓勵用戶分享他們對於此新功能的想法及反饋。這顯示了 Midjourney 對於社群反饋的重視,並期待此功能能夠幫助用戶更加自由地構建故事和世界​​。

Midjourney 的 “ Character Reference ” 功能為 AI 圖像生成領域帶來了新的可能性,尤其是在創建一致性角色和故事講述方面。隨著技術的不斷發展和完善,期待看到更多創新功能的推出,以及它們將如何幫助創作者擴展他們的創意邊界。

官方使用說明

1.在提示後鍵入--cref URL,其中包含指向字元影像的 URL

2.可以使用 --cw 將引用“ strength ”從100修改為0

3.strength 100(--cw 100)是預設值,使用面部、頭髮和衣服

4.强度為0(--cw 0)時,它只會專注於面部(適合換裝/換發等)

5.可以使用多個 URL 來混合多個影像中的資訊/字元,如 --cref URL1 URL2(這類似於多個影像或樣式提示)

實際測試

讓我們先用上一篇文章 Midjourney 最新更新:引入「一致風格」功能,增強藝術生成體驗 的女主角作為例子:

我們使用以下的 Prompt 進行測試

Prompt: 冬季的日本八幡平,一個35歲清新脫俗的日本岩手縣美麗女導遊,她身穿滑雪服裝,在滑雪坡道上拍照。燦爛的陽光從她的背後照射。特寫鏡頭。

In Hachimantai, Japan in winter, a 35-year-old fresh and refined beautiful female tour guide from Iwate Prefecture, Japan, is taking pictures on the ski slopes. The bright sun shines from behind her. Close-up. --ar 16:9 --cref https://s.mj.run/NueRyP4V_No --v 6.0 

參考圖像

預設值 cw=100

由產生的圖像觀察,雖然官方表示處理真人圖像時可能會產生扭曲,但是實際上使用並沒有出現這樣的情形,人物的臉蛋及輪廓、服裝、背景接高度近似原圖。

讓我們繼續調整 cw 看看不同的變化效果:

CW = 70

服裝開始改變,開始露出部份的雪景。

CW = 50

雪景的比例明顯增加,身上穿的衣服也開始調整成雪地的穿著。

CW = 30

太陽的光線更加強烈,已經很明顯地是雪地的背景。

CW = 0

背景及身上的穿著已經完全符合 Prompt ,只保留原女主角的臉部。

融合二張照片

我們用另外一個簡單的 Prompt 融合兩張風格跟 Midjourney 明顯不同,由 Leonardo 所創造出來的圖像測試其融合效果。因為跳脫了 Midjourney 創作的風格框架,這樣會比較符合讀者在現實工作使用時的狀況:

Prompt: 東京年輕女子街拍

Tokyo Young Women's Street Shoot. --ar 9:16 --cref https://s.mj.run/7UIyBjFr-Uk https://s.mj.run/tpdDDGjIAvo --v 6.0
原圖( Leonardo )
輸出( Midjourney )

從輸出看得出確實是融合了我們提供的兩張圖的女主角風格,但是或許是這兩個女主角的臉蛋不太一致,輸出的結果並不是特別美麗。因此我們改以第二張圖像做單張的嘗試。

輸出單張 ( Midjourney )

在筆者嘗試的過程中,當 Midjourney 碰到非它生成的參考圖像時,確實有時會出現身體動作不自然的情形,但狀況不嚴重,多嘗試幾次即可。我們可以看到生成的圖像人物的髮型、眼睛、嘴唇、臉龐的確參考原始圖像的風格,但是也呈現了很明顯的 Midjourney 風格。有些讀者可能不太想要這麼強烈的平台風格,只想要擷取原始圖像的臉蛋,所以讓我們再試試去除 Midjourney 的風格,並使用 cw=0 參數:

以上是筆者實際測試的結果展示,各位讀者可以根據需要,參考筆者的參數呈現做出適合自己工作狀況的圖像。

進一步閱讀
  1. Midjourney 推出模型個人化( Model Personalization )功能
  2. 在 Midjourney 中使用 Triple Triple 技巧創造獨特風格的圖像

Pika 推出 Sound Effects 功能:讓影片呈現如同電影般的聽覺效果

人工智能(AI)技術的快速發展,為影音創作帶來了革命性的變革。繼 AI 影片生成工具 Sora 席捲全球後,Pika 也宣布推出了全新的 Sound Effects 功能,讓使用者能夠輕鬆為影片添加逼真的音效,大幅提升影片的聽覺體驗。

YouTube thumbnailYouTube icon
影片來源: Pika Labs

Pika Sound Effects 功能特色

Pika 的 Sound Effects 功能主要有以下幾個特色:

  1. AI 驅動的音效生成:透過先進的 AI 模型,Pika 可以根據使用者輸入的文字描述,自動生成符合場景的音效,如鳥鳴聲、汽車引擎聲、人群喧嘩聲等。使用者不需要自行錄製或尋找音效素材,省時又方便。
  2. 豐富的音效類型:Pika 提供了多達上千種不同類型的音效,涵蓋自然環境、城市生活、動物叫聲、機械運轉等各種常見場景。不管是需要氛圍營造的環境音,還是具體的動作音效,都能找到合適的選擇。
  3. 靈活的音效控制:使用者可以調整每個音效的音量、淡入淡出、持續時間等參數,讓音效更契合影片節奏。同時支援在時間軸上精確定位音效,與畫面精準同步。
  4. 即時預覽與微調:Sound Effects 功能支援即時預覽,在添加音效的同時就能聽到效果。如果不滿意,也可以隨時進行微調,直到達到理想的聽覺呈現。
  5. 無縫整合 Pika 工作流程:Sound Effects 與 Pika 的影片剪輯功能緊密結合,使用者可以在編輯影片的過程中隨時添加音效,無需另外使用第三方軟體,大大簡化了後期製作流程。

應用場景

Pika Sound Effects 功能適用於多種影片創作場景,例如:

  • Vlog 和旅遊影片:為 Vlog 中不同場景添加合適的環境音效,如機場的廣播聲、海浪聲、街頭音樂等,讓觀眾彷彿身臨其境。
  • 商業宣傳片和廣告:商品展示或品牌故事影片中,可添加產品使用音效或背景音樂,營造氛圍,提升說服力。
  • 遊戲實況和開箱影片:為遊戲實況加入遊戲音效,或為開箱影片配上拆封、組裝的音效,豐富影片的聽覺元素。
  • 教學影片和紀錄片:教學影片中,為不同步驟配上相應的音效,幫助學習者理解。紀錄片則可用音效重現現場氛圍,增強代入感。

總結

Pika Sound Effects 功能的推出,讓影片創作者無需專業的音頻製作技能,也能輕鬆為影片添加高品質的音效,大大提升了影片的聽覺呈現效果。結合 Pika 強大的 AI 影片生成能力,使用者可以更高效、更便捷地創作出類似電影般聲光俱佳的影片作品。

進一步閱讀
  1. Pika 1.5 推出:AI 視頻生成的新里程碑

Midjourney 推出新 /describe 功能測試版

AI 繪圖工具 Midjourney 2024年3月8日在其 Discord 及 Twitter 頻道宣布,推出了一項名為 “/describe” 的新功能測試版。這個功能可以讓使用者從圖像生成文字描述,與 Midjourney 原本從文字生成圖像的方式相反。Midjourney 創辦人 David Holz 表示,這個新版的 /describe 功能目的是生成更長、更詳細的圖像描述文字,以更好地適應 V6 版本的功能。

/describe 功能的運作方式

根據 Midjourney 官網的說明,/describe 命令可以讓使用者上傳一張圖像,然後 Midjourney 會根據該圖像生成四個可能的文字描述。這個功能可以幫助使用者探索新的詞彙和美學風格。不過需要注意的是,/describe 生成的描述是啟發性和暗示性的,無法完全精確地重現上傳的圖像。此外,/describe 也會返回上傳圖像的長寬比例資訊。使用 /describe 命令的步驟如下1

  1. 在 Discord 頻道中輸入 “/describe” 命令
  2. 上傳一張圖像
  3. 按下 Return 鍵,Midjourney 就會生成四個描述該圖像的文字提示
  4. 可以點擊每個提示下方的 1️⃣2️⃣3️⃣4️⃣ 按鈕,根據該提示生成新的圖像

選擇其中一個提示按鈕後,會彈出一個文字框,使用者可以修改描述中的任何詞彙,然後生成類似風格的圖像。

/describe 功能的應用潛力

根據一些使用者的測試和分享,/describe 功能有許多應用潛力,例如:

  1. 改善網頁圖像的無障礙性:為視覺障礙者生成更詳盡的圖像替代文字( alt text )
  2. 優化圖像搜尋:為圖像生成更豐富的描述,有助於搜尋引擎索引
  3. 自動生成圖說文字:快速為圖像配上詳細的說明文字
  4. 創意激發:根據圖像生成不同的描述,啟發更多創作靈感
  5. 圖文互轉的創作流程:利用 /describe 生成的描述,再次輸入 Midjourney 生成新的相關圖像

目前 /describe 功能還處於早期測試階段,生成的描述品質有待提升。但隨著使用者的反饋以及 Midjourney 團隊的持續優化,相信這個功能未來會愈加強大,為 AI 繪圖開啟更多可能性。

實際測試

讓我們以一張參考圖片作為開始

使用 /describe 並上傳照片之後, Midjourney 給我們四個描述

  1. Cinematic still of a beautiful woman in an ornate outfit with long hair, twirling and dancing in mid action. The image has detailed facial features, detailed eyes, and detailed skin texture under cinematic lighting, appearing hyper realistic. ––ar 16:9 (一個美麗的女人穿著華麗的長髮,在動作中旋轉和跳舞的電影劇照。 在電影般的燈光下,這張照片有著詳細的面部特徵、詳細的眼睛和詳細的皮膚紋理,看起來非常逼真 ––ar 16:9)
  2. Cinematic still of a beautiful Asian woman in an elaborate costume, dancing gracefully with her hair flowing around her face. She is wearing intricate gold and red embroidery on the dress, with long earrings that sparkle as she moves. The background has dark tones, adding to the dramatic effect. Her expression reflects confidence and elegance in the style of an Asian artist. ––ar 16:9 (一個美麗的亞洲女人穿著精緻的服裝,優雅地跳舞,頭髮繞在臉上。 她在裙子上穿著複雜的金色和紅色刺繡,長耳環在她移動時閃閃發光。 背景是深色的,新增了戲劇性的效果。 她的表情體現了亞洲藝術家的自信和優雅 ––ar 16:9)
  3. Cinematic still of a beautiful Asian woman dancing in traditional dress, her long hair blowing in the wind, with gold and red earrings, detailed skin texture, detailed eyes, in an elegant pose, against a dark background, in a dance hall setting dimly lit with warm lighting, in the style of Wong KarWai. ––ar 16:9 (一個美麗的亞洲女人穿著傳統服裝跳舞,她的長髮在風中飄揚,戴著金色和紅色的耳環,細緻的皮膚紋理,細緻的眼睛,在黑暗的背景下,在燈光昏暗的舞廳裏,以王家衛的風格擺出優雅的姿勢 ––ar 16:9)
  4. Cinematic still of a beautiful young Asian woman in traditional dancing, with detailed facial features, intricate patterns on her dress, detailed hair and makeup, in a wide shot, against a dark background with lights, in the style of Alfonso Cuarón. ––ar 16:9 (一個美麗的年輕亞洲女子在傳統舞蹈中的電影劇照,她有著詳細的面部特徵,衣服上有著複雜的圖案,頭髮和妝容都很精緻,在一個有燈光的黑暗背景下,拍攝的是阿方索·庫隆的風格 ––ar 16:9)

對於細節的描述明顯地比之前的 /describe 版本更精準,代表 Midjourney 持續不斷地進化其平台功能的決心與速度。

根據以上的四個描述,我們直接創作了4×4組圖片,各位讀者可以比較一下與原始圖片的差異。

描述一

描述二

描述三

描述四

Midjourney 推出 V6 Turbo 模式,生圖速度大幅提昇 3.5 倍

人工智能繪圖軟體 Midjourney 於2024年3月7日宣布推出 V6 版本的「Turbo 模式」,這個創新的功能可讓用戶以 3.5 倍的速度生成圖像,大幅縮短等待時間,為 AI 繪圖帶來全新體驗。

Midjourney 自推出以來,憑藉其強大的圖像生成能力和友善的用戶界面,迅速在 AI 藝術創作領域佔據一席之地。而 V6 版本的更新,不僅帶來了品質更高、解析度更高的圖像輸出,還引入了革命性的 Turbo 模式。

那麼,什麼是 Turbo 模式呢?簡單來說,它讓圖像生成的速度提高了 3.5 倍,而計算成本僅增加了 2 倍。這意味著,原本需要約 35 秒的生圖時間,現在只需約 10 秒即可完成。Turbo 模式採用了最快的 GPU 運算設備,因此不僅速度更快,所需的計算資源也更多,這也是成本略高的原因。

Turbo 模式非常適合團體協作、公開活動,或是任何需要快速生成大量圖像的場合。當你有「速度的渴望」時,Turbo 模式絕對是你的最佳選擇。

使用 Turbo 模式非常簡單,只需在聊天視窗中輸入 “/turbo” 指令,之後所有的 “/imagine” 圖像生成任務都會以 3.5 倍的速度執行(同時消耗 2 倍的 GPU 運算時間)。目前,Turbo 模式支援一般的 “/imagine”、”vary” 和 “remix” 任務,但尚未支援 “sref” 功能。若提交了不支援 Turbo 模式的任務,系統會自動以一般速度和成本執行。

除了 Turbo 模式外,Midjourney V6 還帶來了許多其他令人期待的更新。首先是圖像解析度的提升,V6 版本可輸出高達 2048×2048 像素的圖像,幾乎是 V5 版本的兩倍,讓圖像更加清晰、細節更豐富。其次是自然語言處理能力的加強,新版本能更好地理解對話式的輸入,不易產生混淆。此外,V6 還改善了人物手部和其他身體特徵的生成效果,並可能支援 3D 模型的輸出和更多的檔案格式。

Midjourney 創辦人 David Holz 表示:「我們一直致力於為用戶提供最好的 AI 繪圖體驗。V6 版本的種種更新,尤其是 Turbo 模式的推出,將大大提高創作效率,激發更多創意和可能性。我們期待看到用戶以 Turbo 模式創造出更多令人驚豔的作品。」

目前,Turbo 模式仍處於實驗階段,未來可能會根據用戶反饋和技術發展進行調整。但毫無疑問,它已經為 AI 藝術創作開啟了一個全新的篇章。

OpenAI 宣布將逐步淘汰 ChatGPT 插件測試版

OpenAI 近日在其官方幫助中心發布消息,宣布將逐步淘汰 ChatGPT 插件測試版。這項決策基於對用戶和開發者反饋的收集與分析,以及對 GPTs(生成式預訓練轉換器)的廣泛採用。自 2024 年 3 月 19 日起,將禁止創建帶有插件的新對話,但用戶可持續使用現有的插件對話直至 2024 年 4 月 9 日。

在插件測試版期間,商店中提供了超過 1,000 個插件。目前,GPT 商店已擁有數以百萬計的 GPTs,覆蓋寫作、生產力、編程、教育等多個類別。OpenAI 表示,他們對 GPTs 的未來充滿期待,並認為這只是開始,未來將有更多成果發布。

對於為何選擇淘汰插件測試版,OpenAI 解釋稱,隨著 GPTs 和 GPT 商店的推出,他們能夠實現許多插件用戶所要求的改進。GPTs 現已具備與插件完全相同的功能(除了許多新功能)。對於有興趣了解如何構建 GPT 的用戶,OpenAI 提供了相關文檔和更多技術文檔供開發者參考。

此次決策標誌著 OpenAI 在持續創新和改進其產品的同時,也在不斷聆聽和回應用戶社群的需求。隨著插件測試版的淘汰,OpenAI 鼓勵用戶探索和利用 GPT 商店中的豐富資源,以滿足他們的各種需求。