Midjourney V6 最佳化實踐:跟著步驟一步一步完成所想即所見的圖像

Midjourney v6 相較於 v5.2 版本,它在影像生成品質、畫面質感和細節刻畫方面有顯著提升,光影處理也更加真實自然。 v6 和 v5.2 存在一些明顯的差異,在使用上也要特別注意。

主要差異

  1. 影像生成品質:v6 的影像產生品質相比 v5.2 更高,在畫面質感和細節刻畫上有更精緻的表現,光影處理也更真實自然。
  2. 文本提示詞理解:v6 模型對文本提示詞的理解能力更強,可以理解更長的文本提示,提示詞容量達到了350-500 個字,而 v5.2 中超過三十個字後,提示詞就不起作用。

注意事項

  1. v6 模型對提示詞非常敏感,不要在提示詞中使用「安慰劑」詞語,例如「獲獎、逼真、4k、8k、HDR」等,它們可能會干擾畫面內容的生成。
  2. 要產生更真實自然、更偏向寫實攝影的影像時,可以使用 –style raw 參數;如果想產生藝術感和美學性更強的影像,可以調高 –stylize 的數值。
  3. v6 模型對提示詞的理解變得更準確,但這也讓它顯得有些“呆板”,對於沒有提到的內容,v6 都不會呈現,不再像 v5.2 模型那樣會自由發揮。如果畫面中沒有出現想要的內容,應檢查是否遺漏了關鍵詞,或調整重點詞語的位置。盡可能使用詳細的自然語言作為提示詞描述,而非簡單的單字。

最佳化實踐

基本公式

主要畫面 + 細節描述 + 地點與光線 + 鏡頭畫面 + 風格與媒介

主要畫面

讓我們從一個基本的畫面描述開始帶著各位讀者一步一步地完成最終的圖像。

Prompt: A young Japanese female pop singer is singing. ––ar 16:9 ––style raw ––v 6.0 一個年輕的日本女性流行音樂歌手正在演唱

由於我們想做出一個模擬真實照片的圖像,所以我們先使用 ––style raw 參數產生偏向寫實攝影的影像。

細節描述

接著,增加我們想要的細部畫面。

Prompt: A young Japanese female pop singer is singing, with silver metal accessories on her hands and a microphone in her right hand. ––ar 16:9 ––style raw ––v 6.0 一個年輕的日本女性流行音樂歌手正在演唱,雙手帶著銀色的金屬配飾,右手握著麥克風。

地點與光線

接著,從主題、細節向外延伸,補充地點與光線參數。

Prompt: A young Japanese female pop singer is singing, with silver metal accessories on her hands and a microphone in her right hand. She is in the Hong Kong Coliseum, on a huge stage, looking up at the audience. Volumetric lighting, neon light. ––ar 16:9 ––style raw ––v 6.0 一個年輕的日本女性流行音樂歌手正在演唱,雙手帶著銀色的金屬配飾,右手握著麥克風。她在香港體育館內,寬廣的舞台,仰頭望著觀眾。體積照明,霓虹光。

增加光線參數之後,歌手的臉部變得更清晰明亮。但是由於 V6 將焦點放在主要敘述的歌手與配飾的呈現,香港體育館與舞台似乎就成為一個被省略掉的參數,因此我們再接下來的步驟中再強化它。

鏡頭畫面

接著,我們加入鏡頭畫面控制整體構圖的呈現。

Prompt: A young Japanese female pop singer is singing, with silver metal accessories on her hands and a microphone in her right hand. She is in the Hong Kong Coliseum, on a huge stage, looking up at the audience. Volumetric lighting, neon light. Showing the interior of the stadium and the many cheering spectators behind it. ––ar 16:9 ––style raw ––v 6.0 一個年輕的日本女性流行音樂歌手正在演唱,雙手帶著銀色的金屬配飾,右手握著麥克風。她在香港體育館內,寬廣的舞台,仰頭望著觀眾。體積照明,霓虹光。背後呈現體育館內部與眾多歡呼的觀眾。

風格與媒介

最後,補充圖像風格與媒介,若想創作非寫實照片的圖像,則需要先移除 ––style raw 參數。若是照片風格,則建議加入風格化參數強化畫面的視覺感。以筆者個人的經驗,將 stylize 值調整到 200 左右,根據跑出來的圖像找到適合的畫面再做 Variations (Strong) 可以抓到不錯的結果。或者多跑幾次,從產出的圖像再去找喜歡的構圖及感覺,這就看個人習慣而定。

鉛筆畫

Prompt: A young Japanese female pop singer is singing, with silver metal accessories on her hands and a microphone in her right hand. She is in the Hong Kong Coliseum, on a huge stage, looking up at the audience. Volumetric lighting, neon light. Showing the interior of the stadium and the many cheering spectators behind it. Pencil drawing. ––ar 16:9 ––v 6.0 一個年輕的日本女性流行音樂歌手正在演唱,雙手帶著銀色的金屬配飾,右手握著麥克風。她在香港體育館內,寬廣的舞台,仰頭望著觀眾。體積照明,霓虹光。背後呈現體育館內部與眾多歡呼的觀眾。鉛筆畫。

寶麗來相機

A young Japanese female pop singer is singing, with silver metal accessories on her hands and a microphone in her right hand. She is in the Hong Kong Coliseum, on a huge stage, looking up at the audience. Volumetric lighting, neon light. Showing the interior of the stadium and the many cheering spectators behind it. Polaroid camera. ––ar 16:9 ––style raw ––v 6.0 一個年輕的日本女性流行音樂歌手正在演唱,雙手帶著銀色的金屬配飾,右手握著麥克風。她在香港體育館內,寬廣的舞台,仰頭望著觀眾。體積照明,霓虹光。背後呈現體育館內部與眾多歡呼的觀眾。寶麗來相機。

電影畫面

A young Japanese female pop singer is singing, with silver metal accessories on her hands and a microphone in her right hand. She is in the Hong Kong Coliseum, on a huge stage, looking up at the audience. Volumetric lighting, neon light. Showing the interior of the stadium and the many cheering spectators behind it. Cinematic shot, f/16, 85mm, ISO 1600, Sony FX3. ––ar 16:9 ––style raw ––s 200 ––v 6.0 一個年輕的日本女性流行音樂歌手正在演唱,雙手帶著銀色的金屬配飾,右手握著麥克風。她在香港體育館內,寬廣的舞台,仰頭望著觀眾。體積照明,霓虹光。背後呈現體育館內部與眾多歡呼的觀眾。電影畫面。

總結來說,Midjourney v6 在圖像質量和文本提示詞理解上都有顯著提升,但也因為它對提示詞更敏感,使用時需要更精確地描述想要的結果。由於 v6 目前仍處於 alpha 測試階段,未來可能還會有重大變化,因此使用者仍然需要不斷摸索和適應新模型的特性。

進一步閱讀
  1. Midjourney V6 新手救星:MJ V6 Prompt Creator GPT