GPT-4V 進階:透過 GPT-4V 讓 DALL-E 3 以文生圖創造風格近似的作品

GPT-4V 和 DALL-E 3 已經成為最引人注目的技術之一。GPT-4,作為一種先進的語言預測模型,能夠理解和生成極其自然且有深度的文本內容。另一方面, DALL-E 3 是一個圖像生成模型,能夠根據文本描述創建令人驚嘆的圖像。這兩者的結合打開了創意表達和視覺藝術的新疆界,使我們能夠創造出風格近似的作品,這在過去是不可想像的。

利用 GPT-4V 來引導 DALL-E 3 生成風格近似的圖像不僅僅是一個技術挑戰,同時也是一個藝術創作的過程。這種方法可以被廣泛應用於廣告、設計、藝術創作等領域,為我們提供了一個全新的方式來表達創意並實現視覺上的創新。

本文的主要目標是探討如何使用 GPT-4V 來生成描述性文本,進而指導 DALL-E 3 創建風格一致且富有創意的圖像作品。

實現風格近似的策略

當我們找到一張理想的參考圖時(如本文首圖),我們先儲存它,並上傳至 GPT-4V (感謝新版本提供的多模態讀圖能力!) ,並輸入以下 prompt :

Please elaborate on the details of this image to be used as a prompt input for DALL-E.

在句子中我們使用 DALL-E 而不是 DALL-E 3 是因為在 GPT-4V 的離線版本中它的最新知識是截至2023年4月,這時 DALL-E 3 並沒有發佈,所以我們在句子中只提到 DALL-E ,模型相同並不會有溝通語法上的差異。

輸出

Certainly! Here's a detailed description of the image to use as a prompt for DALL-E:

"A cosmic-themed illustration of a mystical witch. The witch has flowing, wavy hair that seamlessly merges with the vastness of the universe. Her wide-brimmed hat spirals elegantly upwards, dotted with stars, galaxies, and celestial motifs. The hat encompasses a moon and a radiant butterfly, which appears to be a part of the cosmic tapestry. The witch's skin has a porcelain hue, and her eyes have an enigmatic and alluring gaze. She holds a shimmering star between her fingers, emitting a faint glow. Her attire and form are engulfed in a whirl of galactic swirls, stardust, and luminous splatters, representing the vast and mysterious expanse of the cosmos."

I hope this description aids in your endeavor with DALL-E!

我們知道在 AI 生成繪圖中,溝通的細節越完整, AI 創作出來的圖片層次就越豐富。一般而言,圖片生成需要考量的變數:

  • 主題
  • 環境
  • 氣氛
  • 燈光
  • 色彩
  • 構圖
  • 藝術風格

我們整合這些變數,針對首圖輸入具備更多細節的 prompt :

Please describe this image in detail, including the theme, setting, atmosphere, lighting, color, composition, and artistic style, to be used to output the DALL-E prompt.

這時 GPT-4V 就給了非常詳盡的 prompt 敘述:

Certainly!

**Theme**: The image captures the essence of cosmic mysticism, blending a portrait of a sorceress or witch with celestial motifs, suggesting her deep connection or embodiment of the universe.

**Setting**: The setting is abstract, not rooted in any tangible place, creating an ethereal and otherworldly atmosphere that's enhanced by the presence of stars, galaxies, and a luminous butterfly.

**Atmosphere**: The overall feel is one of enchantment and wonder, emphasizing the vast mysteries of the cosmos and the magic it holds. The image carries a sense of harmony between the ethereal witch and the universe around her.

**Lighting**: There isn't a specific light source; instead, the entire image appears illuminated from within. The luminescence of the star the witch holds, the glow of her hat, and the various scattered stars provide a soft, dreamy light.

**Color**: The palette is anchored in rich blues and teals reminiscent of the night sky or deep space. Pops of white and light teal, especially within the stars and the celestial butterfly, add contrast and vibrancy.

**Composition**: The witch is central and is the primary focus. Her gaze, the position of her hand holding the star, and the spiral of her hat all guide the viewer's eyes in a circular motion, creating a dynamic and balanced composition. The flowing elements, like her hair and the galactic patterns, give the artwork movement and fluidity.

**Artistic Style**: This is a fusion of illustrative and graphic art. There's a high level of detail, particularly in the line work of the witch's features and the intricate patterns of the cosmos. While there's a touch of realism in the rendering of the face, the celestial motifs introduce an abstract, surreal dimension.

**DALL-E Prompt**: "An ethereal witch with wavy hair set against an abstract backdrop of the cosmos. The central figure holds a glowing star and wears a spiraled hat adorned with galaxies, a luminous butterfly, and celestial elements. The color scheme revolves around deep blues, teals, and radiant whites, creating a dreamy and magical atmosphere. The art style is a blend of detailed illustration and graphic surrealism."

I hope this description will be helpful for your DALL-E prompt!

它先針對我們所提出的變數做細節描述,最後再給出一個 prompt 。由於對細節的描述多寡會決定最後圖片生成的細節程度,所以我們決定將它所提供的 prompt 及各個變數的描述分別作為一個 prompt 進行測試比較差異性。

實際操作

版本1

輸入

A cosmic-themed illustration of a mystical witch. The witch has flowing, wavy hair that seamlessly merges with the vastness of the universe. Her wide-brimmed hat spirals elegantly upwards, dotted with stars, galaxies, and celestial motifs. The hat encompasses a moon and a radiant butterfly, which appears to be a part of the cosmic tapestry. The witch's skin has a porcelain hue, and her eyes have an enigmatic and alluring gaze. She holds a shimmering star between her fingers, emitting a faint glow. Her attire and form are engulfed in a whirl of galactic swirls, stardust, and luminous splatters, representing the vast and mysterious expanse of the cosmos.

輸出

Here are the cosmic-themed illustrations of the mystical witch based on your description. I hope you find them captivating! If you'd like any changes or further details, please let me know.

圖片1-1

prompt: Illustration of a mystical witch with a cosmic theme. The witch has flowing, wavy hair that seamlessly merges with the universe, depicting stars, galaxies, and nebulae. Her wide-brimmed hat spirals upwards, adorned with celestial motifs, stars, and galaxies. A moon and a radiant butterfly are incorporated into the hat’s design. The witch’s skin is porcelain-toned, and her captivating eyes reflect the mysteries of the cosmos. She delicately holds a shimmering star that emits a soft glow. Her form is surrounded by galactic swirls, stardust, and luminous splatters, symbolizing the vastness of the universe.

圖片1-2

prompt: Cosmic-themed illustration portraying a witch whose essence intertwines with the universe. Her long, wavy hair transitions into a canvas of stars and galaxies. A spiraling, wide-brimmed hat sits atop her head, dotted with celestial elements, including a moon and a glowing butterfly. The witch’s porcelain skin contrasts with her mysterious eyes, which seem to hold the secrets of the cosmos. In her hand, she gracefully holds a star that casts a gentle light. Her entire being is enveloped in a dance of galactic swirls and stardust, representing the infinite beauty of the cosmos.

版本2

輸入

An ethereal witch with wavy hair set against an abstract backdrop of the cosmos. The central figure holds a glowing star and wears a spiraled hat adorned with galaxies, a luminous butterfly, and celestial elements. The color scheme revolves around deep blues, teals, and radiant whites, creating a dreamy and magical atmosphere. The art style is a blend of detailed illustration and graphic surrealism.

輸出

Here are the illustrations of the ethereal witch set against a cosmic backdrop, based on your description. The color scheme and art style have been captured as per your request. I hope you find them to your liking! If you have any feedback or further requests, please let me know.

圖片2-1

prompt: Detailed illustration with graphic surrealism of an ethereal witch against an abstract cosmic background. The witch has wavy hair and holds a glowing star in her hand. She wears a spiraled hat decorated with galaxies, a luminous butterfly, and other celestial motifs. The color palette consists of deep blues, teals, and radiant whites, creating a dreamy and enchanting ambiance.

圖片2-2

prompt: Artistic blend of detailed illustration and graphic surrealism depicting an ethereal witch with wavy hair. She stands against a mesmerizing abstract backdrop of the cosmos, holding a radiant star. Her spiraled hat is adorned with galaxies, a glowing butterfly, and celestial elements. The dominant colors are deep blues, teals, and luminous whites, setting a magical and dreamlike tone to the piece.

版本3

輸入

Theme: The image captures the essence of cosmic mysticism, blending a portrait of a sorceress or witch with celestial motifs, suggesting her deep connection or embodiment of the universe.

Setting: The setting is abstract, not rooted in any tangible place, creating an ethereal and otherworldly atmosphere that's enhanced by the presence of stars, galaxies, and a luminous butterfly.

Atmosphere: The overall feel is one of enchantment and wonder, emphasizing the vast mysteries of the cosmos and the magic it holds. The image carries a sense of harmony between the ethereal witch and the universe around her.

Lighting: There isn't a specific light source; instead, the entire image appears illuminated from within. The luminescence of the star the witch holds, the glow of her hat, and the various scattered stars provide a soft, dreamy light.

Color: The palette is anchored in rich blues and teals reminiscent of the night sky or deep space. Pops of white and light teal, especially within the stars and the celestial butterfly, add contrast and vibrancy.

Composition: The witch is central and is the primary focus. Her gaze, the position of her hand holding the star, and the spiral of her hat all guide the viewer's eyes in a circular motion, creating a dynamic and balanced composition. The flowing elements, like her hair and the galactic patterns, give the artwork movement and fluidity.

Artistic Style: This is a fusion of illustrative and graphic art. There's a high level of detail, particularly in the line work of the witch's features and the intricate patterns of the cosmos. While there's a touch of realism in the rendering of the face, the celestial motifs introduce an abstract, surreal dimension.

輸出

Here are the artworks that capture the essence of cosmic mysticism, blending the portrait of a sorceress with celestial motifs based on your detailed description. I hope these illustrations resonate with the enchanting and magical atmosphere you envisioned. If you have any feedback or further requests, please let me know.

圖片3-1

prompt: Illustrative and graphic art fusion of a sorceress embodying cosmic mysticism. Set against an abstract and ethereal background, the central witch figure conveys a deep connection with the universe. The atmosphere exudes enchantment, with stars, galaxies, and a luminous butterfly reinforcing the sense of wonder. Illumination comes from the glow of the star in her hand, her hat, and scattered stars, creating a dreamy ambiance. The rich blues and teals of deep space dominate, with contrasting whites and light teals highlighting the celestial elements. The composition emphasizes the witch’s centrality, her gaze, and the flow of galactic elements, offering movement and balance.

圖片3-2

prompt: Artwork capturing the essence of cosmic mysticism through a portrait of a witch intertwined with celestial motifs. The setting is abstract and otherworldly, with stars, galaxies, and a glowing butterfly enhancing the ethereal atmosphere. The sense of magic and mystery is palpable, emphasizing the harmony between the witch and the cosmos. The image radiates light from within, thanks to the luminescence of the star, the witch’s hat, and various celestial elements. Deep blues and teals contrast with vibrant whites and light teals. The witch, central in the composition, guides the viewer’s gaze in a circular motion, with flowing elements adding fluidity. The style blends detailed illustration with surreal graphics.

結語

從上面的實際操作中我們可以觀察到隨著 prompt 描述的細節越多, DALL-E 3 的圖像生成細節層次就豐富,而且 DALL-E 3 在我們沒有指定輸出比例格式的狀況下,隨著 prompt 描述的細節,它也會跟著圖片的狀態去調整最佳輸出比比例,不限定 1:1 格式。最後,不管是版本1、版本2、版本3,圖片生成的風格大抵都與原圖有著近似的風格與元素。讀者也可以根據我們提供的範例配合自身的需求多加測試及調整。

進一步閱讀
  1. 直接複製!使用 DALL-E 3 新增的67種圖片風格,解放 AI 創作潛能 (附實例)
  2. DALL-E 3 新功能與實踐指南
  3. 如何用 Gen ID 讓 DALL-E 3 輸出相同風格的圖片
  4. 如何在 DALL-E 3 中將數種不同物體融合為一
  5. 如何在 DALL-E 3 的圖片上增加文字
  6. DALL-E 3 中的光線參數 (上)
  7. 六種適用於東方特色的 DALL-E 3 創作風格
  8. 如何利用 Negative Prompt 優化 DALL-E 3 圖像生成
  9. 如何透過修改 Seed 讓 DALL-E 3 逐步生成完美圖片
  10. DALL-E 3 中的光線參數 (下)
  11. DALL-E 3 的角度參數及其影響

六種適用於東方特色的 DALL-E 3 創作風格

DALL-E 3 使得許多非藝術創作領域的愛好者藉由這款強大的 AI 繪圖生成工具,也得以像藝術創作專業人士一樣創作出精緻且動人的特色圖片。我們蒐集了六種適合喜歡東方藝術的讀者,運用這些特定的藝術風格 prompts 來製作圖片。各位讀者也可以參考一些探討藝術的網站蒐集更多自己喜歡的風格來做測試。

風水( Feng Shui )

prompt: Photo in 16:9 format depicting a serene Buddha statue in the center of a Buddhist temple’s lobby. The mid-shot view reveals the statue’s details, with creative lighting casting dramatic shadows. Feng Shui elements, including wind chimes, flowing water, and green plants, are strategically placed around the lobby, adding to the ambiance of peace and tranquility.

關鍵字: Feng Shui elements

風水是中國的一套古老哲學體系,主要集中在人類生活環境的佈局和設計上,以達到和諧平衡的狀態。風水字面上的意思是“風”和“水”,這兩者在中國文化中都被認為是生命能量或“氣”的流動和分佈的重要因素。

風水的核心理念是通過調整和改善人們居住或工作環境中的物理元素,來影響能量流動,從而促進健康、財富和幸福。這包括房屋和家具的佈局、方向、顏色、形狀和材料等多個方面。

以下是一些風水的基本元素和原則:

  1. 氣(Qi):氣是一種無形的能量,風水的目標是優化氣的流動和分佈。
  2. 陰陽(Yin and Yang):這是中國哲學的一個核心概念,描述了相反但互補的力量。風水中尋求陰陽之間的平衡。
  3. 五行(Wu Xing):這指的是木、火、土、金、水五種元素,每種元素都有其相應的特性和相互關系。風水中考慮這些元素的相互作用,以達到和諧平衡。
  4. 方位(Directions):風水中重視房屋和物品的方位,認為不同的方位對人們的運勢和健康有不同的影響。
  5. 風水工具:如羅盤(用來確定方向)、風水尺(用來測量和調整空間的尺寸和比例)等。

儘管風水起源於中國,但它已經傳播到世界各地,並被不同文化以不同的方式採納和實踐。風水通常與建築、室內設計、園藝和個人健康等領域相結合,被用來創造一個和諧、平衡且有利於人們生活的環境。

寫真女郎 ( Pinup )

prompt: 16:9 format photograph of a Chinese car model in a Pinup style. She is wearing a strapless bandeau top and a mini skirt, posing next to a sports car. The model’s makeup enhances her features, and she smiles brightly, showing her teeth. The image incorporates several vintage effects such as low contrast, Autochrome Lumière, light leak, solarization, specks, scratches, and stains. The split toning and domain depth resemble a 35mm film, adding to the old-world allure.

關鍵字: Pinup style

在藝術領域,”Pinup”(寫真女郎)代表著一種充滿性感魅力與時尚感的藝術風格。這種風格的根源可追溯到20世紀初的插圖與平面設計領域,並在第二次世界大戰期間達到了極高的受歡迎程度。

寫真女郎作品主要展示了誘人且極具吸引力的女性形象,運用鮮艷的顏色、奢華的服裝以及精緻的妝容來吸引觀眾的眼球。這些藝術作品可能呈現為插圖、畫作、攝影或其他藝術形式。寫真女郎的形象經常以輕微裸露或帶有挑逗性質的姿態呈現,展現了對女性之美的讚美與欣賞。

Pinup 藝術在過往一直是廣告、雜誌、海報和明信片等媒介的重要組成部分,對當時的流行文化和社會風尚造成了廣泛的影響。這種風格體現了一種女性自信和性感的態度,在藝術表現上展現了豐富的情感和遊戲性。

然而,值得注意的是,在當代社會中,關於 Pinup 藝術是否存在性別刻板印象和對女性的物化問題,仍然存在一定的爭議。一些人認為這種風格反映了對女性的壓迫和對身體的過分強調,而其他一些人則認為它是一種藝術表達形式,代表了女性的自主和力量。

Pinup 是一種在藝術領域內以性感、迷人和時尚為主要特點的風格,常常通過描繪寫真女郎的形象來進行表達。它在20世紀的插圖和平面設計領域達到了流行的高峰,對當時的流行文化和社會趨勢產生了深遠的影響。

錦織品 ( Brocade )

prompt: In a 16:9 format, an Art Nouveau combined with Trompe l’oeil depiction of a Chinese love goddess sitting serenely under a cherry blossom tree. The visual style leans towards Silverpoint, set against a cosmic, terragen background that embodies a Galactic Aura Symphony shape. The scene is drenched in the soft glow of the twilight golden hour, with golden fireflies dancing around. There’s a noticeable super motion blur, split toning effects, and the intricate patterns of brocade.

關鍵字: patterns of brocade

錦織品,或Brocade,代表著一種奢華的紡織品,廣泛應用於裝飾和藝術的多個領域。這種織物主要是由絲綢、金屬線條,或其他高品質的紡織原材料編織而成,展現出獨特而細緻的圖樣和紋理。錦織品的生產過程十分複雜,涉及到特殊的織造技藝和機械設備。

在藝術領域,錦織品被廣泛應用於製作服飾、家具、窗簾、壁畫和各種藝術裝飾品等。它那豐富的色彩、華美的圖樣和亮麗的光澤使其成為一種矚目而精致的藝術材料。錦織品常見於禮服、皇室衣物和各類慶典裝飾中,彰顯了藝術家和工匠們的卓越手藝。

在世界各地,錦織品展現了多樣的風格和特點,受到不同文化和地域的影響。比如,在中國,錦織品上經常繡有龍、鳳凰和花卉等傳統圖案,承載著濃厚的中國文化色彩和象徵意義。而在歐洲,它則多用於展現宮廷和宗教藝術的奢華和宏偉。

總體而言,作為一種藝術形態的錦織品,它不只是一種織物,更是集美學、技藝和文化於一體的藝術珍品,為裝飾和藝術世界帶來了無限的可能性和表達空間。

神秘生物(Mythical Creature)

prompt: In a 16:9 format, a Silverpoint depiction of the Sacred Japanese Sea Goddess, a mythical figure. She stands tall above the tumultuous sea, her clothing crafted from the waters themselves. Every aspect of her – from her face, pose, body, makeup, to her lips – is enchanting. A hexagon magic circle surrounds her, projecting a star-movie shape. The twilight golden hour paints the scene, with golden fireflies adding a touch of magic. The image is accentuated with super motion blur and split toning.

關鍵字:mythical figure

從藝術的角度來解析,神秘生物是指那些只存在於傳說、民間故事或幻想文學中的生物或實體。它們通常擁有超乎尋常且充滿奇幻色彩的特點,並且超越了我們日常生活中的現實界限。藝術創作者經常從這些神秘生物中獲得靈感,因為這些生物提供了豐富的創造空間、象徵寓意以及講故事的潛力。

在藝術作品中呈現神秘生物時,創作者能夠探討各式各樣的主題和想法。他們可以深入挖掘這些生物的象徵含義、在文化中的地位,或者它們對人類的情緒、恐懼和渴望的反映。藝術家可以透過細膩的觀察、豐富的想像和繽紛的顏色或質地,展現這些生物驚人的美或威脅感。

此外,創作者還可以將神秘生物運用為寓言中的人物,來傳遞更深層次的資訊或道德教誨。他們可以借助象徵手法來表現抽象的概念或探討人類本性的多面性。這些生物同時也可作為人類狀態的隱喻,以探索權力、愛情、變革以及善與惡之間永恆的鬥爭等普遍的主題。

神秘生物在藝術中的呈現為創作提供了一個豐富而多產的創意空間,引導觀者沉浸在一個充滿想像、驚奇和反思的世界。它們為藝術家創造了一個挑戰現實界限、打破常規框架的平台,用其神秘而迷人的存在激發觀者的想像力。

地形生成器 ( Terragen )

prompt: In a 16:9 format, an art piece inspired by Terragen and Ink Dripping Art techniques. A beautiful Japanese love goddess, exuding dignity, is seated beneath a cherry blossom tree, her divine attire drawing attention. With closed eyes, she seems immersed in meditation. Cherry blossoms, moved by a soft breeze, surround her. The lighting captures the essence of crepuscular light, light leak, solarization, and diffraction, with a gradient effect. The twilight golden hour’s beauty is punctuated by golden fireflies, and the scene is enriched with super motion blur and split toning.

關鍵字: Terragen

Terragen 是一款數位地景生成軟體,能夠在電腦上創建出逼真的自然環境和風景。它讓藝術家和設計師能夠模擬和渲染出大氣、地形、植被以及水域等自然元素,從而創造出驚人的虛擬場景。

在藝術領域, Terragen 被廣泛應用於數位藝術、電影特效和遊戲開發等方面。藝術家能夠利用 Terragen 生成宏偉的山脈、峽谷、河流、湖泊和雲層等自然景觀,使之顯得栩栩如生。通過調節參數和增加紋理,藝術家能夠控制光線、材質和細節,創造出獨一無二且引人入勝的場景。

「地形生成器」是 Terragen 的中文譯名,這款軟體為藝術家提供了一個強大的工具,使他們能在數位空間中建構出自然環境的逼真模擬,為其創作開拓了無限的可能性。

金繼 ( kintsugi )

prompt: In a 16:9 format, a commercial photograph capturing a distant landscape. Foregrounded are pieces of multicolored vintage porcelain, each with distinct markings. These porcelain items have been beautifully mended using the kintsugi method, where the cracks are filled with gold, celebrating the history and journey of each piece.

關鍵字: kintsugi

「金繼」是一門日本的藝術修復手法,又稱為「金補修」。這項技術主要應用於修補受損的陶瓷和瓷器,其方法是使用金粉和漆的混合物來填充裂痕和斷裂處,從而產生獨特且美觀的修補效果。「金繼」的理念植根於日本文化的哲學思想,強調即便是受損和破碎的物件也有其獨特的價值,而且經過修復後更顯珍貴。

從藝術的角度來看,「金繼」被認為是一個創造性的過程,藝術家運用這項技術將破碎的物品轉化為具有獨特魅力的藝術作品。這不僅僅是一個修補過程,而且是一種將金粉的閃爍效果融入作品中的藝術創造,讓修補的痕迹成為作品不可或缺的一部分,凸顯了物品的歷史淵源和它所經歷的故事。「金繼」的審美觀念同時也反映了一種擁抱不完美和變遷的心態,並將其轉化為美的呈現。

在藝術界,「金繼」被廣泛運用於陶瓷、瓷器、和其他種類的受損藝術品的修復和創作中。它象徵著對歷史的尊重和對持久價值的追求,同時展現了創作者在技藝和藝術表達上的高超造詣。

「金繼」作為一種藝術領域中的修復和創作手法,它通過利用金粉和漆料修補破碎的藝術品,創造出既美觀又獨特的效果,同時體現了對於接受不完美和變化的積極態度。

進一步閱讀
  1. 直接複製!使用 DALL-E 3 新增的67種圖片風格,解放 AI 創作潛能 (附實例)
  2. DALL-E 3 新功能與實踐指南
  3. 如何用 Gen ID 讓 DALL-E 3 輸出相同風格的圖片
  4. 如何在 DALL-E 3 中將數種不同物體融合為一
  5. 如何在 DALL-E 3 的圖片上增加文字
  6. DALL-E 3 中的光線參數 (上)
  7. GPT-4V 進階:透過 GPT-4V 讓 DALL-E 3 以文生圖創造風格近似的作品
  8. 如何利用 Negative Prompt 優化 DALL-E 3 圖像生成
  9. 如何透過修改 Seed 讓 DALL-E 3 逐步生成完美圖片
  10. DALL-E 3 中的光線參數 (下)

如何利用 Negative Prompt 優化 DALL-E 3 圖像生成

在使用 DALL-E 3 進行圖片生成時,Negative Prompt(負向提示)可以作為一種強大的篩選工具,以確保生成的圖片符合特定的需求或避免某些不想要的元素。使用 Negative Prompt 主要是為了在生成過程中排除一些不需要或不適合的視覺成分。

使用方法

  1. 明確性是關鍵:在設定 Negative Prompt 時,需要明確指出要避免哪些元素或特性。例如,如果你不希望圖片中出現文字,你可以添加一個 Negative Prompt 如“ no text ”。
  2. 與 Positive Prompt 結合:你通常會將 Negative Prompt 與 Positive Prompt (正向提示)結合使用。在這種情況下, DALL-E 3 將嘗試生成符合正向提示,但不包含負向提示的元素的圖片。
  3. 順序與權重: Negative Prompt 的順序和權重也可能會影響最終生成的圖片。你可以透過調整提示順序或添加權重來進行微調。
  4. 測試與調整:由於每個生成模型的行為可能有所不同,建議多次測試和調整 prompt 以獲得最佳結果。

Negative Prompts 的順序

  1. 相對位置的重要性:在多個提示語組合的情況下,Negative Prompts 的位置(是否在 Positive Prompts 之前或之後)可以產生不同的效果。一般而言,緊接在主要(Positive)提示後的 Negative Prompt 可能會得到更多的注意。
  2. 語境和依賴性:如果 Negative Prompts 是為了修正或調節特定 Positive Prompts 的效果,則其順序會更加重要。例如,”一隻狗,不是貓” 會強調狗的特性,而避免生成貓的圖像。

Negative Prompts 的權重

  1. 權重係數:不同的 Negative Prompts 可以有不同的權重,這意味著模型會更加專注於那些具有較高權重的提示。權重高的 Negative Prompt 會更有效地過濾不需要的元素或特性。
  2. 與 Positive Prompts 的相對權重:如果 Negative Prompts 的權重遠高於 Positive Prompts,則生成的圖像可能會過度避免 Negative Prompts 中指定的特性,這可能會對生成圖像的整體質量產生負面影響。
  3. 多重 Negative Prompts 的相對權重:在使用多個 Negative Prompts 的情況下,它們之間的相對權重會影響最終圖像的細節。例如,”不是黑色,不是白色” 中,如果”不是白色” 的權重更高,生成的圖像更可能避免白色。

在 DALL-E 3 或其他基於 Transformer 架構的語言模型中,原生 API 通常不直接提供更改單個提示語(prompt)權重的選項。然而,有一些方法可以間接影響權重:

  1. 重複提示:將相同的 Negative Prompt 重複多次可以增加其權重。這種方法適用於模型接受多個提示語的情況。例如,”一隻狗, 不是貓, 不是貓, 不是貓”
  2. 組合提示:將 Negative Prompt 與其他相關的 Negative Prompts 組合,也可以增加其相對權重。例如,”一隻狗, 不是貓, 非貓類動物” 。這裡,”不是貓” 和 “非貓類動物” 都強調了相同的概念,增強了排除貓的效果。
  3. 模型微調:若您有權限和能力對模型進行微調(fine-tuning),則可以在訓練數據中改變 Negative Prompts 的權重。這種方法較為複雜,但也更為靈活。
  4. 修改輸入數據預處理:在高級應用中,也可以透過修改模型的輸入數據預處理流程來間接改變提示語的權重。這通常涉及對模型底層代碼的改動,需要相當程度的專門知識。

這些方法可能需要透過實驗來確定其有效性,因為它們會受到模型架構、訓練數據和其他因素的影響。

實際案例

假設你想生成一個現代風格的城市夜景,但不想要任何交通工具出現在圖片中:

  • Positive Prompt:"Modern city skyline at night"
  • Negative Prompt:"no cars, no buses, no trains"

將這兩個提示結合,模型將生成一個符合你要求的現代城市夜景,但不包含任何交通工具。

為什麼這些方法有效?

  1. 控制性增強:使用 Negative Prompt 可以提高生成圖片的控制性,使其更貼近實際需求。
  2. 篩選不相關元素:這有助於避免生成包含不需要或不相關的視覺元素的圖片,提高最終成品的專業度。
  3. 減少修訂時間:適當地使用 Negative Prompt 可以減少後續修訂或重新生成的需求,提高工作效率。

更多使用方法

  1. 使用多個 Negative Prompt :你可以同時使用多個負向提示來達到更精確的篩選效果。例如,"no animals, no text, no humans",這樣會生成不包含動物、文字和人類的圖片。
  2. 設定顏色範圍:如果你不希望生成的圖像包含特定的顏色,可以用Negative Prompt 來排除,如"no red color"
  3. 風格和主題排除:例如,如果你希望生成的是現代藝術作品,但不希望它們看起來像印象派作品,你可以用"no impressionism"作為 Negative Prompt 。
  4. 進階組合: Negative Prompt 也可以和其他指令詞組合使用,以達到更多的篩選和控制。例如,使用"portrait of a woman, high realism, no tattoos",這樣會生成一張高度寫實的女性肖像,但不包含任何紋身。
  5. 分層提示:在某些情況下,你可能希望使用一系列逐漸緊縮範圍的 Negative Prompts 。這種情況下,你可以先用一個較寬泛的 Negative Prompt 開始,然後逐步添加更具體的 Negative Prompt 來緊縮範圍。
  6. 添加情境: Negative Prompts 可以根據圖像的主題或用途來定制。例如,如果你正在生成一張用於醫學文獻的圖片,你可能會使用如"no gore, no exaggeration"這樣的 Negative Prompt 來保持專業性。

複雜描述案例

以下是10個將 Positive Prompt 和 Negative Prompt 結合在一個完整句子的複雜描述案例,適用於 DALL-E 3 或其他圖像生成模型:

  1. “A serene mountain landscape during sunset with vibrant colors but no human presence.”
    • 說明:展示日落時分的寧靜山景,顏色鮮明,但不包括人物。
  2. “A futuristic cityscape featuring towering skyscrapers and neon lights, devoid of flying cars.”
    • 說明:展示具有高聳的摩天大樓和霓虹燈的未來科技城市,但沒有飛車。
  3. “An adorable dog lounging on a comfy couch, without any text overlay.”
    • 說明:一隻可愛的狗懶洋洋地躺在舒適的沙發上,不含文字。
  4. “A hyper-realistic painting of assorted fruit displayed on a table, without any framing.”
    • 說明:一幅高度寫實的、展示在桌上的各種水果的畫作,不包含框架。
  5. “A coral reef teeming with underwater creatures except for sharks.”
    • 說明:一個充滿海底生物的珊瑚礁,但不包括鯊魚。
  6. “A well-lit reading corner filled with books and a cozy chair, devoid of any electronic devices.”
    • 說明:一個燈光明亮的閱讀角落,有很多書和一張舒適的椅子,但沒有任何電子設備。
  7. “A minimalist home interior with Scandinavian design elements but without any luxury items or decorations.”
    • 說明:一個極簡主義的家居環境,含有北歐設計元素,但不包含豪華物品或裝飾。
  8. “A dynamic action scene from a basketball game with high-flying dunks but without a scoreboard.”
    • 說明:一個來自籃球比賽的活躍動作場景,有高飛灌籃,但沒有計分板。
  9. “A gourmet kitchen featuring a variety of fresh vegetables and kitchen appliances but without any meat or fish.”
    • 說明:一個美食廚房,有各種新鮮蔬菜和廚房家電,但不包括肉類或魚。
  10. “A floral art piece that focuses on the intricate details of petals and leaves but avoids the Impressionism style.”
    • 說明:一個以花瓣和葉子的複雜細節為焦點的花卉藝術作品,但避免了印象派風格。

這些複雜描述案例展示了如何透過更詳盡的語言結構,對生成的圖像進行更精確的控制。在專業的數位行銷或其他領域,這樣的能力極具價值,因為它允許你更有效地針對特定目標群或需求進行客製化。希望這些案例能對你有所幫助。

附錄:一些實用的 Negative Prompt

  • worst quality – 最差品質
  • low quality – 低品質
  • normal quality – 正常品質
  • lowers – 降低
  • monochrome – 單色
  • grayscales – 灰階
  • skin spots – 皮膚斑點
  • acnes – 膿瘡,痘疤
  • skin blemishes – 皮膚瑕疵
  • age spot – 老人斑
  • 6 more fingers on one hand – 多手指
  • deformity – 畸形
  • bad legs – 畸形腿
  • error legs – 錯腿
  • bad feet – 腳型不正
  • malformed limbs – 畸形四肢
  • extra limbs – 多餘肢體
  • ugly – 醜
  • poorly drawn hands – 差勁畫技的手
  • poorly drawn feet – 差勁畫技的足
  • poorly drawn face – 差勁畫技的臉
  • text – 文字
  • mutilated – 傷口
  • extra fingers – 多餘手指
  • mutated hands – 突變手掌
  • mutation – 突變
  • bad anatomy – 差勁生理結構
  • cloned face – 重複面孔
  • disfigured – 變形
  • fused fingers – 手指融合

進一步閱讀

  1. 直接複製!使用 DALL-E 3 新增的67種圖片風格,解放 AI 創作潛能 (附實例)
  2. DALL-E 3 新功能與實踐指南
  3. GPT-4V 進階:透過 GPT-4V 讓 DALL-E 3 以文生圖創造風格近似的作品
  4. 如何用 Gen ID 讓 DALL-E 3 輸出相同風格的圖片
  5. 如何在 DALL-E 3 中將數種不同物體融合為一
  6. 如何在 DALL-E 3 的圖片上增加文字
  7. DALL-E 3 中的光線參數 (上)
  8. 六種適用於東方特色的 DALL-E 3 創作風格
  9. 如何透過修改 Seed 讓 DALL-E 3 逐步生成完美圖片
  10. DALL-E 3 中的光線參數 (下)
  11. DALL-E 3 的角度參數及其影響

2023年10月中文大模型排行,GPT-4 持續領先

2023年10月SuperCLUE中文大模型排行榜,GPT-4持續取得領先

在過去的幾年中,人工智能已從一個學術研究領域轉變為一個具有廣泛應用和商業價值的科技。其中,大模型,特別是自然語言處理(NLP)模型,如 GPT (生成預訓練變換器)系列,已成為這一轉變的關鍵驅動力。這些大模型不僅在語言理解和生成方面表現出色,而且在多個領域,包括醫療、金融、數位行銷等,都有著廣泛的應用。它們的出現不僅推動了人工智能技術的快速發展,也為企業和研究機構提供了前所未有的機會。

隨著大模型的不斷進化和優化,了解其最新的發展和排名成為了業界和學術界的重要課題,一些研究機構會定期發布他們對於各種大模型的評測供業界及大學術界作為參考。其中, SuperCLUE 是一個專注於中文語言理解基准測評(CLUE)的研究機構。其主要內容體系包括代表性的數據集、基線(預訓練)模型、語料庫、論文、工具包,以及排行榜。 SuperCLUE 的主要定位是為了更好地服務中文語言理解、任務和產業界。它作為通用語言模型測評的補充,通過搜集、整理和發布中文任務及標準化測評等方式,旨在完善基礎設施,最終促進中文NLP(自然語言處理)的發展。

根據其最近的更新, SuperCLUE 在2023年10月發布了新的榜單,涵蓋了20個國內外最具代表性的模型。這次 GPT-4 模型在各項評估標準下的表現都遠遠領先其競爭者。透過對比不同模型的得分和能力,我們將探討 GPT-4 為何能持續領先,以及這一領先地位對人工智能領域和相關行業的影響。

GPT-4 在 SuperCLUE 總排行榜上的表現

SuperCLUE中文大模型總排行榜-2023年10月

資料來源:SuperCLUE, Leggie 製表

根據 SuperCLUE 總排行榜的最新數據, GPT-4 模型在2023年10月持續保持領先地位。其總分遠超過其他競爭模型,包括 Claude2 、 GPT-3.5 等。這一優越表現主要得益於 GPT-4 在多個評估標準下的出色表現,特別是在OPEN多輪開放問題和OPT三大能力客觀题方面。

OPEN 多輪開放問題

OPEN 多輪開放問題這一評估標準下, GPT-4 的得分遠超過其他模型。這一方面主要評估模型在開放式問答任務上的能力,包括理解問題、生成合適的回答以及進行多輪對話。 GPT-4 在這方面的高得分表明其具有出色的語言理解和生成能力,這也是其能在總排行榜上保持領先地位的重要因素之一。

OPT 三大能力客觀題

OPT三大能力客觀题主要評估模型在理解、生成和推理等方面的綜合能力。根據 SuperCLUE 的數據, GPT-4 在這一方面也表現出色,得分遠高於其他競爭模型。這一高得分不僅證明了 GPT-4 在語言處理方面的優越性,也反映了其在特定任務和應用場景下的實用性和可靠性。

其他模型的表現

Claude2 、 GPT-3.5 等模型的總分和各項得分

除了 GPT-4 之外,其他模型如 Claude2 和 GPT-3.5 也在 SuperCLUE 總排行榜上有所表現,但相對較弱。 Claude2 在 OPEN 多輪開放問題和 OPT 三大能力客觀題方面的得分均低於 GPT-4 ,但在某些特定任務上表現不俗。 GPT-3.5 則在總分上稍遜一籌,主要因為其在多輪對話和推理能力方面的限制。

中國大陸的模型表現

在中國大陸的模型方面,目前尚未有能與 GPT-4 相媲美的模型出現。大多數模型在 SuperCLUE 總排行榜上的表現相對平平,主要集中在中下游位置。然而,值得注意的是,中國大陸的研究機構和企業正在積極投入資源和研發,希望能夠縮小與領先模型之間的差距。

GPT-4 領先的意義

GPT-4 的領先地位不僅是技術成就的象徵,更具有深遠的行業影響。在 AI 領域, GPT-4 的出色表現為自然語言處理技術設定了新的標準,推動了相關研究和應用的快速發展。在商業應用方面, GPT-4 的多樣性和高效性使其在多個行業,包括但不限於金融、醫療、數位行銷等,都有廣泛的應用前景。其領先地位也吸引了大量的投資和合作,進一步加速了 AI 技術在各個領域的普及和應用。

結語

儘管 GPT-4 目前領先,但 AI 領域的快速發展意味著未來仍有可能出現更強大的模型或新的技術突破。我們可以期待模型將在多模態能力、即時反應、以及更高的自適應性方面有所進步。此外,隨著更多的研究機構和企業加入競爭,模型的優化和應用將更加多元,也可能會出現專為特定行業或任務定制的大模型。

參考資料

如何透過修改 Seed 讓 DALL-E 3 逐步生成完美圖片

人工智能已經成為了我們日常生活中不可或缺的一部分。其中, DALL-E 3 作為一個先進的圖像生成模型,它能夠根據用戶的描述生成高質量的圖片,為創意和設計領域帶來了革命性的變革。然而,要想充分發揮 DALL-E 3 的潛力,了解如何通過修改 Seed 來逐步生成完美的圖片是至關重要的。本文將深入探討這一過程,提供一個詳細的指南,幫助用戶更好地利用這一強大工具。

修改 Seed 的重要性

在 DALL-E 3 的圖像生成過程中, Seed 扮演著關鍵的角色。它是一個通過 DALL-E 3 生成的每個圖片唯一的編號,通過對其進行修改,我們可以影響模型的輸出,從而生成更符合我們期望的圖片。修改 Seed 不僅可以提高圖片的質量,還可以使生成的圖片更加多樣化和創意。因此,掌握如何有效地修改 Seed 是達到最佳創作效果的關鍵。

實際操作

為了更好地理解如何透過 Seed 優化圖片,我們將通過一個實際的例子來進行操作。請注意,雖然可以使用中文跟 DALL-E 3 溝通製作圖片,但由於目前 DALL-E 3 對中文 prompt 的理解仍不理想,涉及較為精細的圖片修改時,往往會獲得糟糕的結果。所以以下的實際示範,我們先以 Google 翻譯將 prompt 翻譯成英文,再使用英文指示 DALL-E 3 製作圖片。

假設我們是一個旅行社業者,我們想要製作一張用於”日本京都清水寺”觀光的廣告圖片。依照我們過往的經驗,使用日本年輕女性在景點前微笑並介紹景點的設計能夠獲得較高的點擊率。根據這個想法,我們開始指示 DALL-E 3 製作圖片,初始 prompt 如下:

A young Japanese woman stood in front of Kiyomizu Temple in Kyoto, pointing her hand up and back at Kiyomizu Temple, showing a sweet smile.

輸出:

Here are the images based on your description. I hope you find them satisfactory! If you have any feedback or would like further modifications, please let me know.

生成圖片1

prompt: Photo of a young Japanese woman standing in front of the iconic Kiyomizu Temple in Kyoto. She points her hand up and back towards the temple, wearing a gentle smile on her face. The historic wooden temple structure is visible behind her, with lush green trees surrounding the area.

生成圖片2

prompt: Illustration of a Japanese woman in her twenties, with long black hair, standing against the backdrop of Kiyomizu Temple in Kyoto. She gracefully points her hand upwards towards the temple’s roof, her face glowing with a soft smile. The temple’s wooden architecture and nearby greenery create a serene atmosphere.

生成圖片3

prompt: Photo of a Japanese woman, dressed in modern attire, posing in front of Kiyomizu Temple. She points her hand up, directing attention to the temple’s historic architecture, while offering a warm smile to the camera. The surroundings are calm with the temple’s traditional design and green vegetation.

生成圖片4

prompt: Watercolor painting of a young Japanese lady standing in front of the scenic Kiyomizu Temple in Kyoto. She gestures with her hand towards the temple, her face illuminated with a gentle smile. The temple’s intricate woodwork and the nearby trees form a picturesque background.

DALL-E 3 生成了4張製作精美的圖片,從真實照片、插畫、水彩風格的都有。我們比較喜歡第2張圖片美女的姿勢跟背景,但是這張圖是插畫風格,不是我們期待的真實照片。所以我們輸入 prompt 詢問 GPT-4 這張圖的編號:

Please tell me the seed of picture 2

輸出

The seed for picture 2 is 1298462994. If you'd like to modify or regenerate the image using this seed, please let me know how you'd like to proceed!

取得 Seed 編號後,接下來就可以開始優化這張圖片,輸入 prompt :

Please use the poses and background of seed 1298462994 and change them to real photos

輸出

Here's the modified image based on your request. I hope it meets your expectations! If you have any other requests or feedback, please let me know.

修改後的圖片

prompt: Photo of a Japanese woman in her twenties, with long black hair, standing against the backdrop of Kiyomizu Temple in Kyoto. She gracefully points her hand upwards towards the temple’s roof, her face glowing with a soft smile. The temple’s wooden architecture and nearby greenery create a serene atmosphere.

看起來比較接近我們的期待了。但是我們發現兩個問題:一是美女的手勢不太對,我們希望他掌心向上往上比,而不是伸出食指往上比;二是美女的皮膚塑膠感太重不自然。

於是我們再次優化照片,輸入 prompt :

seed 1298462994 Please do not extend the fingers of the person in this photo. Please keep your palms flat and facing upward. Please adjust the skin of the person to be more natural.

輸出

Here's the adjusted image based on your specifications. I hope it aligns with your vision! If there are any further changes you'd like or if you have other feedback, please let me know.

修改後的圖片

prompt: Photo of a Japanese woman in her twenties, with long black hair, standing against the backdrop of Kiyomizu Temple in Kyoto. She holds her hand with a flat palm facing upward, her face glowing with a soft smile. The temple’s wooden architecture and nearby greenery create a serene atmosphere, and her skin appears natural and radiant.

是不是比上一張漂亮多了?不但手勢符合我們預期,而且皮膚感覺也比較像真人美肌之後的樣子。

這時公司的廣告投放剛好路過,馬上表達他的修改意見。因為這張圖是要拿到 Facebook 做投放的,他希望能夠把這張照片的比例修改成 16:9。這時我們只好繼續優化這張照片,輸入 prompt :

Please change the format of the photo seed 1298462994 to 16:9

輸出

I've adjusted the image to the 16:9 format as you requested. I hope it meets your requirements! If you have any other requests or feedback, please let me know.

修改後的圖片

prompt: Photo of a Japanese woman in her twenties, with long black hair, standing against the backdrop of Kiyomizu Temple in Kyoto. She holds her hand with a flat palm facing upward, her face glowing with a soft smile. The temple’s wooden architecture and nearby greenery create a serene atmosphere, and her skin appears natural and radiant.

展開圖片之後美女的手勢變得更豐富了,而且也呈現出更多背景細節。

這時強迫症的主管剛好路過,他對這張圖左上角稀疏的白色天空很不順眼,馬上說必須改掉!於是,我們再次優化圖片,輸入 prompt :

seed 1298462994 Please adjust the background slightly so as not to expose the white edges.

輸出

I've made the adjustment to the background as you requested, ensuring there are no white edges. I hope this meets your expectations! If you have further feedback or any other requests, please let me know.

最終完成圖片

prompt: Photo of a Japanese woman in her twenties, with long black hair, standing with a full background of Kiyomizu Temple in Kyoto, ensuring no white edges are visible. She holds her hand with a flat palm facing upward, her face glowing with a soft smile. The temple’s wooden architecture and nearby greenery create a seamless and serene atmosphere, and her skin appears natural and radiant.

這次的結果確實把白邊消除了,美女的肩膀更自然,而且寺廟的位置擺放得更為理想。終於可以拿去做廣告了。

以上就是實際操作的完整過程。讀者可以根據自己工作的需求利用此方法與 DALL-E 3 互動生成自己想要的圖片。

結語和未來展望

在本文中,我們詳細探討了如何透過修改 Seed 來優化 DALL-E 3 生成的圖片質量。通過一系列的步驟和策略,我們了解了如何細緻地調整 prompt ,選擇合適的圖像樣本,並通過實際操作來展示修改 Seed 的過程和效果。

結語

  1. 精確調整: 修改 Seed 是一個需要精確調整和細心觀察的過程,每一個小的變化都可能對最終生成的圖片產生重大影響。
  2. 保存和比較: 在整個過程中保存不同階段的設置和結果,對於找到最佳參數配置和理解每個參數的影響至關重要。
  3. 耐心實驗: 修改 Seed 參數並獲得滿意結果需要時間和耐心,不斷實驗和調整是達到最佳效果的關鍵。

未來展望

  1. 技術進步: 隨著人工智能和機器學習技術的不斷進步,我們期待未來將有更多先進的工具和方法來協助用戶更加精確地修改 Seed 並生成高質量的圖片。
  2. 用戶友好性: 目前修改 Seed 的過程可能對於初學者來說較為複雜,期待未來會有更多用戶友好的界面。

進一步閱讀

  1. 直接複製!使用 DALL-E 3 新增的67種圖片風格,解放 AI 創作潛能 (附實例)
  2. DALL-E 3 新功能與實踐指南
  3. GPT-4V 進階:透過 GPT-4V 讓 DALL-E 3 以文生圖創造風格近似的作品
  4. 如何利用 Negative Prompt 優化 DALL-E 3 圖像生成
  5. 如何用 Gen ID 讓 DALL-E 3 輸出相同風格的圖片
  6. 如何在 DALL-E 3 中將數種不同物體融合為一
  7. 如何在 DALL-E 3 的圖片上增加文字
  8. 六種適用於東方特色的 DALL-E 3 創作風格
  9. DALL-E 3 中的光線參數 (上)
  10. DALL-E 3 中的光線參數 (下)
  11. DALL-E 3 的角度參數及其影響