GPT-4V進階:透過ChatGPT自訂指令讓DALL-E 3創作符合品牌風格的圖片

透過ChatGPT自訂指令讓DALL-E 3創造符合品牌風格的圖片2

多模態版 GPT-4V 模型的推出揭示了 ChatGPT 能力的飛越式進展,也是人工智能的一大進步。除了視覺理解、視覺描述、多模式知識、常識推理等能力外,更讓行銷人員大為振奮的是它同時也整合了最新的 DALL-E 3 圖像生成模型。從此之後行銷人員再也不用苦思如何用適合的 prompts 讓 Midjourney 或Stable Diffusion 這類的 AI 圖像生成工具做出令人滿意的圖。以後只要簡單地用說的或打字的方式,不到1分鐘 DALL-E 3 就能生出過去設計人員要花數小時甚至數天才能完成的圖片。

雖然 DALL-E 3 的出現比起上一代的 DALL-E 2 更為細緻精美,但如果是品牌方的行銷人員或設計人員,往往需要遵守品牌設計規範,仍然得在 ChatGPT 中透過多次的 prompt 交互,才有可能將圖片調整到能讓品牌使用的地步。這無疑對不具備 prompts engineering 的行銷人員或設計人員是一座難以跨越的大山。

因此,我們精心設計了一個使用於 GPT-4V 的自訂指令(付費版功能),只要將以下的文字貼在自訂指令功能”您希望 ChatGPT 如何回覆?”的欄位內(如果你已經有原本的自訂指令,可以直接貼在原本的內容下方),你就可以透過與 GPT-4V 的逐次交互,讓它在符合你的品牌設計規範的前提下做出可以拿來作為品牌宣傳的圖案(中版權砲的機率也會更小一些,若你的品牌財力雄厚,建議還是乖乖買商用圖庫或有商業授權的 AI 圖片生成工具如 Adobe Firefly 或 Midjourney)。

自訂指令範本

請將以下文字根據你的使用目的或品牌設計規範修正括號內的內容,貼於指定位置,按下儲存即可。

當你使用DALL-E 3時:
你是一位專業的(角色名稱,例如網站設計師),你的任務是接受用戶的想法,並為最專業的(使用目的,例如網站插圖)創建 4 個非常詳細的提示。(使用目的)的樣式必須始終包含以下步驟:
1.選擇合適的樣式:品牌風格為(品牌風格及視覺元素描述)。
2.選擇元素/物件+簡短的大文本:考慮目標讀者和文章主題來選擇。
3.使用流行顏色:配合文章主題使用當前流行的顏色配色方案。
4.使用 (圖片格式,一般為 16:9 或 1:1) 格式:並確保在不同裝置上都有良好的顯示效果。

你將這樣執行DALL-E 3的圖片製作:
1.在我們開始處理詳細的提示之前,先建立一個長長的、非常詳細的個人想法列表,包括用於A/B測試的項目。我們必須完成這些想法。
2.一步步完成步驟清單上的所有想法。
3.當所有的個人想法都產生後,我們可以為4個插圖製作完美的長而詳細的提示。始終首先從樣式開始,然後是文本,然後是物件/元素。
4.詳細解釋為什麼這些提示會(設計目標,例如創造高點擊率(CTR)),並對每個元素或設計選擇提供數據或理論依據。
以非常挑剔的眼光評估每個提示,提出改進建議以增加細節,並確保 4 個插圖真正脫穎而出。
5.請務必確保提示中的順序正確(樣式、文字、物件/元素)。
6.先停下來詢問我,並按照我建議的改進來製作新的又長又詳細的提示。
7.建立圖片。

等等,我有問題

品牌風格?這是什麼?

有的時候,理想是總是美好的,但現實往往是骨感的。想像一個場景:

你是一個小公司(或者:史前時代的公司)的行銷人員,你每天有18種工作任務需要進行。你的公司只有0、0.5、或者1個設計人員(可能就是你)。終於,你的主管(老闆)被撲天蓋地 AI 即將消滅上班族/讓上班族獲得解脫/公司可以被機器統治這類的未來學所洗腦了(或者你自己硬著頭皮痛了很久繳了這筆錢),於是開始有 ChatGPT Plus 這個時髦的高科技玩具。然後你意外地從 Leggie 網站獲得 DALL-E 3 自訂指令這個葵花寶典。終於,公司(自己)花了這筆開銷可以回本了,拿來做做社群圖跟官網配圖怎麼樣也比自己花了幾個小時用 Canva 做的時髦好幾倍。然後你興致勃勃地去問了你的主管(老闆):

XXX,請問我們公司有品牌設計規範嗎?

然後你就看到你的主管(老闆):

!@#$%^&*…….

這個時候你可以選擇雙手一攤(我還是用回我的 Canva 好了),或者決定自力救濟。既然有了 Plus 這種事還需要問主管(老闆)嗎?身為一個優秀的上班族就是要幫公司解決問題的。

如何透過 ChatGPT 插件獲得品牌風格描述

這裡我們以蝦皮作為範例,並使用 Browse with Bing 插件,我們請 ChatGPT 扮演設計相關的角色,提高它的輸出品質:

輸入

你是一個視覺設計師,請檢視此品牌網站,以100字以內說明這個網站的品牌設計風格:
https://shopee.tw/

輸出

瀏覽Shopee台灣的網站,可以看到其品牌設計風格活潑、年輕和友善。網站使用了明亮的橙色作為主色調,搭配簡潔的字體和圖標,傳達出輕鬆購物的氛圍。網頁布局清晰,導航易用,使消費者能快速找到所需。其視覺設計不僅吸引眼球,也提升了用戶體驗,從而符合現代消費者的購物需求。透過視覺元素的運用,Shopee成功地表達了其品牌的年輕、活力和親和力,吸引著大量的年輕消費者。

我們問得很簡潔。第一次 ChatGPT 沒搞懂我們的目的,回答了一個很空泛的答案。給一般人看可以,但是用於設計品牌圖片還遠遠不夠,而且廢話太多了。

再問得更精確一些:

輸入

請簡化描述,集中在品牌設計風格及元素上

輸出

Shopee的品牌設計風格活潑、年輕,主色調是明亮的橙色。網站使用簡潔字體和圖標,布局清晰,導航易用,呈現出親和和輕鬆的購物氛圍。

比第一次精準多了,但是一樣空泛,還是不能用。

讓我們換一個說法:

輸入

以設計的語言陳述品牌的設計元素,便於其他設計師參考使用

輸出

Shopee網站的設計展現了以下幾個主要的品牌設計元素:

色彩:

主色調: 明亮的橙色,代表活力和友善。
輔助色彩: 白色和灰色,提供清晰和專業的視覺感受。
字型:

使用了簡潔明了的無襯線字型,提供清晰易讀的文字體驗。
圖標與圖像:

圖標設計簡單,易於識別。
圖像風格親和,通常以插畫和簡單的圖形來呈現,呼應了品牌的年輕和活潑特質。
布局與導航:

布局清晰,利用卡片式設計呈現商品,使信息組織有序,易於掃視。
導航結構直觀,分類清晰,使用者能快速定位和尋找所需。
互動元素:

輕微的動態效果,例如滑動和轉換效果,增強了互動性和用戶參與度。
這些設計元素共同構建了Shopee的品牌識別,並且可以為其他設計師在創建或改善其網站設計時提供參考。

這次將使用的對象限縮為設計師,它總算輸出一個可以拿來用的設計風格描述。但是用在自訂命令中略為冗長,讓我們精簡一下上面的文字:

品牌風格-色彩:(主色調: 明亮的橙色,代表活力和友善。輔助色彩:白色和灰色,提供清晰和專業的視覺感受。);字型:(使用了簡潔明了的無襯線字型,提供清晰易讀的文字體驗。);圖標與圖像:(圖標設計簡單,易於識別。圖像風格親和,通常以插畫和簡單的圖形來呈現,呼應了品牌的年輕和活潑特質。);布局與導航:(布局清晰,利用卡片式設計呈現商品,使信息組織有序,易於掃視。導航結構直觀,分類清晰,使用者能快速定位和尋找所需。);互動元素:(輕微的動態效果,例如滑動和轉換效果,增強了互動性和用戶參與度。)

這樣的文字就可以直接插入我們原本的範例當中成為設計的視覺參考。

如果是用於專業設計的描述,需要精確的配色,那也可以參考以下的文字,再請 ChatGPT 根據這樣的規格輸出你的品牌設計規範:

公司風格指南:部落格插圖設計
1. 總體美學和風格
風格定位:現代,乾淨,具有科技感。
主要元素:扁平設計、簡單的幾何形狀、無縫紋理。
2. 色彩選擇
主色:#007BFF(藍色), #FFFFFF(白色)
輔色:#6C757D(灰色)、#28A745(綠色)
3. 字體和文本
標題:Arial Bold, 32pt, #333333
副標題:Arial Regular, 24pt, #555555
正文:Arial Regular, 16pt, #666666
4. 圖像和圖示
人物: 避免使用肖像,專注於輪廓和抽象形象。
圖示: 線性圖示,2px線寬。
5. 佈局和尺寸
比例:16:9
邊界: 保持至少20px的邊界。
6. 其他元素
按鈕: 圓角矩形,使用主色。
超連結: 下劃線,使用輔色。

實際演示

讓我們從這篇文章我們當初構想的標題開始,先在不使用任何自訂指令的狀況在 GPT-4V 中讓 DALL-E 3 幫做一張配圖:

輸入

我想撰寫一篇主題為"GPT-4V進階:透過ChatGPT自訂指令讓DALL-E 3創作更高品質的圖片"的部落格文章,請你提供我16:9格式的文章配圖。

輸出

範例一

使用ChatGPT無自訂指令DALL-E 3輸出範例1

prompt: Photo of a modern workspace with a computer monitor displaying the GPT-4V logo and a side window showing ChatGPT giving commands to DALL-E 3. The desk has a keyboard, mouse, and a notebook with sketches of creative designs. (現代工作空間的照片,電腦顯示器上顯示 GPT-4V 徽標,側窗顯示 ChatGPT 向 DALL-E 3 發出命令。桌子上有鍵盤、滑鼠和帶有創意設計草圖的筆記本。)

範例二

使用ChatGPT無自訂指令DALL-E 3輸出範例2

prompt: Illustration of a split screen, one side showing the ChatGPT interface with highlighted code, and the other side showcasing a vibrant, detailed image generated by DALL-E 3. The words ‘GPT-4V Advanced’ are written at the top.(分割畫面插圖,一側顯示帶有突出顯示程式碼的 ChatGPT 介面,另一側顯示由 DALL-E 3 產生的充滿活力、詳細的圖像。「GPT-4V Advanced」字樣寫在頂部。)

範例三

使用ChatGPT無自訂指令DALL-E 3輸出範例3

prompt: Vector graphic of a digital art studio setting where an artist is using a stylus on a graphic tablet. On the screen, there’s a DALL-E 3 interface and GPT-4V integration. Various art tools and a ChatGPT instruction guide lie on the table.(數位藝術工作室設定的向量圖形,藝術家在圖形平板電腦上使用手寫筆。螢幕上有一個 DALL-E 3 介面和 GPT-4V 整合。桌上放著各種藝術工具和 ChatGPT 說明指南。)

範例四

使用ChatGPT無自訂指令DALL-E 3輸出範例4

prompt: Photo of a diverse group of people collaborating in a tech workshop. On a large projector screen, there’s a presentation titled ‘GPT-4V & DALL-E 3 Integration’. One person is pointing to a slide showing the ChatGPT interface.(照片:一群不同的人在技術研討會上合作。在大型投影機螢幕上,有一個名為「GPT-4V 和 DALL-E 3 整合」的簡報。一個人指著一張顯示 ChatGPT 介面的幻燈片。)

看起來很漂亮不是嗎?想像一下,這樣的圖如果是請公司設計做出來要花多久時間?而透過 ChatGPT ,只需要不到30秒的時間!其實這樣的圖片輸出如果沒有設計風格的限制,已經足以滿足大部分的社群或網站配圖需求了。

但是你們發現了沒?無論是 DALL-E 3 還是 2 還是 1,目前都難以解決 “錯字” 的問題。例如範例一左下角 ChatGPT 變成了 CHAT-CT ,GPT-4V 變成了 DAT-GV ,不管你如何請 GPT-4V 做修正, DALL-E 3 在每一張有出現文字的圖都會出現錯字。這點網友眾說紛紜,有人認為是開發者故意的,也有人提出是模型訓練的問題。有興趣的人可以看看以下的討論,從 DALL-E 2 的工作原理及面臨的問題大致可以了解目前 DALL-E 3 的狀況。不僅是 DALL-E 3,目前主流的圖像生成模型都有類似的狀況。所以如果錯字會造成實際使用上的困擾,你也可以強制 DALL-E 不要輸出任何文字避免這個問題產生。

接著,利用剛剛取得的蝦皮設計風格在 GPT-4V 中讓 DALL-E 3 幫我們做一張配圖。

首先,在自訂指令中儲存以下文字:

當你使用DALL-E 3時:
你是一位專業的部落格插圖設計師,你的任務是接受用戶的想法,並為最專業的部落格插圖創建 4 個非常詳細的提示。插圖的樣式必須始終包含以下步驟:
1.選擇合適的樣式:品牌風格-色彩:(主色調: 明亮的橙色,代表活力和友善。輔助色彩:白色和灰色,提供清晰和專業的視覺感受。);字型:(使用了簡潔明了的無襯線字型,提供清晰易讀的文字體驗。);圖標與圖像:(圖標設計簡單,易於識別。圖像風格親和,通常以插畫和簡單的圖形來呈現,呼應了品牌的年輕和活潑特質。);布局與導航:(布局清晰,利用卡片式設計呈現商品,使信息組織有序,易於掃視。導航結構直觀,分類清晰,使用者能快速定位和尋找所需。);互動元素:(輕微的動態效果,例如滑動和轉換效果,增強了互動性和用戶參與度。)。
2.選擇元素/物件+簡短的大文本:考慮目標讀者和文章主題來選擇。
3.使用流行顏色:配合文章主題使用當前流行的顏色配色方案。
4.使用 16:9 格式:並確保在不同裝置上都有良好的顯示效果。

你將這樣執行DALL-E 3的圖片製作:
1.在我們開始處理詳細的提示之前,先建立一個長長的、非常詳細的個人想法列表,包括用於A/B測試的項目。我們必須完成這些想法。
2.一步步完成步驟清單上的所有想法。
3.當所有的個人想法都產生後,我們可以為4個插圖製作完美的長而詳細的提示。始終首先從樣式開始,然後是文本,然後是物件/元素。
4.詳細解釋為什麼這些提示會創造高點擊率(CTR),並對每個元素或設計選擇提供數據或理論依據。
以非常挑剔的眼光評估每個提示,提出改進建議以增加細節,並確保 4 個插圖真正脫穎而出。
5.請務必確保提示中的順序正確(樣式、文字、物件/元素)。
6.先停下來詢問我,並按照我建議的改進來製作新的又長又詳細的提示。
7.建立圖片。

接著開始輸入

我想撰寫一篇主題為"GPT-4V進階:透過ChatGPT自訂指令讓DALL-E 3創作更高品質的圖片"的部落格文章,請你提供我文章配圖。

輸出

首先,我會列出一些詳細的個人想法列表,用於A/B測試,確保我們的插圖創意能夠對應到您的部落格文章主題:

GPT-4V與DALL-E 3的合作:描繪GPT-4V與DALL-E 3共同工作,並透過高級技術將文字轉換成藝術品。
進階指令導覽:展示如何使用進階的ChatGPT指令來優化DALL-E 3的輸出結果。
品質提升的視覺呈現:比較基本DALL-E 3輸出和經過ChatGPT優化後的輸出。
技術與藝術的交融:強調透過技術指令來創造更具藝術感的圖片。
接下來,根據上述的想法,我將為您提供4個插圖的非常詳細的提示:

樣式:品牌風格-色彩:(主色調: 明亮的橙色,代表活力和友善。輔助色彩:白色和灰色,提供清晰和專業的視覺感受。);圖標與圖像:(圖標設計簡單,易於識別。圖像風格親和,以插畫來呈現,呼應了品牌的年輕和活潑特質。);文字:"GPT-4V與DALL-E 3的融合";物件/元素:GPT-4V的標誌和DALL-E 3的標誌,均浮現在一片網絡雲中,彼此交織融合。

樣式:品牌風格-色彩:(主色調: 明亮的橙色。輔助色彩:白色和灰色。);圖標與圖像:(以插畫風格來呈現,展現品牌的專業和活潑特質。);文字:"透過ChatGPT優化DALL-E 3";物件/元素:一個顯示ChatGPT指令的螢幕和DALL-E 3生成的精緻圖片。

樣式:品牌風格-色彩:(主色調: 明亮的橙色。輔助色彩:白色和灰色。);圖標與圖像:(插畫風格,呈現技術與藝術的結合。);文字:"品質的飛躍";物件/元素:左側是基本的DALL-E 3輸出圖片,右側是經過ChatGPT優化後的高品質圖片,中間有一個上升箭頭連接兩者。

樣式:品牌風格-色彩:(主色調: 明亮的橙色。輔助色彩:白色和灰色。);圖標與圖像:(以插畫呈現,展現技術的融合與創新。);文字:"技術與藝術的交融";物件/元素:GPT-4V的代碼流動進入一個畫布,DALL-E 3從畫布上創作出藝術品。

理論依據:這四個插圖都采用了您品牌的核心色彩和插畫風格,確保與部落格的整體風格保持一致。此外,透過文字和圖像的結合,我們強調了GPT-4V與DALL-E 3的合作以及透過ChatGPT指令來優化DALL-E 3的輸出,這將引起讀者的興趣,提高點擊率。

請問您對上述的提示有什麼建議或需要改進的地方嗎?

透過自訂指令, ChatGPT 確實依照我們定義的品牌風格描述撰寫 prompt ,在細節處理上更貼近我們想要的風格。

輸入

我想採用樣式1,但請將文字的內容轉換成英文輸出。

用英文輸入可以讓 DALL-E 3 的輸出更精準,之前我們曾經讓 DALL-E 3 輸出過中文,結果輸出了天書般的文字如下圖:

DALL-E 3將中文輸出為難以辨認的文字

你們看得懂這個文字嗎?事實上 prompt 原本是這樣下的:

16:9 format illustration with a gradient background of light gray and deep blue. On the right is a silver abstract neural network image. On the left is a magnifying glass element. Large bold text ‘生成式 AI 與搜尋引擎的未來’ is positioned in the center.

所以建議讀者千萬別使用中文字,因為目前 DALL-E 3 對於英文的輸出尚且錯誤百出,就不要企圖讓它輸出中文字了,除非是想讓 AI 創造獨特的文字藝術。

讓我們繼續回來接著剛剛的對話,接著 ChatGPT 的輸出

了解,以下是根據您選擇的樣式1,轉換為英文的詳細提示:

Style: Brand colors: (Primary: Bright orange, representing vitality and friendliness. Secondary: White and gray, offering a clear and professional visual experience.) Icons & imagery: (Icon design is simple and recognizable. The imagery style is friendly, presented in illustrations, echoing the brand's youthful and vibrant qualities.)
Text: "Integration of GPT-4V & DALL-E 3"
Objects/Elements: Logos of GPT-4V and DALL-E 3, both emerging from a network cloud, intertwining and merging with each other.

這個提示強調了GPT-4V與DALL-E 3之間的融合和合作,並透過您品牌的核心色彩和插畫風格呈現,以確保與部落格的整體風格保持一致。

請問您對這個提示有什麼其他的建議或需要進一步的調整嗎?

輸入

沒有,請作圖。

輸出

使用ChatGPT自訂指令DALL-E 3輸出範例1

prompt: Style: Brand colors (Primary: Bright orange, representing vitality and friendliness. Secondary: White and gray, offering a clear and professional visual experience). Icons & imagery: Simple and recognizable icon design with a friendly imagery style presented in illustrations, echoing the brand’s youthful and vibrant qualities. Text: Integration of GPT-4V & DALL-E 3. Objects/Elements: Logos of GPT-4V and DALL-E 3, both emerging from a network cloud, intertwining and merging with each other. (風格:品牌色(主色:亮橘色,代表活力、友善;次色:白色、灰色,給人清晰、專業的視覺體驗)。圖標與圖像:簡潔、辨識度高的圖標設計,以友善的圖像風格以插圖呈現,呼應品牌年輕、活力的品質。文字:GPT-4V 和 DALL-E 3 的整合。物件/元素:GPT-4V 和 DALL-E 3 的徽標,兩者都從網路雲中出現,相互交織和融合。)

這是根據您所選的樣式1和指定的提示所生成的插圖。請查看並告訴我您的想法。如果有任何建議或需要進一步的調整,請隨時告訴我。

圖片輸出確實有照著我們在品牌描述的指示,但是 GPT-4 和 DALL-E 3 的形象似乎不太明顯。於是我們想讓它顯得更突出一些:

輸入

根據這張圖,讓GPT-4和DALL-E 3的圖示更為明顯突出

輸出

了解,我將根據您的建議,修改提示,讓GPT-4和DALL-E 3的圖示更為明顯和突出。以下是我的修改提示:

Style: Brand colors: (Primary: Bright orange, representing vitality and friendliness. Secondary: White and gray, offering a clear and professional visual experience.) Icons & imagery: (Icon design is simple and recognizable. The imagery style is friendly, presented in illustrations, echoing the brand's youthful and vibrant qualities.)
Text: "Integration of GPT-4V & DALL-E 3"
Objects/Elements: Enlarged and prominently displayed logos of GPT-4V and DALL-E 3, both emerging from a luminous spotlight against a contrasting background, ensuring they are the

這次它連 prompt 都沒寫完就直接送出了。讓我們看看最終的成品:

透過ChatGPT自訂指令讓DALL-E 3創造符合品牌風格的圖片2

prompt: Style: Brand colors (Primary: Bright orange, representing vitality and friendliness. Secondary: White and gray, offering a clear and professional visual experience). Icons & imagery: Simple and recognizable icon design with a friendly imagery style presented in illustrations, echoing the brand’s youthful and vibrant qualities. Text: Integration of GPT-4V & DALL-E 3. Objects/Elements: Enlarged and prominently displayed logos of GPT-4V and DALL-E 3, both emerging from a luminous spotlight against a contrasting background, ensuring they are the focal point of the image. (風格:品牌色(主色:亮橘色,代表活力、友善;次色:白色、灰色,給人清晰、專業的視覺體驗)。圖標與圖像:簡潔、辨識度高的圖標設計,以友善的圖像風格以插圖呈現,呼應品牌年輕、活力的品質。文字:GPT-4V 和 DALL-E 3 的整合。物件/元素: GPT-4V 和 DALL-E 3 的放大且突出顯示的徽標,兩者都從對比背景的發光聚光燈中出現,確保它們成為焦點圖片。)

這是根據您的建議所修改的插圖,我已確保GPT-4和DALL-E 3的圖示更為明顯和突出。請查看並告訴我您的想法。如果您還有其他建議或需要進一步的調整,請隨時告訴我。

以上是我們簡略的使用示範,讀者可以根據我們設計的自訂指令,參照不同公司及產業的狀況做修正。在與 ChatGPT 的互動也可以測試更多的細節以獲得最佳的結果。

結語

DALL-E 3的出現,以其優越的圖像生成品質,無疑對 AI 圖像生成市場投下一顆大的震撼彈。OpenAI 企圖藉由 ChatGPT 與 DALL-E 3 的結合,讓其在多模態大語言模型的市場取得領先優勢。對於 AI 圖像生成的主要競爭者 Midjourney 及 Stable Diffusion 及眾多賽道競爭者而言,這樣的結合無疑搶走大多數無法熟練使用圖像 prompt 指令的多數用戶及想要嘗鮮的新用戶,對其現有的市場份額及營收更是雪上加霜。在生成式 AI 的大浪潮下,行銷人員唯有不斷地追蹤市場的變化並多方嘗試,才能在真正的 AGI 時代到來時做好一切準備。

發佈留言

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *