AI 影像生成平台 Midjourney 於2025年6月19日正式宣布推出其首款 V1 Video Mode 模型,開啟「AI 視頻」新時代。以「Image‑to‑Video」為核心,使用者可將 Midjourney 生成的靜態影像加入動畫效果,一鍵「Animate」生成動態短片,每次輸出為四段 5 秒鏡頭,並支援延伸功能。這項創新不僅標誌平台從圖片進入視頻領域,更展現其關鍵未來願景:朝向「實時開放世界模擬」踏出重要一步。
Introducing our V1 Video Model. It's fun, easy, and beautiful. Available at 10$/month, it's the first video model for *everyone* and it's available now. pic.twitter.com/iBm0KAN8uy
— Midjourney (@midjourney) June 18, 2025
功能剖析:Image‑to‑Video 動畫流程與使用體驗
Midjourney 官方指出,V1 Video Mode 是從單一靜態影像生成動態視頻的「邁向未來的跳板」,核心流程如下:
- Image‑to‑Video:在 Discord 或 Web 中生成圖像後,按下「Animate」按鈕,即可直接為靜態畫面加入動態效果 。
- 動畫模式分為自動與手動:
- 自動模式(Automatic):由系統模擬出 motion prompt,適合快速生成「趣味動態」。
- 手動模式(Manual):用戶可輸入具體文字描述,精準控制畫面移動方向、速率與視覺展開 。
- 動作強度選擇:
- Low Motion:適合環境靜態為主,主體緩慢移動的場景;適合背景變化與氛圍影片,但可能無明顯動作。
- High Motion:適合主體與鏡頭都有動作的全動態場景,但因高運算可能導致畫面畸變 。
- 延伸長度:預設 5 秒,使用者可按需延長 4 秒一次,最多延展四次,總長最高可達 21 秒 。
此外,V1 還支持將 Discord 外部圖像上傳,設為起始幀,再加入 motion prompt,產生專屬動畫短片。
定價策略:“1 張圖=1 秒影片”的高性價比體驗
Midjourney 創辦人 David Holz 表示,為了讓更多人享受 AI 視頻體驗,V1 初期價格設定與圖像生成相當:估算每秒 1 個圖像成本,整段影像成本約為一張 Midjourney 圖像 。目前尚限於 Web 平台操作,定價策略如下:
- 基礎方案:10 美元/月(Basic),可生成 V1 視頻。
- Pro(60 美元)與 Mega(120 美元):提供 Relax 模式,支持不限次視頻生成(但速度較慢)。
- 視頻成本約為圖像的 8 倍,因為每次生成包含四段 5 秒影片。
- 定價將在 1 個月內依使用情形與伺服負載狀況做動態調整 。
此策略意在快速導入市場測試,同時兼顧平台營運成本與使用者使用體驗。
技術架構與品質聚焦:輸出風格延續靜圖特色
V1 延續 Midjourney 圖像一貫風格:畫面含蓄、有質感,非強求真實,而是追求「美感」和「風格一致性」。技術細節如下:
- 風格保留:系統擅長維持 Midjourney 的視覺美學,影像具有畫面細緻的色彩處理與畫風一致性。
- 動作有限:目前僅支援簡單飄移、推拉、旋轉等動作;高強度動畫可能出現不自然或變形瑕疵 。
- 平台轉換:不同於 Discord 的指令式操作,動畫功能僅提供 Web 版,方便整合進階控制工具及預覽系統。
未來路線圖:走向 3D ⋅ 即時開放世界
Midjourney 官方指出,V1 僅是通往最終願景的重要一環:「未來要達到即時互動的 3D 模擬」永遠是核心目標。接下來幾年將推出四大功能模組:
- 靜態影像 → 已完成
- 視頻模型(Video Mode) → V1 正式上線
- 3D 模型 → 預計明年發布
- 真正的即時運算系統 → 長期目標
透過模組化發展策略,Midjourney 希望先釐清單一技術,再逐步整合,最終形成可互動、創作、模擬的開放世界系統。
市場對抗態勢:與 OpenAI、Runway 等平台正面交鋒
目前市場已有多家 AI 視頻領軍者,Midjourney 正面迎戰:
- OpenAI Sora:主打可控性與品質
- Runway Gen‑4:搭載專業級工具(masking、motion track),適合內容製作專業使用者
- Adobe Firefly:偏重圖像-視頻整合於創作流程
- Google Veo 3:強調速度與AI短視頻生成功能
對比之下,Midjourney 強調「風格一致」與「創意導向」,產品定位為「藝術家與設計師的創作工具」,而非純商業影片製作。這凸顯出其差異優勢與定位清晰性 。
V1 不是終點,而是令人期待的起點
Midjourney 推出的 V1 Video Mode 無疑在 AI 影像圈掀起新話題:它結合平台核心風格與可操作動畫功能,以超高性價比進入 AI 視頻市場。雖非最專業的視頻製作平台,但作為一款快速又具有美學風格的創作工具,其對藝術家與設計師、內容創作者來說具有極高吸引力。
未來把靜態影像拼接到動態圖像、最終實現即時 3D 模擬、構建開放世界的願景仍需時間,但今天這一步已踏出。面對市場競爭與法律訴訟壓力,Midjourney 選擇「美感與創意優先」,試圖以獨特定位在 AI 視頻領域找到自己的位置。
對於有興趣探索 AI 創作的使用者,不妨以低門檻方式嘗試 V1 Video Mode,開啟影像進入動態未來的新旅程。
實際測試
(筆者註:目前影片只支援480p)
原始圖像

Auto Low-Motion
Auto High-Motion
手動控制提示詞
The woman lowered her arms and walked forward with a catwalk. She stepped out of the woods onto a flat highway and began to wriggle and dance. The lens is fixed, the lens is zoomed out, and the woman's whole body is presented in a panoramic view. Natural light shines on the woman's body. Movie scenes, 8K high resolution, showing a woman's charming and moving posture. 女子垂下雙臂,邁著貓步向前。她走出樹林,踏上平坦的公路,開始扭動舞動。鏡頭定格,鏡頭拉遠,女子全身全景呈現。自然光灑落在女子身上。電影場景,8K高清分辨率,展現女子嫵媚動人的姿態。
Manual Low-Motion
Manual High-Motion
延伸手動控制提示詞(增加4秒)
The woman backflips and starts hip-hop. A group of dancers appears on the left and right.女人後空翻,開始跳街舞,左右兩邊分別出現了一群舞者。
Manual Low-Motion-Extend
女主角不太能翻,看似不太能做出太大的動作。
Manual High-Motion-Extend
女主角稍微能翻了,動作幅度較大,可以呈現一些比較激烈的場景。