從畫筆到畫素：一文讀懂AI繪畫的前世與今生-今日必看

從畫筆到畫素：一文讀懂AI繪畫的前世與今生

來源：不愛尖叫的雞釋出時間：2023-03-22 16:31

上週，備受期待的 Midjourney V5 AI 藝術生成器正式釋出，再次改變了 AI 驅動的藝術創作世界。它擁有明顯增強的影象質量、更多樣化的輸出、更廣泛的風格範圍，以及對無縫紋理的支援、更寬的寬高比、改進的影象提示、擴充套件的動態範圍等。

下圖是以“埃隆·馬斯克先容特斯拉，90 年代的商業廣告”為 prompt（提示），分別用 Midjourney V4 和 Midjourney V5 天生的影象。

此次滿意人們期待的是，Midjourney V5 帶來了更逼真的圖片天生效果，更有表現力的角度或場景概述，以及終於畫對的“手”。曾經在 AI 繪畫界廣泛流傳的一個笑話是，“永遠不要問一個女人的春秋或一個 AI 模型為什麼要把手藏起來。”

這是因為，AI 藝術生成器是“畫手困難戶”，儘管它們可以把握視覺模式，但不能把握潛伏的生物邏輯。換句話說，AI 藝術生成器可以計算出手有手指，但很難知道一個人的一隻手正常應該只有 5 個手指，或者這些手指之間應該具有固定關係的設定長度。

在過去的一年裡，AI 藝術生成器無法準確渲染手的 “缺陷” 已經成為一種文化修辭。手部題目在一定程度上與 AI 藝術生成器從它們接受練習的大量影象資料集中推斷資訊的能力有關。

值得注意的是，Midjourney V5 可以很好地天生逼真的人手。大多時，手是準確的，一隻手有 5 個手指，而不是 7-10 個。

Midjourney V5 的釋出，引起了全球使用者更廣泛的愛好激增，巨大流量的湧入使得 Midjourney 伺服器短時間崩潰，進而導致眾多使用者無法訪問。除此之外，OpenAI 的 DALL·E 2、Stability AI 的 Stable Diffusion 等 “文生圖” 模型此前也是業內討論的熱點物件。

當人們向這些 “文生圖” 模型中輸入任何文字後，它們就可以天生與該描述相匹配的、較為正確的圖片，天生的圖片可以被設定為任意風格，如油畫、CGI 渲染、照片等，在許多情況下，獨一的限制來自人類的想象力。

前世：一場從DeepDream開始的夢

2018 年，第一幅由 AI 天生的肖像《Edmond de Belamy》問世，它由天生對抗網路（GAN）建立，是 Obvious Art 的 “La Famille de Belamy” 系列的一部分，終極在佳士得藝術品拍賣會上以 432500 美元成交。

2022 年，Jason Allen 的 AI 創作作品《Théâtre D’opéra Spatial》在科羅拉多州展覽會的年度藝術競賽中獲得了第一名。

近些年，各類 “文生圖” 模型也在人們的期待中紛紛登場。當神經網路在影象處理方面取得了一定的成果後，研究職員們便開始開發一些視覺化技術，以更好地瞭解這些神經網路是如何看待世界並進行分類的，由此塑造了一個又一個 “文生圖” 模型。

DeepDream 根據神經網路學到的表徵來天生影象，在獲取輸入影象後，透過反向執行經過訓練的卷積神經網路（CNN），並試圖透過應用梯度上升來最大化整個層的啟用。下圖（左）顯示了原始輸入影象及其 DeepDream 輸出。

令人驚奇的是，輸出影象中包含了很多動物的面部和眼睛，這是因為 DeepDream 使用了 ImageNet 資料庫（不同犬種和鳥類的例子）來練習。對於一些人來說，DeepDream 天生的影象類似於夢境般的迷幻體驗。但即便如此，DeepDream 加速了人們將 AI 作為藝術影象創作的工具的工作。

Neural Style Transfer 是一種基於深度學習的技術，能夠將一張影象的內容與另一影象的風格相結合，如上圖（右），將梵高的《星夜》應用於目標影象。Neural Style Transfer 重新定義了 CNN 中的損失函式來實現——透過 CNN 的高層啟用儲存目標影象，以及多層啟用來捕獲其他影象的風格。由此，輸出的影象將儲存輸入影象的風格與內容。

2017 年，Wei Ren Tan 等人提出了模型 “ArtGAN”，儘管其輸出的影象看起來完全不像是畫家的作品，但仍然捕捉到了藝術品的低階特徵。由此，ArtGAN 激發了更多研究者使用 GAN 天生藝術影象的愛好。

不久之後，Ahmed Elgammal 等人提出創造性對抗性神經網路 “CAN”，以練習 GAN 天生被鑑別者視為藝術但不符合任何現有藝術風格的影象。由 CAN 產生的影象看起來大多像一幅抽象畫，給人一種獨特的感覺。

2017 年，Phillip Isola 等人建立了前提型 GAN，即 pix2pix，接收輸入影象後天生一個轉換版本。例如，在現實生活中，假設有一個 RGB 影象，我們可以輕鬆將其轉換為 BW （黑白二值影象）版本。但若想要把 BW 影象變成彩色影象，依賴手動上色就很耗時。pix2pix 則可以自動完成這一過程，並應用於任何影象對的資料集，而不需要調整練習過程或損失函式。

上一篇：美團能靠“特... 下一篇：股票質押違約...