OpenAI 的 DALL-E 2 AI 對一些藝術家來說是個壞消息

2022/06/23

OpenAI 的 DALL-E 2讓那些認為人工智能永遠不會（或至少不會很快）開始滲透到創造力領域的人感到震驚。但是 DALL-E 2 是為了讓藝術家們忙碌嗎？

DALL-E 2 是如何工作的？

DALL-E 2 令人印象深刻，幾乎感覺像是在變魔術，但它如何創建如此令人驚嘆、栩栩如生的圖像的一般細節並不難理解。

DALL-E 2 由兩個主要組件組成。第一個是GPT-3，它可以說是迄今為止最先進的自然語言機器學習算法。DALL-E 2 還使用另一個 OpenAI 模型，稱為CLIP（對比語言圖像預訓練）。

GPT-3 和 CLIP 允許計算機理解和生成複雜的自然語言。通過使用來自（主要是）互聯網的數十億圖像及其自然語言描述來訓練 DALL-E 神經網絡，它可以學習概念之間的關係。

在某種程度上，DALL-E 與常見的機器學習實踐相反，在這種實踐中，您提供圖像，而 AI 試圖描述它所看到的內容。

想想矽谷電視節目中臭名昭著的“不是熱狗”應用程序。這裡的不同之處在於，不是詢問 AI 圖像是否是熱狗，而是描述熱狗，它會根據它所了解的所有信息創建一個完全原創的熱狗圖像。

DALL-E 的第二個重要部分是它如何生成圖像。它使用一種稱為“擴散”的技術。特別是，使用稱為GLIDE的 OpenAI 模型將理解已創建圖像的人類語言描述轉化為圖像。GLIDE 拍攝一張由隨機生成的噪聲組成的圖像，然後逐漸消除該噪聲，直到它與自然語言中描述的圖像匹配。它有點像雕塑家從一塊大理石開始，然後將其削掉，直到只剩下雕像。

有關 DALL-E 2 的更多技術和詳細描述，我們全心全意地推薦AssemblyAI 深度學習博客上的 DALL-E 2 解釋。

為什麼 DALL-E 2 如此具有革命性

DALL-E 2 遠非第一個能夠生成圖像的機器學習軟件。以前有許多系統，DALL-E 2 建立在從其他項目中吸取的經驗教訓之上。那麼為什麼這次感覺像是一個分水嶺轉折點呢？

一個重要原因是 DALL-E 和 DALL-E 2 製作的圖像美觀。其他 AI 成像系統通常會產生人們描述為令人不安或類似夢境的圖像。這有點像恐怖谷，但對於美術來說。DALL-E 2 創建的圖像顯然具有藝術眼光或背後的某種美感。

因此，DALL-E 2 所創造的圖像可與天才藝術家或攝影師製作的圖像相媲美，這些藝術家或攝影師一生都在培養審美意識。不難想像像這樣的人看著 DALL-E 2 可以在幾秒鐘內產生的圖像，感覺它們即將變得無關緊要。

該系統不僅可以在幾秒鐘內根據自然語言提示創建精美的高分辨率圖像，而且還可以自定義和編輯這些圖像，或者提供現有圖像的多種變體——甚至是用戶提供的圖像。這是否意味著藝術家應該收拾他們的畫架和繪圖板並“學習編碼”？

DALL-E 2 意味著藝術家會改變，而不是消失

OpenAI 一直非常謹慎地向世界展示其技術。這是合理的，因為顯然有很大的濫用空間。然而，既然他們已經證明它是可以做到的，那麼商業或獨立人工智能研究人員將沒有時間複製 DALL-E 所做的事情並將其提供給所有人。機器學習領域的大玩家也有他們的高績效 AI 藝術家等待他們的時間，例如 Google Imagen。

既然潘多拉的盒子無法關閉，我們將不得不接受美術世界將發生不可逆轉的變化，但這並不意味著藝術家已經消失。

一種看待它的方式是，這種技術使得在任何人手中創造藝術成為可能。現在的重點正在從創建圖像的技術能力轉移到準確描述和重複您的視覺的能力，直到您在屏幕上看到的內容與您的想法相符。換句話說，現在更多的人將能夠用視覺表達自己，就像由於計算器的存在，現在更多的人將能夠進行準確的計算一樣。

某些類型的藝術家可能不再有可行的商業模式。如果您通過收費賺取佣金，那麼您將很難與可以根據客戶描述每小時創建數百張圖像並幾乎立即更改這些圖像的程序競爭。相反，您可以使用這些工具來實現自己的願景，然後根據您的感受出售那些獨特的圖像。

顧客永遠是對的

同樣重要的是要記住，最終這些圖像是為人類消費而創建的。我們人類有自己的一套價值觀，超越了便利性和技術卓越性。在一個生成藝術豐富，因此相對便宜和一次性的世界裡，總會有觀眾願意欣賞（和購買）人造藝術，僅僅是因為它相對稀有。

換句話說，像 DALL-E 2 這樣的軟件可能意味著在流水線上以藝術為生的藝術家的終結，但它不太可能削弱那些有話要說和擁有獨特視覺身份的藝術家的前景，通過它你可以說話。

DALL-E 2 是如何工作的？

為什麼 DALL-E 2 如此具有革命性

DALL-E 2 意味著藝術家會改變，而不是消失

顧客永遠是對的

發佈留言 取消回覆

發佈留言取消回覆