04/11/2022
AIGC成科技界新寵!Stability AI、Jasper淡市中獲巨額融資!AI產圖技術到底有何商機?
任何人只要輸入寥寥數字,AI就能畫出符合要求的斑斕畫作,一下子讓美術創作門檻變得極低!在全球經濟不明朗下,投資者態度愈發保守,但這種AI生成圖像技術卻在逆市中備受追捧,相關初創近期陸續傳出完成巨額融資的喜訊:Stability AI取得1.01億美元(約7.88億港元)種子輪投資;Jasper則獲得1.25億美元(約9.75億港元)A輪融資。為甚麼這些AI作畫工具在2022年突然爆紅起來?當中蘊藏的商機到底有幾大呢?
Read More:輸入文字生成大師級作品!AI製圖工具掀新熱潮,背後卻隱藏種族性別歧視、版權問題?
Stable Diffusion模型學習了逾50億幅圖像素材,因而能夠生成輪廓細緻的人像畫作。其訓練數據庫內的圖片主要來自Pinterest、Flickr等圖片社交平台,以及Getty等商業圖庫網站。(圖片來源:Stability AI官網)
AI初創兩年內晉身獨角獸
2022年10月18日,總部位於英國倫敦的AI初創企業Stability AI宣布,已完成由Coatue Management與Lightspeed Venture Partners領投的1.01億美元融資。外界估計,其公司估值已攀升到10億美元(約78億港元),得以晉身獨角獸行列。
Stability AI完成融資的翌日,總部座落於美國德州柯士甸的AI初創Jasper,也拿下由 Insight Partners領投的1.25 億美元投資,令公司估值上漲至15億美元(約117億港元),成為另一家新晉獨角獸公司。
Stability AI創立於2019年,Jasper則創辦於2021年,換言之,它們用了不足兩年時間,便已升格為獨角獸(估值達10億美元或以上的初創);就算以科網產業的發展標準而言,增長速度也非常驚人,這可說是2022年AI產業爆發式成長的縮影。
生成型人工智能爆發式增長
有別於傳統的「分析型人工智能」(Analytical AI),這兩家初創所研發的是「生成型人工智能」(Generative AI)技術,代表著AI不再是分析已存在的事物,而是正在產生全新的東西——「AI生成內容」(Artificial Intelligence Generated Content,AIGC)。
紅杉資本(Sequoia Capital)近日發表一份題為《Generative AI: A Creative New World》的研究報告,預測從2020年至2025年之間,AIGC技術將會變得愈來愈成熟,能夠生成文字、圖片、影片、語音、程式碼、以至遊戲模型等,為設計、遊戲、編程、社交媒體等產業帶來顛覆性的轉變。
AI生成內容意指,基於AI演算法而產生的文字、圖片或影片內容。研發人員收集大量內容樣本讓AI學習,並了解箇中規律,然後根據人類輸入指令,按照不同規律而生成內容。AIGC技術一直存在,但過往卻因技術本身的局限性,故此未受市場注視。
Diffusion擴散模型利用逆轉噪點方式,逐步生成的AI畫作。(圖片來源:CompVis/Github網站)
生成對抗網絡始終未成氣候
2022年以前,AIGC研發團隊主要使用「生成對抗網絡」(Generative Adversarial Networks,GAN)來產出內容。這套演算法模型是讓兩個AI網絡以相互博弈方式進行學習:「生成網絡」從訓練圖庫中隨機取樣作為輸入,其輸出結果需要盡量模仿人類作品;「判別網絡」則要將生成網絡的輸出作品,從真實樣本中盡可能分辨出來。
生成網絡要盡可能地騙過判別網絡,讓判別網絡無法認出生成網絡輸出的是AI作品;如此一來,便可以產生最接近人類創作的圖像。然而最大問題是,AI網絡用作模仿的樣本,均是來自人類創作的現成作品,於是生成內容只是無限仿製既有內容,意味著AI無法「創作」出全新作品。
譬如說,當用戶輸入一些天馬行空的設計意念,如「眼睛長在額頭的人臉」或「騎著由彩虹與烈火構成的單車」等,由於沒有現成作品可供模仿,所以GAN通常就會失效。同時,在操作上,用戶需要輸入自己繪畫的草圖,讓GAN將其轉化為真實的圖像;換言之,如果你不懂得畫畫,便無法有效使用GAN。
Google Imagen先以基礎擴散模型把文字轉化為解像度較低的圖片,然後再用一系列超解像度模型,逐步提升圖片解像度。(圖片來源:Google Research官網)
DALL·E掀起AIGC研究浪潮
後來,因為「Diffusion」與「CLIP」演算法模型出現,解決了GAN的問題,AIGC技術才有機會真正落地使用。Diffusion是一種去噪擴散模型,其原理是先給一幅圖像不斷加入噪點,直到整幅圖完全被白噪音(White Noise)所覆蓋,接著將整個過程逆轉過來給AI學習。
AI所看到的是被噪點遮蓋的圖像,怎樣一點點變清晰,直至回復原本模樣;通過這個類似替相片去除雜訊的學習過程,AI能夠理解圖像是如何逐步繪畫出來。因此,Diffusion模型生成圖像的精確度不但比GAN為高,而且更能符合人類審美邏輯。
CLIP(Contrastive Language-Image Pre-training)是一種基於對比圖片與文字的訓練模型,使用已經標註好的「文字-圖片」數據給AI訓練,讓AI能夠將文字與圖像的意思進行匹配連接。有了CLIP後,才可以實現文字轉化圖像(Text-to-image)的嶄新交互方式,容許用戶輸入文字來驅使AI作畫。
2021年1月,AI研究機構OpenAI整合了Diffusion與CLIP模型,研製出能夠以文生圖的AI作畫工具《DALL·E》,驗證此技術方案的可行性,遂掀起學術界對AIGC的新研究浪潮。隨後,多家科技企業也紛紛進場,投入AIGC技術開發。
Stable Diffusion用戶逾千萬
踏入2022年,不同公司與機構的AI產圖工具相繼誕生,形成百家爭鳴的局面:3月,《Midjourney》啟動Beta版本測試;4月,OpenAI推出製圖解像度更高的第二代版本《DALL·E 2》;5月,Google Research發布AI繪圖模型《Imagen》;真正將AI生成圖像浪潮推上高峰的,是8月面世的《Stable Diffusion》。
相比起限制免費產圖數量的DALL-E、不對外開放的Imagen,Stability AI旗下的《Stable Diffusion》不但免費給公眾使用,更主動開放程式原始碼,讓其他人能夠利用其原始碼開發自己的AIGC應用,成功吸引逾2萬開發者加入開發社群。
現時《Stable Diffusion》已被譽為最受歡迎的AI生成圖像平台,日均活躍總用戶數突破1,000萬;其衍生AI作畫工具《DreamStudio》的用戶數亦超過150萬,自8月以來累計產出逾1.7億幅AI作品。Stability AI租用了亞馬遜AWS雲端平台上約4,000部NIVIDIA A100 GPU運算卡,以應付大量產圖需求。
Stability AI現有約100名員工,獲得1.01億美元融資後,計劃擴編到300人。該公司創辦人兼執行長 Emad Mostaque表示,現已跟一些政府與機構建立了合作夥伴關係來銷售這項AIGC技術,所以該公司將具備一定的盈利能力。
Stable Diffusion原始碼的開發社群現有約2萬名成員,基於其原始碼開發的AI生成工具涵蓋圖像、語言、音樂、3D等多個內容領域。(圖片來源:Stability AI官網)
Stability AI建立了可供免費使用的《DreamStudio Lite》,讓沒有編程或繪畫技能的用戶,只要在平台上輸入文字描述,便可直接產生AI圖像。(圖片來源:DreamStudio)
Jasper Art主攻營銷圖像設計
另一家拿到巨額融資AIGC初創Jasper,以「AI生成文字」作主打服務,能夠產生適用於社交媒體貼文、博客文章、營銷文案、或電子郵件等文字內容;其後又推出圖像生成工具《Jasper Art》,同樣可將用戶輸入文字轉化成圖片。
《Jasper Art》定位成專為營銷圖像設計而生的AIGC系統,特設無版權圖片庫,讓用戶以20美元月費訂閱服務。Jasper總訂戶數現已超過7萬,2021年收入達4,000萬美元(約3.12億港元),預計2022年將可暴增1倍以上,達到9 ,000萬美元(約7.02億港元)。
市調機構Gartner評估,及至2025年,生成型AI將佔所有生成數據的10%,而目前佔比仍少於1%。另一市調機構IDC預測,全球AI產業規模將在2025年增長至2218.7億美元(約1.73兆港元)。由此可見,AIGC市場確是有很大的成長空間。
Jasper平台上不但有AI生成圖像功能,也有AI生成文案服務,讓用戶可以同時獲得好文章與精美配圖。(圖片來源:Jasper官網)
Jasper將《Jasper Art》定位成專門用於行銷設計的AI作畫工具,以建立品牌的差異化。(圖片來源:Jasper官網)
版權爭議阻礙AIGC商業化
不過,AIGC邁向商業化的道路上,仍然存有不少障礙,當中最受關注的是版權爭議。AI學習所需的訓練數據量極度龐大,就算是研發團隊都無法保證,AI不會誤拿需付費使用或有版權保障的圖像資源。2022年9月,一篇刊登於《麻省理工技術評論》的文章指出,數碼藝術家Greg Rutkowski發現其繪畫風格被Stable Diffusion複製了,因而感到很不安。
為規避版權風險,Getty Images、Shutterstock等大型付費圖庫經已不再接收由《DALL·E 2》、《Stable Diffusion》、《Midjourney》等生成的AI畫作。部分遊戲製作人亦因顧慮版權問題,暫不考慮用AI產圖技術來設計遊戲角色與場景。
科技巨頭Google對AIGC技術始終存有疑慮,故此一直抱持謹慎態度,只發表論文公布研發成果,但卻未有將《Imagen》開放給公眾使用。至於《DALL‧E》、《Midjourney》等則明確表示,用戶擁有AI生成圖像的所有權。
也有一些AIGC初創積極探索,解決版權爭議的方法,包括:盡量清除訓練數據庫內有版權保護的圖像素材;生成的畫作結果附有版權風險提示;或者索性跟一些畫家、攝影師或設計師直接合作,以分成或直接購買方式,鼓勵他們來上傳可以被利用來訓練AI的圖像。
事實上,AI訓練數據庫內可能含有受版權保護的內容,但因為AI生成內容充滿高度的隨機性與不確定性,就算有版權爭議,舉證亦非常困難。不過,隨著愈來愈多藝術家抗議自己遭到AI抄襲,業界、學術界、以及相關政府部門應盡快探討,擬定出比較好的版權解決方案。
【你點睇?】政府擬立法規定所有的士須於車內安裝攝錄設備,你是否認同? ► 立即投票