12月22日-23日,以“智能涌現(xiàn)·發(fā)現(xiàn)未來”為主題的網(wǎng)易未來大會在浙江杭州舉辦。在AGI 論壇“AI
三人行”圓桌對話上,南京大學智能科學與技術學院副教授易子立、「靈動AI」創(chuàng)始人雷海波、AI 繪畫知名博主娜烏斯嘉三人,共同就《AI
生成視頻往何處去?》分享精彩觀點,英諾天使基金合伙人王晟為本次對話主理人。
易子立首先教授表示,隨著AI
熱潮的來臨,很多企業(yè)已經(jīng)在嘗試使用AI工具,但文生圖、文生視頻的技術仍有待進一步成熟。目前,AI生成視頻的主要技術路徑是擴散模型,未來的趨勢有可能是歸回大模型訓練的方式。國外在視頻生成底層技術方面具有一定的領先優(yōu)勢,國內(nèi)在像2D
數(shù)字人、AI 社交這樣的細分應用上表現(xiàn)更好。相信伴隨算力水平的提升和技術范式的革新,將來國內(nèi)有可能在某些方面超越國外。
「靈動AI」 創(chuàng)始人雷海波
“「靈動AI」是將生成式AI圖像技術應用于營銷設計端的創(chuàng)業(yè)企業(yè),我們過去20年一直在視覺設計和視覺影像行業(yè)探索”?!胳`動AI」 創(chuàng)始人雷海波在談及視覺大模型話題時表示,過去做設計社區(qū)、媒體和設計平臺,幾乎每天都與設計師、設計機構打交道。據(jù)我所知,目前國內(nèi)一些頂尖藝術設計類高校,已在日常教學和設計項目中應用了文生圖等大模型。因此,AI在生圖領域的能力毋庸置疑,但生成視頻,落地應用可能還需要半年到1年的時間。
面對國內(nèi)大模型廠商為何競爭不過國外的問題。他直言,造成這一現(xiàn)象的原因,不僅僅是技術、算力、數(shù)據(jù)集方面的差距,從設計的維度來看,國內(nèi)廠商對美學理解還存在欠缺。事實上,當下 Midjourney 生成圖的調(diào)性、氛圍、光影質(zhì)感,已經(jīng)遠超越人類的表現(xiàn)。如果國內(nèi)大廠能做出類似 Midjourney 視覺模型,并結(jié)合高品質(zhì)的數(shù)據(jù)集,配合行業(yè)認知和產(chǎn)業(yè)化落地能力,垂直應用層面一定是有很大機會的。
被問及「靈動AI」的落地應用場景,他回答的簡單而直接,“我們主要是面向前綴場景,比如營銷,特別是電商營銷。過去,數(shù)億的商家和數(shù)十億的SKU(單款商品)的營銷物料都是靠人工來實現(xiàn)的?,F(xiàn)在試想,如果上傳的商品信息既能在文字、圖像等模態(tài)上保持不變,又能夠與文字、圖片、視頻等模態(tài)模型實現(xiàn)很好的融合,從而為商家產(chǎn)出AI商品圖、海報、短視頻,甚至是3D交互內(nèi)容,這個市場需求是很大的。今年,「靈動AI」主要發(fā)力點在文生圖、垂類模型的研發(fā)及探索行業(yè)應用,但我們看到了文生圖、圖生視頻對創(chuàng)意生產(chǎn)力帶來的解放,更期待AI在3D領域的高質(zhì)量生成能力”。
作為AI領域的知識博主和模型訓練師,娜烏斯嘉認為,AI在視頻生成領域歸結(jié)為四類場景:原視頻風格轉(zhuǎn)化、瞬息全宇宙、圖生視頻、場景轉(zhuǎn)換視頻。目前主要是廣告制作、預告片制作、推文和短視頻創(chuàng)作等領域嘗試較多。在圖片生成方面, AI 已能達到各種炫目的效果,但在視頻生成領域由于控制手段較少,表現(xiàn)力受到一定限制。例如:人物表情在視頻中的一致性不夠,容易出現(xiàn)“恐怖谷效應”。她希望在視頻生成效果控制上,技術能夠做到更加精準。但在AI的世界里,創(chuàng)造性的想法一定是大于技術。
英諾天使基金合伙人王晟
站在投資人的角度,王晟表示,目前生成式視頻的熱度非常高。今年,風險投資主要表現(xiàn)為兩端集中:一是資金端集中,只有部分VC敢于真正的出手;二是項目端集中,VC的資金主要投向了計算能力相關項目,如GPU、芯片、高速無損網(wǎng)絡、大模型等。明年,大家比較期待的是多模態(tài)模型領域,以及多模態(tài)能力的落地應用。
當然,AI作為一項智能技術,需要全社會不斷地對它加深認知,需要政府、科學家、企業(yè)、媒體、資本等共同參與,這樣才能促使其獲得更好的良性發(fā)展。
據(jù)悉,「靈動AI」目前已上線近千個商品圖場景,初步形成AI工具矩陣。由于擁有特定風格場景的LoRA模型,多個億級參數(shù)的專用AI模型以及智能審美評價系統(tǒng),在主體控制下,使生成商品圖呈現(xiàn)獨特的視覺特征和美學調(diào)性,從而為企業(yè)級用戶提供更好的服務。
相關稿件