share_log

快手AI文生视频大模型体验:更偏商业端,“国产版Sora” 来了?

快手AI文生視頻大模型體驗:更偏商業端,“國產版Sora” 來了?

財聯社 ·  06/21 22:35

①快手發佈的視頻大模型可靈,支持文生視頻、圖生視頻以及視頻續寫等多種功能。 ②有機構指出,對“幻覺”問題不敏感的文生文、文生圖、文生視頻、數字人等AIGC領域有望率先實現商業化落地。

財聯社6月21日訊(記者 唐植瀟),中國版SORA來了?

日前,快手推出視頻生成大模型——可靈,支持文生視頻、圖生視頻以及視頻續寫功能。

財聯社記者了解到,可靈大模型基於Diffusion Transformer架構打造的文本視頻語義理解能力,支持輸出1080P30幀最長2分鐘的視頻,生成時長直接趕超Sora。

6月21日,可靈上線的視頻續寫功能中,支持對已生成的視頻一鍵續寫和連續多次續寫,單次可讓視頻延續約5秒,最長可生成約3分鐘視頻。

快手可靈的內測申請在快手的剪輯軟件快影App的“AI創作”功能模塊中,財聯社記者申請通過後,進行了深入的體驗。

目前可靈的生成速度上表現尚可,財聯社記者每次文生5s視頻基本都能在2–3分鐘之內完成。根據公開信息,快手、Sora之外,Luma AI發佈了文生成圖模型Dream Machine,並開啓內測;Adobe的Firefly新增生成式擴展功能,生成音頻和視頻功能即將推出;美圖構建AI短片工作流,開發了AI短片創作工具MOKI,預計將於今年7月31日上線。

有研究機構指出,在當前AI大模型的輸出內容不能完全保證正確性與精準度的背景下,對“幻覺”問題不敏感的文生文、文生圖、文生視頻、數字人等AIGC領域有望率先實現商業化落地。

文生視頻更自然,圖生視頻仍有進步空間

爲了展示可靈AI的能力,財聯社記者從對於語言的識別精準程度、視頻表現精度這兩個層面對可靈大模型進行測試。其中在精度層面上,主要從兩個層面上進行考慮,首先是光影效果的呈現,其次是物體關係(如人與人互動,人與物體互動)等。

爲了便於觀看,財聯社記者將視頻轉換成了動圖,因此會對視頻質量和幀數造成一定的影響,但基本能夠展現可靈的視頻生成能力。

4k46J9o4nI.gif

首先是對文字識別和處理層面上,財聯社記者嘗試詳細描述了一個場景:“滿頭白髮的中年女人,穿着深藍色西服,向一臺佳能相機展示白色瓶身綠色瓶蓋的藍月亮洗衣液,背景是沙灘與海洋的落日場景。”

可靈基本按需復現了描述文字的需求,只是文字描述中的相機並未出現在視頻畫面中,以及可能是出於版權爭議方面的考慮,洗手液的品牌被塗上了馬賽克。

4gIWxRyQbq.gif

接下來記者又嘗試了更爲簡短的描述:“一隻比熊犬穿着宇航服和高跟鞋在夜店跳舞。”

雖然比熊犬身上的服裝與真實的宇航服尚有差異,但這次的還原度要高不少。

接下來,財聯社記者又描述了兩個場景,以測試可靈的光影展現效果,以及對於物體關係的還原的程度。

PMg9JVUaAQ.gif

以上的視頻描述文本爲:“在燈光復雜的深海隧道中,一輛銀白色引擎蓋加上黑色外觀的邁巴赫,開着遠光燈,以時速120公里每小時行駛過一攤積水,水花四濺到鏡頭上。”

9763Soy4f9.gif

以上視頻的描述文本爲:“荒蕪的死亡星球上,一群假面騎士通過光劍進行對戰,並砍下了對方的頭盔。”

94Kj5Y1SDj.gif

以上視頻的描述文本爲:“兩個壯漢在水立方里互扇巴掌。”

5U42gJb1IQ.png

以上視頻的描述文本爲:“小貓送外賣,抽象風格,把披薩送到人手上。”

03Mmp7Ycsx.gif

以上視頻的描述文本爲:“小貓用前爪把頭上的頭盔脫下來,放入到電動車的前框裏。”

25X0xIzlFW.gif

以上視頻的描述文本爲:“一個小女孩吃麪條”。

703avlxo1y.gif

以上視頻的描述文本爲:“女性推着自行車,往後倒退,一片櫻花花瓣落到她的頭上。”

目前圖生視頻的功能更多是讓畫面主體運動起來,通過準確的關鍵詞做動作,但複雜的物體互動,呈現效果不佳。

如小貓咪用前爪脫下頭盔,AI並未正確識別圖中貓咪的前爪,而是生成了另外的前爪,並且沒有脫下頭盔的動作,而是將生成的前爪搭在了前框裏的頭盔上。

小女孩吃麪條基本生成了“吃播”效果,五官與食物清晰。

而女子推車倒退變成了騎車倒退,雖然動作方向正確,但花瓣只落到了鏡頭的前方,並未落到女子的頭上。

通過上述的測試,我們基本可以推斷出以下幾個結論:

可靈對於光影關係,流體與人物的關係呈現大致上是沒有問題的,在文生視頻的準確度上與sora差別不大。比如,當燈光掃過車頂時,前擋風與引擎蓋金屬反光變化的差異;車輛駛過積水時濺起的水花等。

可靈對於物體關係的處理仍存在改進的空間。比如決鬥時光劍出現了“穿模”的情況。

此外,可靈基本可以做到符合真實的運動規律。在測試中,車輛行駛、女生吃東西等基本符合現實規律與關鍵詞輸入要求。

對於有關鍵詞未被識別的問題,有觀點認爲,造成這種問題的原因在於,目前視頻生成大模型基本是直接從視頻數據中學習物理知識,但真實視頻往往包含很多信息,因此大模型很難精準區分每個物理規律並學習。

財聯社記者了解到,快手大模型團隊自研了3D VAE網絡和全注意力機制(3D Attention),藉助多模態技術更好地實現時空建模。

快手視覺生成與互動中心負責人萬鵬飛公開表示:“快手是一個擁有海量視頻數據的平台,可實現全流程、自動化、高效率的支持模型的訓練和評估。”

他還補充道,快手擁有多維度視頻標籤體系,可精細化的篩選數據,或對數據的分佈進行調整。

商用可能性到底在哪?落地場景或更偏商業端

據財聯社記者了解,目前可靈內測申請人數已超14萬人,有不少創作者都在其中。

有視頻內容創作者對財聯社記者表示,使用AI工具生成的視頻看上去很酷,但這類工具在普通人手中意義不大。AI生成視頻的成本也不低,這一點從ChatGPT和Sora的開放程度就能看出來,ChatGPT可以開放給億級用戶,而Sora至今只有少數人試過。”

不過,部分視頻平台也不鼓勵AI合成內容,這類視頻分到的流量不多,有的甚至會被限流。目前,各大內容平台都有相關限制,AI生成內容均會標註 “作品疑似AI合成,請謹慎甄別”。

該名內容創作者補充道,AI視頻生成功能的真正意義在於簡化了視頻製作流程,既可以幫助成熟的內容創造者生成無版權糾紛的素材,加速內容創作,也可以幫助傳統的圖文創造者基於已有內容視頻化,加速內容遷移。

他認爲,通過精準描述,內容創作者可以省下挑選合適素材的時間。本身職業內容創作者也會自己購買視頻素材,或者開通相應的會員。現在唯一的問題只在於,收費是否合理。

但從長遠來看,無論可靈還是sora都不會將C端應用作爲未來主要發展方向,根據場景應用落地的能力,才更具想象力。

另一位影視行業的從業者告訴財聯社記者,AIGC工具已經被應用在了影視行業了,比如《瞬息全宇宙》裏面主角高速穿越多個宇宙的鏡頭,可以用AI技術快速生成出來,能夠降低製作成本。“如果使用傳統制作流程,哪怕只是爲了製作一分鐘的視頻,也需要一個龐大的團隊工作好幾個月才能完成,涉及到腳本、建模和後期渲染等多個過程。”

財聯社記者了解到,有部分電影人在接受Luma發佈的Dream Machine內測邀請後,使用該款AI工具製作了一些微電影以及預告影片。繼生成短劇劇本之後,AI視頻生成工具將有可能被用於直接生成短劇,而這一嘗試也會讓短劇賽道的鏈路更短。

當下,可靈在B端的商用還未開啓,但從此前AIGC技術應用來看,短視頻切片、評論區互動、數字人主播等均是內容電商可以落地的場景。

據悉,包括京東、快手、抖音在內的電商平台已經使用AI大模型輔助商家進行運營。比如京東免費數字人代播服務,能24小時不斷進行直播;快手的“AI腳本生成+智能高光切片+全模態檢索大模型”功能等等。

快手方面提供的數據顯示,AIGC技術的應用已經開始提升營銷轉化效率,通過盤古視頻AIGC素材整體提升營銷轉化率33%。

有業內人認爲,未來文生視頻工具也有可能被商家應用在產品功能、場景短視頻展示上面。“相較於對每個產品進行實際拍攝,直接使用AI工具生成視頻的時間成本和人力成本可能會更低。”

對成本端的影響,也能從當前數字人主播應用效果得出一定結果。快手磁力引擎項目招商負責人、磁力學堂負責人王思洵分享了一組數據:“在儘量過濾掉干擾項的前提下,我們測試發現真人直播間和數字人直播間數據表現幾乎一樣。AIGC技術自動生成直播/短視頻素材,使得企業的直播風險可控,運營效率也得到了提升。”

天風證券分析師認爲,生成式AI在視頻創作和世界模型的大踏步進步將實現對視頻/3D/遊戲等下游應用場景的滲透。在短視頻、創作工具、遊戲等下游領域,可靈、Sora等AI原生產品有望融入工作流,增強用戶體驗、降低用戶使用壁壘、進一步降低創作成本,並極大拓展創作者能力邊界。

該名證券分析師補充道:“與OpenAI其他產品不同,Sora代表的DiT架構路徑復刻難度在算力充足的前提下相對較低,國內互聯網頭部大廠在生成式視頻工具上的佈局速度可能會持續超預期。”

譯文內容由第三人軟體翻譯。


以上內容僅用作資訊或教育之目的,不構成與富途相關的任何投資建議。富途竭力但無法保證上述全部內容的真實性、準確性和原創性。
    搶先評論