本期《元宇宙之約》對話新壹科技CEO雷濤,他表示,大模型只是解決基礎(chǔ)能力,真正到每一個領(lǐng)域應(yīng)用還是需要去做自己的數(shù)據(jù)訓(xùn)練;基礎(chǔ)模型需要真正去理解用戶,因為用戶的問題是千差萬別,答案也會千差萬別。
財聯(lián)社4月6日訊(記者 徐賜豪) 隨著ChatGPT聊天機器人的大熱,人工智能行業(yè)開啟了半年之久的技術(shù)“狂飆”。
但是ChatGPT引起的科技倫理、網(wǎng)絡(luò)安全、知識產(chǎn)權(quán)等系列問題同樣需要關(guān)注。本期《元宇宙之約》對話了新壹科技CEO雷濤。作為一下科技孵化的公司,新壹科技最近推出了自己的智能AI內(nèi)容生成平臺“一幀秒創(chuàng)”。
在雷濤看來,大模型只是解決基礎(chǔ)能力,真正到每一個領(lǐng)域應(yīng)用還是需要去做自己的數(shù)據(jù)訓(xùn)練;基礎(chǔ)模型需要真正去理解用戶,因為用戶的問題是千差萬別,答案也會千差萬別。
至于AIGC與元宇宙之間的關(guān)系,雷濤表示,AIGC有助于元宇宙快速構(gòu)建基礎(chǔ)設(shè)施。
推出AI視頻生成平臺“一幀秒創(chuàng)”
簡單介紹一下公司在AIGC方面的布局。
雷濤:新壹科技是由一下科技孵化的,在元宇宙VR及人工智能領(lǐng)域探索的實體。新壹科技的主要產(chǎn)品及業(yè)務(wù)涵蓋了中短視頻平臺、VR數(shù)字孿生技術(shù)應(yīng)用與直播平臺運營等。在2021年年底的時候,我們考慮做一個新的視頻平臺應(yīng)用。當時PGC、UGC視頻平臺已經(jīng)形成激烈競爭,同時創(chuàng)作者向視頻平臺轉(zhuǎn)移;但大量創(chuàng)作者沒有視頻制作的能力,我們當時就做了一個文字直接轉(zhuǎn)換成視頻的產(chǎn)品——一幀秒創(chuàng)。
據(jù)說一幀秒創(chuàng)擁有幾十億條視頻素材?
雷濤:一幀秒創(chuàng)是基于秒創(chuàng)AIGC引擎的智能AI內(nèi)容生成平臺,以文字生成視頻為核心功能,為創(chuàng)作者和機構(gòu)提供多模態(tài)生成服務(wù),包括文字擴寫、文字轉(zhuǎn)語音、文生圖、圖文轉(zhuǎn)視頻等系列創(chuàng)作服務(wù);通過對文案、素材、AI語音、字幕等要素進行智能分析解構(gòu),助力創(chuàng)作者快速成片,實現(xiàn)零門檻產(chǎn)出視頻。
AIGC需要有豐富的數(shù)據(jù)和強大的算法,目前新壹科技在這方面的儲備怎樣?
雷濤:新壹科技也有涉獵大模型,當然我們的研發(fā)能力還不足以去完成一個全新的大模型開發(fā),而是基于目前開源的大模型(比如GPT、清華的GLM)去做自己的垂直化訓(xùn)練,形成自己的大模型產(chǎn)品去為用戶服務(wù)。
在AIGC應(yīng)用方面,一幀秒創(chuàng)產(chǎn)品的核心功能是圖文轉(zhuǎn)視頻,用戶只需要輸入一個標題,然后通過AI把這個視頻完成。其產(chǎn)品邏輯在于通過文案去匹配素材,把素材拼接在一起形成視頻,但前提是需要有足夠多的素材量。
我們是一下科技孵化的企業(yè),一下科技歷史上擁有幾十億條視頻為一幀秒創(chuàng)提供素材。我們對這些視頻進行了深度的結(jié)構(gòu)化,給它打上豐富的標簽,供用戶檢索、匹配等,通過這樣的方式來形成一個比較好的AIGC視頻體驗。
AI視頻生成需要解決兩個問題
GPT模型生成視頻是否比生成文本要難?
雷濤:GPT本身只有文本能力,但可以基于它的文本能力去拓展它的應(yīng)用。要實現(xiàn)生成視頻輸出的話,主要解決兩個問題:一是GPT對鏡頭語音的理解,二是視頻數(shù)據(jù)的處理和理解。
AIGC或者人工智能給視頻行業(yè)帶來怎樣的影響?
雷濤:其實我們本身的業(yè)務(wù)跟視頻相關(guān),之前也用了GPT系列模型。在我看來GPT模型可以為視頻行業(yè)解決以下幾個問題:一、視頻腳本的撰寫,文本撰寫本身是GPT的一個基礎(chǔ)能力;二、視頻字幕的提取、翻譯,這是基于GPT本身的一個應(yīng)用;三、剛剛發(fā)布的GPT-4是多模態(tài)模型,這個多模態(tài)可理解、分析視頻內(nèi)容,同時做視頻的推薦和搜索;四、GPT既然能理解視頻應(yīng)用,也能用于視頻內(nèi)容的AI審查、過濾。
一些視頻平臺上電影解說、科普類、財經(jīng)類快速成稿都大量運用人工智能來生成。這個最重要的影響就是提高視頻的制作效率,讓單個用戶具備一些工作室才具備的視頻制作能力,降低了視頻制作的門檻。
人工智能生成的視頻會不會有版權(quán)問題?
雷濤:我們只是去匹配結(jié)果,盡量為客戶匹配一些版權(quán)可以用的素材;如果用戶需要將這些素材運用到商業(yè)領(lǐng)域的話,確實需要解決版權(quán)的問題。
模型需要真正理解用戶的問題
據(jù)了解,ChatGPT背后的大型語言模型的訓(xùn)練集最近數(shù)據(jù)截止于2021年底,所以任何關(guān)于2022年里發(fā)生的事件,它無法給出準確的答案,如何看待這個事情?
雷濤:ChatGPT你可以把它理解成OpenAI的一個產(chǎn)品Demo,它是向你展示能力,所以就算它的數(shù)據(jù)訓(xùn)練有時間線,但這不影響它的展示能力。數(shù)據(jù)不是核心問題,能力才是。模型只是提供解決基礎(chǔ)能力,真正到每一個領(lǐng)域的應(yīng)用還是需要去做自己的數(shù)據(jù)訓(xùn)練。基礎(chǔ)模型真正要解決是怎么去理解用戶的問題,因為用戶的問題千差萬別,答案也會千差萬別。
在你看來GPT模型目前還存在哪些問題?
雷濤:首先GPT是一個大語言模型,訓(xùn)練數(shù)據(jù)特別大,這意味著你如果去做一個類似的大模型,需要耗費大量的這種數(shù)據(jù)標注、算力、能源以及存儲的成本,這種高成本的事情容易造成技術(shù)霸權(quán),這是大模型天然存在的一個問題。
第二,訓(xùn)練完成以后,基于它的大量數(shù)據(jù)倫理方面的問題也越來越凸顯。
第三,現(xiàn)在GPT-4的知識范圍覆蓋很大,很多問題回答可以說井井有條,但也有一本正經(jīng)的“胡說八道”現(xiàn)象。這就考驗它的邏輯思維能力,對用戶有沒有產(chǎn)生誤導(dǎo)性。
這些問題將導(dǎo)致怎樣的后果?
雷濤:存在一種可能,如果大家都傾向于去做模型的話,可能會產(chǎn)生類似軍備競賽,把大量的存儲、算力、能源等成本都消費在上面。邏輯推理的誤導(dǎo)性,可能讓用戶對很多新聞的真實性存疑,無法區(qū)分哪些是真的信息,哪些是假的信息。
AIGC有助于元宇宙基礎(chǔ)設(shè)施構(gòu)建
如何看待目前元宇宙行業(yè)的發(fā)展?
雷濤:整體元宇宙行業(yè)發(fā)展可能不如預(yù)期:一是VR終端銷售疲軟,META的Quest和字節(jié)的Pico4出貨量都不及預(yù)期;二是與元宇宙相關(guān)的NFT概念有極大的投機性;此外,元宇宙行業(yè)尚未出現(xiàn)殺手級應(yīng)用,不管是手機端、還是VR設(shè)備端都沒有出現(xiàn)這樣的產(chǎn)品。
從廣義上來,AIGC也是元宇宙的一部分,也許未來下一次技術(shù)浪潮來臨的時候,元宇宙又會煥發(fā)新機,但目前來講還是偏概念階段。
AIGC的發(fā)展能給元宇宙能帶來什么?
雷濤:AIGC這個概念從去年開始逐漸火起來,我們看到AIGC可以生成文本、圖片、視頻、代碼、游戲等。
元宇宙需要大量的內(nèi)容生產(chǎn)。如果是靠傳統(tǒng)的PGC或者UGC方式,要么生產(chǎn)成本過高,要么就是生產(chǎn)質(zhì)量偏低。AIGC這種方式有助于元宇宙快速構(gòu)建基礎(chǔ)設(shè)施,包括文字、語音、視頻等多媒體內(nèi)容。
此外,元宇宙可以通過AI來生成代碼或者AI來生成里面的人物,這個也是AIGC未來可能達到的一個方向。