每日經(jīng)濟(jì)新聞 2024-05-23 13:07:29
每經(jīng)記者 朱成祥 每經(jīng)編輯 程鵬 張海妮
在通義千問宣布大模型降價(jià)后,百度也隨即宣布旗下兩款大模型免費(fèi)。5月22日,科大訊飛(002230.SZ,股價(jià)43.87元,市值1015.76億元)也宣布訊飛星火LiteAPI永久免費(fèi)開放。
當(dāng)下,數(shù)字人的互動能力正是依賴于大模型。大模型紛紛降價(jià),對互動數(shù)字人是否是個機(jī)會呢?
5月21日,飛影數(shù)字人戰(zhàn)略顧問小豪對《每日經(jīng)濟(jì)新聞》記者表示:“數(shù)字人和大模型是兩個領(lǐng)域。大模型價(jià)格下跌,對我們正在做的新產(chǎn)品(互動數(shù)字人)是利好。我們結(jié)合大模型之后,數(shù)字人升級進(jìn)化成數(shù)智人?!?/span>
訊飛智作產(chǎn)品經(jīng)理姚仕豪認(rèn)為:“大模型有利于虛擬人的發(fā)展,目前看成本不是關(guān)鍵因素,效果更重要。”
數(shù)字人崛起
小豪首先向記者講述了數(shù)字人的具體操作:“現(xiàn)在的數(shù)字人,是需要你給文案,再根據(jù)文案來生成數(shù)字人視頻。接入大模型之后,這個數(shù)字人就可以實(shí)時互動。比如數(shù)字人直播,可以根據(jù)觀眾的提問來實(shí)時回答。大模型是‘大腦’,數(shù)字人是‘身體’,兩者結(jié)合,成為新的數(shù)智人?!?/span>
那么,大模型降價(jià)之后,對數(shù)字人行業(yè)有何影響呢?
小豪說:“比如前面說到的互動數(shù)字人,大模型成本降低后,面向C端普通人的用戶場景才能夠被真正釋放。如果大模型的價(jià)格很高,你跟一個數(shù)字人聊天1小時,光是大模型的費(fèi)用就要很多,現(xiàn)在價(jià)格下降了90%后,普通人也能承擔(dān)(得起)這個費(fèi)用?!?/span>
頭豹研究院行業(yè)分析師陳慶民也對記者表示:“大模型技術(shù)的發(fā)展將為數(shù)字人提供更好的交互性,尤其是結(jié)合自然語言處理和語音識別技術(shù),數(shù)字人可以更自然地理解和回應(yīng)人類語言,從而提升用戶體驗(yàn)?!?/span>
不過,在姚仕豪看來,相比降價(jià),數(shù)字人的效果更重要。根據(jù)訊飛智作公眾號文章,虛擬人(數(shù)字人)本質(zhì)是對人的數(shù)字化模擬,具備三大特征:外觀、行為和思想。這些特性的實(shí)現(xiàn)依賴一系列先進(jìn)技術(shù)的融合,如圖像識別、3D建模、動作捕捉、自然語言處理、計(jì)算機(jī)視覺等。
即數(shù)字人不僅僅需要大模型技術(shù)。
4月30日,《每日經(jīng)濟(jì)新聞》記者來到淘氣叮當(dāng)總部。工作人員向記者展示了數(shù)字人動作捕捉的場景,以及數(shù)字人直播效果展示。如果不是工作人員提醒,記者已經(jīng)很難分清真人直播與數(shù)字人直播的區(qū)別。
上述工作人員說:“你看到的這個場景叫做多模態(tài)建模。她(正在被建模的真人主播)現(xiàn)在說的話、行為動作都會被我們在后臺打上標(biāo)簽,通過文字帶動標(biāo)簽形成一系列動作,還原成你看到的現(xiàn)場。錄制需要一個小時以上,因?yàn)榈糜凶銐蚨嗟膭幼骱驼Z言。如果5分鐘、10分鐘的素材來做建模,出來的效果并不符合品牌方的要求?!?/span>
數(shù)字人多模態(tài)建模場景 圖片來源:每經(jīng)記者 朱成祥 攝
公司總經(jīng)理王微接受《每日經(jīng)濟(jì)新聞》記者采訪時表示:“數(shù)字人直播之所以能做到那么逼真,與技術(shù)進(jìn)步密切相關(guān)。比如大模型技術(shù)、動作捕捉、CG(計(jì)算機(jī)圖形)、CV(計(jì)算機(jī)視覺)。前年時,能夠?qū)崿F(xiàn)的只是類似二次元卡通人物的虛擬人,到去年已經(jīng)出現(xiàn)1:1擬人的數(shù)字人?!?/span>
數(shù)字人直播展示 圖片來源:每經(jīng)記者 朱成祥 攝
陳慶民也表示:“CG和渲染技術(shù)在實(shí)現(xiàn)數(shù)字人外觀和動作的逼真度上占據(jù)重要地位。在面部表情和身體語言處理上,現(xiàn)在的技術(shù)能更精細(xì)地捕捉和模擬真實(shí)人類的微表情和細(xì)微動作。”
上海交通大學(xué)博士生導(dǎo)師、深蘭科技創(chuàng)始人、董事長陳海波告訴記者:“目前數(shù)字人主要依賴于深度學(xué)習(xí)、計(jì)算機(jī)視覺、語音識別和自然語言處理等技術(shù)。其中,CG和渲染技術(shù)在數(shù)字人的創(chuàng)建中占據(jù)了重要的地位,尤其是在數(shù)字人的外觀和動作的生成中。在處理面部表情和身體語言方面,目前的技術(shù)已經(jīng)可以通過深度學(xué)習(xí)算法識別人類的面部表情和身體語言,并生成相應(yīng)的數(shù)字人表情和動作?!?/span>
市場空間:替代真人還是新增量
既然相關(guān)技術(shù)已在面部表情、身體語言處理、互動能力等多方面取得較大進(jìn)步,加上大模型降價(jià),這一切會帶來數(shù)字人市場的爆發(fā)嗎?
一家人工智能公司的高管朱舜水(化名)5月20日也向《每日經(jīng)濟(jì)新聞》記者講述了他實(shí)際使用數(shù)字人的感受:“數(shù)字人技術(shù)的進(jìn)步,顯著提升了視頻制作的效率。以往在制作課程視頻時,每一期視頻都需要進(jìn)行單獨(dú)的修改和剪輯,既費(fèi)時又費(fèi)力。現(xiàn)在我們只需要花半天時間收集音視頻素材,再用約一天時間進(jìn)行渲染、訓(xùn)練,就能夠達(dá)到‘以假亂真’的效果。”
朱舜水補(bǔ)充說:“使用數(shù)字人,我們可以替代真人進(jìn)行各種操作,不僅實(shí)現(xiàn)了高度逼真的呈現(xiàn)效果,還大大簡化了修改過程。當(dāng)需要調(diào)整內(nèi)容時,只需對數(shù)字人進(jìn)行相應(yīng)的修改,操作(起來)非常方便。”
王微認(rèn)為,“過去電商行業(yè)存在主播成本高、流動性強(qiáng)的問題。很多時候,把主播培養(yǎng)出來卻留不住,主播自己單干了。平庸的主播留得住,但不為公司創(chuàng)造價(jià)值且成本也不低。比如在上海,幾乎沒有低于1萬元(月薪,下同)的主播。一個比較好的主播,可能需要1.5萬元以上,甚至2萬元以上再加提成,這對企業(yè)而言成本也蠻高的”。
在一線城市或是網(wǎng)紅經(jīng)濟(jì)比較發(fā)達(dá)的地區(qū),可能數(shù)字人主播是對真人主播的替代。而在相對較為偏遠(yuǎn)的地方,招到合適的主播也并非易事。王微稱:“對于下沉市場,(數(shù)字人)解決的是公司找不到合適的團(tuán)隊(duì)去做直播這件事?!?/span>
此外,數(shù)字人直播還能解決傳統(tǒng)主播無法批量化復(fù)制的問題。王微稱:“(真人)主播可能播4—6個小時就很辛苦。但像數(shù)字人主播,你讓它播多久就可以講多久。比如你是某電器廠商,可以批量打造矩陣直播間,比如100個直播間只需要準(zhǔn)備100臺電腦。我們找來100個模特來克隆,克隆成數(shù)字人后,你就可以開100個直播間?!?/span>
此外,數(shù)字人還可以做外語的口播視頻。小豪表示:“比如一些跨境電商,他們需要去海外社交平臺引流,做外語口播視頻。目前都要求降本增效,主要是不用找外語專業(yè)的人出鏡,產(chǎn)量也提升很多。一般這類口播視頻,一天拍不了幾條,還需要找場地、拍攝人員、剪輯人員。數(shù)字人主要就是做真人嘴替,只要提供文案就能生成,一天100條都可以?!?/span>
挑戰(zhàn):從“重技術(shù)”到“重運(yùn)營”
目前,淘氣叮當(dāng)提供的是介于2D與3D之間的2.5D。姚仕豪表示:“訊飛支持2D和3D虛擬人的構(gòu)建和驅(qū)動,我們將虛擬人分為5大類:2D真人、2D生成人、3D超寫實(shí)、3D美型和3D卡通,根據(jù)不同的應(yīng)用場景推薦不同的虛擬人類型。”
隨著技術(shù)的巨大進(jìn)步,數(shù)字人在“逼真程度”上已經(jīng)媲美真人。朱舜水也表示:“我們給很多人看過,不提醒都意識不到是數(shù)字人。”
但他也提到數(shù)字人技術(shù)門檻不高。朱舜水稱:“小公司都能做(數(shù)字人視頻),基本都是小單子。”
《每日經(jīng)濟(jì)新聞》記者觀察到,數(shù)字人直播行業(yè)也呈現(xiàn)出從“重技術(shù)”到“重運(yùn)營”的趨勢。
小豪表示:“數(shù)字人直播我們也做,主要是受平臺規(guī)則的限制。(但)技術(shù)上已經(jīng)能實(shí)現(xiàn)(數(shù)字人直播),數(shù)字人可以和觀眾互動,與真人同屏出現(xiàn)。另外有一些方式,可以規(guī)避在抖音直播間里被判定(為)違規(guī),但平臺整體的方向目前是不支持的態(tài)度?!?/span>
數(shù)字人視頻門檻相對低,而數(shù)字人直播則相對復(fù)雜。小豪表示:“數(shù)字人直播,老板們是很重視ROI(投資回報(bào)率)的,我們(產(chǎn)品提供方)需要和他們(用戶)的直播團(tuán)隊(duì)深度交流,研究他們的話術(shù),了解他們直播的上品流程和策略,是一個重運(yùn)營的活?!?/span>
王微表示:“去年之前,我們更多做的是技術(shù)端的服務(wù)。即你買我的產(chǎn)品,我把數(shù)字人交付給你。(在)這個過程中,我們發(fā)現(xiàn)有一些客戶沒有運(yùn)營團(tuán)隊(duì),(數(shù)字人)拿回去很可能會被閑置?!?/span>
“對于那些不太會用的,也沒有運(yùn)營團(tuán)隊(duì)的,我們提供‘技術(shù)+運(yùn)營’的方式。你只需提供你的賬號,把你的樣品、產(chǎn)品賣點(diǎn)提供給我們,你就可以不用管了。我們來克隆數(shù)字主播,然后在我們基地直播。(客戶)也不用提供硬件。”王微說。
據(jù)悉,淘氣叮當(dāng)已經(jīng)在全國建設(shè)了7個數(shù)字人直播基地。
盡管平臺目前尚不支持,數(shù)字人直播依然轟轟烈烈地開展起來。對于數(shù)字人直播是否會沖擊傳統(tǒng)主播,陳慶民說:“數(shù)字人直播的興起確實(shí)對傳統(tǒng)主播的職業(yè)生涯產(chǎn)生了影響。數(shù)字人可以提供7×24小時的服務(wù),降低人力成本,這可能導(dǎo)致傳統(tǒng)主播面臨更大的競爭壓力。但同時,數(shù)字人的出現(xiàn)也可能催生新的職業(yè)機(jī)會,如數(shù)字人的設(shè)計(jì)與開發(fā)、運(yùn)營管理等?!?/span>
陳海波表示:“數(shù)字人直播的興起對傳統(tǒng)主播的職業(yè)生涯產(chǎn)生了一定的影響。例如,數(shù)字人可以24小時不間斷地直播,而且可以同時應(yīng)對大量的用戶。此外,數(shù)字人還可以通過算法優(yōu)化直播內(nèi)容,提升直播效果。這使得數(shù)字人在某些方面具有優(yōu)勢,例如在直播時長和應(yīng)對大量用戶方面。然而,傳統(tǒng)主播在表達(dá)情感、互動和個性化方面仍然具有優(yōu)勢,因此數(shù)字人和傳統(tǒng)主播可以相互補(bǔ)充,共同發(fā)展?!?/span>
此外,陳慶民也指出了數(shù)字人的技術(shù)局限性。其表示:“盡管技術(shù)取得了進(jìn)步,但數(shù)字人在模仿人類行為和表情方面仍有局限性,如情感表達(dá)的深度、復(fù)雜情感的細(xì)微差別等。目前技術(shù)成熟度在特定場景下已較為可靠,但應(yīng)對更復(fù)雜多變的人類行為和情感表達(dá)仍需進(jìn)一步發(fā)展?!?/span>
陳海波說:“目前數(shù)字人在模仿人類行為和表情方面還存在一些局限性。例如,數(shù)字人的表情和動作可能不如人類自然,或者無法完全準(zhǔn)確地表達(dá)人類的情感。此外,數(shù)字人的語音和語調(diào)也可能不如人類自然。雖然技術(shù)已經(jīng)取得了很大的進(jìn)步,但在各種復(fù)雜場景下,數(shù)字人的表現(xiàn)可能仍然不如人類?!?/span>
記者|朱成祥
編輯|程鵬?張海妮?杜恒峰
校對|王月龍
|每日經(jīng)濟(jì)新聞 ?nbdnews??原創(chuàng)文章|
未經(jīng)許可禁止轉(zhuǎn)載、摘編、復(fù)制及鏡像等使用
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP