每日經濟新聞 2023-03-02 14:16:37
◎互聯(lián)網發(fā)展可以分為三個階段,第一個階段是PC互聯(lián)網時代,第二個階段是移動互聯(lián)網時代,第三個時代,則是元宇宙時代。成維忠認為,元宇宙時代的關鍵詞是“Conversation”,即人機的擬人化交流?;谶@個認知,ChatGPT等LLM不可或缺,“生成式AI虛擬人也不可或缺”。
每經記者 陳婷 海報設計 蔡沛君 每經編輯 劉雪梅
■行業(yè)屬性:虛擬數字人
■估值/融資輪次:2021年11月,中科深智獲得晨山資本約千萬美元B輪融資。
■核心競爭力:自主研發(fā)CLAP算法;多模態(tài)驅動技術;3D AIGC產品
■未來關鍵詞:元宇宙時代;AGI;AIGC
2月25日,OpenAI CEO薩姆·阿爾特曼又一次公開提到了AGI(通用人工智能)。
在他發(fā)表的文章中,這位當下全球的焦點人物強調了OpenAI的使命是確保AGI造福全人類,他認為,AGI如果被成功創(chuàng)造出來,可通過增加豐富度、推動全球經濟發(fā)展以及幫助發(fā)現改變可能性極限的新科學知識,幫助提升人類。
ChatGPT,這一近期引爆全球關注的“新物種”,是由Open AI于2022年11月30日推向世界的,也就是說,薩姆·阿爾特曼可被稱作“ChatGPT之父”,與此同時,他也是AGI的推崇者和踐行者。
在人工智能這條通往未來之路上,耕耘的人千千萬萬,中科深智創(chuàng)始人兼CEO成維忠便是其中一員。與薩姆·阿爾特曼以及他所開創(chuàng)的Open AI相比,成維忠以及他所創(chuàng)立的中科深智選擇了一條更具差異化的競爭路線。
成維忠本科畢業(yè)于中國科學技術大學物理系半導體專業(yè),研究生畢業(yè)于復旦大學世界經濟研究所,曾在中興通訊、光明乳業(yè)、北緯科技等上市公司任職。作為創(chuàng)業(yè)老兵,2016年,他又創(chuàng)建了中科深智,創(chuàng)始團隊沒有選擇Open AI的大語言模型方向,而是選擇了虛擬人動作和表情的生成技術這一較為小眾的切入點。
究其原因,在接受《每日經濟新聞》“對話未來商業(yè)”欄目(點擊直達專題:對話未來商業(yè)|記錄、預見、讓未來發(fā)生)專訪時,成維忠向記者透露,ChatGPT突破的大語言模型被業(yè)內視為AGI的“圣杯”,是大廠必定涉足的戰(zhàn)場;中科深智的創(chuàng)業(yè)團隊審時度勢,堅定了作為一家創(chuàng)業(yè)公司應避其鋒芒的自身站位。
與Open AI路徑不同,但與薩姆·阿爾特曼對AGI的狂熱相似的是,在接受記者采訪時,成維忠不止一次提到了“信仰”二字,而他的信仰便是“技術”本身。
“對于我們這些做技術的公司來說,如果只是為了贏利,卻不能發(fā)自內心地把技術做好,公司可能會很快死亡。”成維忠說。
但眼下,推出僅兩個月便俘獲全球1億用戶的ChatGPT,已引發(fā)了外界對于“元宇宙時代是否能真正到來”的質疑,乃至對虛擬人前景的擔憂。
ChatGPT引爆全球關注 每經記者 劉雪梅 攝
對此,成維忠表示,ChatGPT能夠提高虛擬人的智力,“但虛擬人的表情動作還是需要我們用其他大模型來解決。”在成維忠看來,元宇宙和ChatGPT不是替代關系,元宇宙是下一代互聯(lián)網的代名詞,是一個更大范疇的概念,“除非有一天我們證實了下一代互聯(lián)網不是以3D視覺、沉浸式環(huán)境為主的,那么元宇宙的概念就沒有被推翻。”
他表示,ChatGPT之所以能一炮而紅,并不僅僅是因為技術上取得的成果,而是因為ChatGPT的出現預示著下一代互聯(lián)網整個交互方式的改變。
成維忠認為,互聯(lián)網發(fā)展可以分為三個階段,第一個階段是PC互聯(lián)網時代,第二個階段是移動互聯(lián)網時代,第三個時代,則是元宇宙時代。他認為,元宇宙時代的關鍵詞是“Conversation”,即人機的擬人化交流?;谶@個認知,ChatGPT等LLM不可或缺,“生成式AI虛擬人也不可或缺”。
帶領中科深智走到現在,成維忠多少有點“賭”的成分。
“2015年,我和創(chuàng)始團隊就在討論,如果再創(chuàng)業(yè),我們是順著原來移動互聯(lián)網的方向走,還是找新方向。”成維忠回憶。
當時,移動互聯(lián)網創(chuàng)新的機會點已經越來越少,成維忠和創(chuàng)業(yè)伙伴們將眼光投向了下一代互聯(lián)網。當時還沒有完整概念的元宇宙,成為他們押注的未來。
“我們當時在想,下一代互聯(lián)網,無非要么做場景的技術,要么做物品的技術,要么做人的技術——我們覺得人的技術更重要。”成維忠說?;谶@些考量,起步時,成維忠就給中科深智下了這么一個定位:圍繞虛擬人動作和表情的生成技術,為各行各業(yè)提供以軟件和算法為主驅動的內容生產工具。
當記者問及為何不選擇大語言模型賽道時,成維忠說:“我覺得如果大廠一進來,肯定會把我們‘滅掉’。”
中科深智創(chuàng)立于2016年,那是一個人工智能方興未艾的年份。不到一年前,2015年12月,Open AI誕生,在成立時的定位是一家非營利機構,由阿爾特曼、特斯拉創(chuàng)始人馬斯克、PayPal聯(lián)合創(chuàng)始人蒂爾等硅谷科技大佬參與創(chuàng)立,承諾投資10億美元。
“成立的時候,Open AI起的調子就挺高的,當然不像現在這樣全世界都知道,但我們(業(yè)內)那時候都知道。”成維忠回憶,當時,Open AI計劃做開源的大語言模型,“雖然那時Open AI的方向沒有現在這么清晰,因為它現在用的底層技術是2017年谷歌才發(fā)布的。”
即便如今大名鼎鼎的Open AI,當時也不過是初出茅廬的狀態(tài),但包括成維忠在內的業(yè)內人士已經意識到,具備強勁資金基礎的大廠遲早會將大語音模型作為重心。
之所以如此確信,與大語言模型的特殊性有關。成維忠透露,一直以來,ChatGPT所取得突破的大語言模型被業(yè)內視為AGI的“圣杯”。
“人類資料中,最全面的信息便是語言的信息,樣本量是最大的,知識體系是最豐富的,做訓練就會比較容易。”在此基礎上,不少美國專家有一個基本觀點:用數學的角度來看,人類的大腦和語言的數學結構相近(隱馬爾可夫模型),如果這個假設成立的話,通過語言的不停迭代訓練,在取得了大的突破以后,AGI便實現了。
雖然打定了主意不做大語言模型,中科深智一開始還是走了一段試錯之路。
“早期,可選擇可嘗試的過程很多,一直到2017年谷歌推出Transformer,我們找到了方向,慢慢道路就清晰了。”成維忠提到,ChatGPT的底層技術也是Transformer,“當時,谷歌基于Transformer做了很多demo,我們也很興奮,慢慢就把精力聚焦到這個方向上。”
無論Open AI,還是中深科智,將技術重心壓到Transformer上,都冒了非常大風險。
由于早期一直專注在底層技術的研發(fā),沒有做太多商業(yè)化的事情,所以中科深智早期的研發(fā)費用都是由團隊自掏腰包籌集的。2019年,公司推出第一代較為成熟的產品,情況才有所改善。2020年,在創(chuàng)立四年之后,中科深智終于獲得千萬級天使輪融資。
下一個轉折點發(fā)生在2021年。企查查顯示,這一年年初,中科深智獲得著名投資機構金沙江創(chuàng)投領投的數千萬人民幣A輪融資。2021年11月,中科深智又獲得了晨山資本約千萬美元的B輪融資。
也正是在這一年,成維忠覺得自己“賭對了”。
“從整個發(fā)展趨勢來看,這個方向真的被我們押中了,我們感覺自己做得越來越對了。”成維忠說。
金沙江創(chuàng)投在官宣關于中科深智的融資消息時,時任金沙江創(chuàng)投主管合伙人的朱嘯虎表示:“未來將會是消費互聯(lián)網與企業(yè)服務并重的10年,我們持續(xù)看好用各類新技術為消費大場景B端賦能的初創(chuàng)企業(yè)。”
獲得明星投資人的青睞固然是好事,但作為技術出身的一名創(chuàng)業(yè)者,成維忠始終還有一種“壯志未酬”之感,他希望資本能夠看到中科深智更多的技術價值。
成維忠說,“投資人對我們有信心,是因為他們覺得我們在虛擬人領域的確是一家領頭的公司——一方面是我們做得早,另一方面我們也很聚焦。”
成維忠表示,國內投資人更看重具體的產品落地,關注核心業(yè)務在市場上的表現和應用前景,“和他們講一些特別‘飄’的事,他們不大感興趣。”
這或許也是中科深智較晚才獲得第一筆融資的原因。
成維忠回憶:“在那個時間點,我們覺得最痛苦的事就是,雖然我們認為這個方向很重要,但在和VC對話的時候,我們很難講清楚具體的實現路徑——我們認為路是能走通的,但具體該基于什么大模型來做,有很多種可能性和不確定性。”他清楚地記得,當時有投資人對他說:“既然你們覺得很重要,你們自己先砸錢再說。”
因此,公司創(chuàng)始團隊在早期,都是自掏腰包支撐公司的發(fā)展。
交談過程中,Open AI在美元資本助推下的崛起之路也讓成維忠感慨。在他看來,國內的資本市場邏輯和環(huán)境,更注重快速和短期的回報,會給在垂直領域推進生成式AI技術研發(fā)的企業(yè)帶來壓力。
守得云開見月明,獲得明星資本押注也算是階段性成功。在平衡資本的現實訴求和己身的技術理想的追求之間,中科深智已經走出了一條獨有的發(fā)展路線。
成維忠向記者介紹,中科深智定位為生成式AI虛擬人和3D AIGC技術公司,發(fā)展到現在,主要為三個部分。
第一個部分是底層算法,用成維忠的話來說,是“自己覺得很寶貝的事”。據悉,中科深智的底層算法為自主研發(fā)的CLAP算法,即Contrastive Language-Action Pretraining算法。
第二個部分是虛擬人業(yè)務中臺Motionverse,資料顯示,這是一個多模態(tài)動作生成驅動引擎,該引擎融合了XR和AI技術,可以用傳感器、語音、視頻等多種方式讓虛擬人動起來,隨時與用戶互動。成維忠將這部分定義為“外界覺得很重要,公司內部也覺得很重要”的部分。
第三個部分即3D AIGC產品。這一部分,在成維忠看來,是投資人更為看重的部分。
產品方面,以單個產品為例,針對市場需求,中科深智推出了“自動播”虛擬直播產品,讓虛擬主播們全年無休地滾動直播。據中科深智提供的數據,其虛擬主播產品已經服務了超過2000家客戶,占據主流電商平臺虛擬主播近70%的份額。
“整個市場是不停變化的,今年一個產品很好,三年以后還火不火很難確定。但是算法方向是一旦走順了就會越來越順。所以我們認為底層的東西會更重要一些。”成維忠說。
知止而后定,說到業(yè)務范圍,中科深智保持謹慎,“脫離開技術的事,比如說打造IP,都不是我們的業(yè)務范圍。”成維忠說。
事實上,成維忠認為,一家技術主導的公司在推出產品的時間點上需要多方考量。
“為什么ChatGPT火成這樣了,Open AI還是沒有推出產品?”成維忠分析,“一方面,是Open AI的團隊認為算法是不夠成熟的,在這種情況下,大量地推出產品可能會令用戶感到反感。另一方面,在一家公司不考慮營收和產品的時候,這家公司就可以all in到算法的迭代中,算法的迭代必然會比較快。”
成維忠認為,如果一家公司算法的迭代還沒到一個理想狀態(tài)就下場做產品和服務解決方案,“這自然會難受一些。”
伴隨著ChatGPT的一炮而紅,不少質疑聲襲向了虛擬人乃至元宇宙賽道。甚至有觀點認為,隨著ChatGPT成為焦點,虛擬人乃至背后的元宇宙,都會成為“明日黃花”。
成維忠顯然不認同這一觀點。在他看來,ChatGPT的出現加速了元宇宙新時代的到來,未來,會出現超級虛擬人助手擔當“元宇宙時代的入口”這一角色。
“我們過去互聯(lián)網的交互方式是菜單式的,菜單式的交互方式是科技發(fā)展的結果,與我們人的本能差距是非常大的。”成維忠說,“人類本能交流方式是通過聲音交流,或者面對面交流。”
在他看來,ChatGPT提供了新的可能性:“現下,ChatGPT提供的是文本的會話,之后也可以通過聲音進行交流,在對于未來的進一步想象中,對面也可以是一個虛擬人,我們和虛擬人進行溝通。”
也就是說,在成維忠預想的未來中,當前人們習慣的文本會話,很快會變成聲音的會話,并最終演變?yōu)槁曇艏右曈X的多媒體會話。也正是因此,成維忠認為,作為新時代的入口,虛擬人在未來世界中的地位不可撼動。
這一切的前提,是虛擬人技術的進一步成熟。值得一提的是,雖說業(yè)內大都認為ChatGPT能夠提高虛擬人的智力,并賦予虛擬人以“靈魂”,單就技術層面而言,距離一個理想中的虛擬人真正到來還有一段路要走。
成維忠提到,ChatGPT并不能解決虛擬人人機交互的所有問題,如果想要一個虛擬人笑起來、像人一樣走路,就需要中科深智這樣做虛擬人動作表情驅動的大模型算法。“從技術的角度來說,雖說ChatGPT會極大提升虛擬人的智力,但是它并不能讓虛擬人跟人的交互變得更為流暢、更為生動。”成維忠說。
這條路要走通,資本的支持必不可少。ChatGPT帶動的這場“狂飆”,能否給中科深智的發(fā)展帶來更多機會?資本們的態(tài)度會不會發(fā)生新的轉變?
“我不確定。”成維忠很快回答。在他看來,當下外界的關注度更多集中在大語言模型上,未來一個明顯的轉折點可能會發(fā)生在GPT4問世之后,“GPT4的側重點可能會從語言大模型到多模態(tài)學習上,等到那一天,VC可能會覺得針對垂直行業(yè)的多模態(tài)訓練才是未來比較誘人的方向。我堅信這一時間點會到來。”
而多模態(tài)訓練正是中科深智的擅長領域,通過多模態(tài)驅動技術,中科深智讓虛擬人更有活力地與人交互。
成維忠向記者表示,所謂的多模態(tài)訓練,是當人輸入一個文本信息到虛擬人時,ChatGPT可以將這個文本處理成虛擬人可以理解的語言,但在之后的階段,虛擬人具體如何動作,便與ChatGPT這一語言模態(tài)無關了,需要更多模態(tài)的參與。
當前階段,ChatGPT的出現已給中科深智在一級市場帶來了一定利好。至少,成維忠感覺到,當他跟別人談起中科深智到底是做什么的,聽得懂的人越來越多了。
在他的預判中,虛擬人的發(fā)展會比元宇宙快一步,“虛擬人技術雖然是元宇宙原生技術的一部分,虛擬人本身也是一個交互工具,解決了交互問題,對互聯(lián)網的交互升級會起到關鍵作用。”
他認為,在元宇宙真正到來之前,未來3到5年內,只要有屏幕有網絡的地方,便會有虛擬人的身影。
如需轉載請與《每日經濟新聞》報社聯(lián)系。
未經《每日經濟新聞》報社授權,嚴禁轉載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關注每日經濟新聞APP