每日經(jīng)濟新聞 2024-12-19 21:45:44
12月18日,字節(jié)跳動在上海世博中心正式發(fā)布豆包視覺理解模型,該模型具備出色的內(nèi)容識別、理解和推理,以及視覺描述和創(chuàng)作等能力,價格僅為3厘/千tokens,標志著多模態(tài)模型價格邁入“厘時代”。火山引擎總裁譚待稱,豆包大模型通過技術(shù)創(chuàng)新降低成本,在算法、軟件工程和硬件方案上做了很多優(yōu)化?,F(xiàn)階段,國內(nèi)大模型廠商在人才、算力、性能和產(chǎn)品獲客等方面的競爭日趨激烈,但譚待表示不太關(guān)心競爭,而更關(guān)注用戶需求。
每經(jīng)記者 楊昕怡 每經(jīng)編輯 董興生
12月日均tokens(處理文本最小單位)使用量超過4萬億,較5月發(fā)布時增長了33倍;價格僅為3厘/千tokens,1元就可以處理284張720P的圖片,比行業(yè)平均價格降低了85%。
12月18日,“2024火山引擎FORCE原動力大會•冬”上,字節(jié)跳動正式發(fā)布豆包視覺理解模型,無論性能升級還是價格下降,都再次引發(fā)行業(yè)巨震。
“視覺是人類了解這個世界最重要的成分,對于大模型來說也是如此。”火山引擎總裁譚待在發(fā)布現(xiàn)場如是介紹。據(jù)稱,該模型具備更出色的內(nèi)容識別、理解和推理,以及視覺描述和創(chuàng)作等能力。而該價格的推出,也標志著繼通用大模型后,多模態(tài)模型價格邁入“厘時代”。
圖片來源:每經(jīng)記者 楊昕怡 攝
此前的5月份,豆包剛一亮相就以比行業(yè)便宜99.3%的價格帶動了行業(yè)的“降價潮”,而此次多模態(tài)的“低價”難免讓外界猜測,多模態(tài)模型的價格戰(zhàn)要來了?
針對外界爭議,12月19日,抖音集團副總裁李亮在微博直接發(fā)聲回應(yīng):“這不是價格戰(zhàn)。”他解釋稱,豆包大模型通過技術(shù)創(chuàng)新來降低成本,在算法、軟件工程和硬件方案上做了非常多的優(yōu)化。“3厘/千tokens的定價也有可觀的毛利。而且這是一步到位的透明價格,并不是‘刊例價+折扣’的玩法。”
現(xiàn)階段,國內(nèi)大模型廠商在人才、算力、性能和產(chǎn)品獲客等方面的競爭日趨激烈。對于大模型產(chǎn)品的市場競爭,譚待對《每日經(jīng)濟新聞》記者表示:“我現(xiàn)在不太關(guān)心競爭,因為(大模型)這個市場還在很早期,可能才開發(fā)出千分之一。這個時候其實不用關(guān)心競爭的問題,關(guān)心的(應(yīng)該)是用戶的需求到底哪些沒有被滿足。”
12月18日的上海世博中心,豆包大模型再次成為這里的焦點——更多展臺、更多模型、更多前來的觀眾以及更多關(guān)于豆包的討論,足以顯示出過去7個月中豆包大模型在性能以及市場聲量上的進步。
記者在發(fā)布會現(xiàn)場了解到,截至12月中旬,豆包通用模型的日均tokens使用量已超過4萬億,較7個月前首次發(fā)布時增長了33倍。
日均tokens使用量上漲的同時,豆包也在快速成為一名“六邊形戰(zhàn)士”。發(fā)布會上,豆包視覺理解模型正式發(fā)布,豆包大模型家族再次擴容。
據(jù)譚待介紹,豆包視覺理解模型不僅能精準識別視覺內(nèi)容,還具備出色的理解和推理能力,可根據(jù)圖像信息進行復(fù)雜的邏輯計算,完成分析圖表、處理代碼、解答學科問題等任務(wù)。此外,該模型有著細膩的視覺描述和創(chuàng)作能力。
發(fā)布會上的演示視頻展示,該模型可以識別視頻畫面中的物體、解釋雜志內(nèi)頁的天文圖片、分析體檢報告內(nèi)的具體指標、讀懂電腦屏幕上的代碼,甚至還能記得桌面物品的擺放位置、給用戶提供穿搭意見和為用戶識別地標、提供出行建議等。
圖片來源:每經(jīng)記者 楊昕怡 攝
“好的模型,就是要讓每一家企業(yè)都用得起。”發(fā)布會上,譚待公布了豆包視覺理解模型的價格,宣布多模態(tài)定價正式邁入“厘時代”。
“這不是價格戰(zhàn)。”李亮在微博發(fā)聲回應(yīng)稱,“豆包大模型通過技術(shù)創(chuàng)新來降低成本,在算法、軟件工程和硬件方案上做了非常多優(yōu)化,3厘/千tokens的定價也有可觀的毛利。”
譚待在發(fā)布會后接受采訪時表示:“我們的算力儲備肯定是非常夠的,而且我們在工程技術(shù)上做了非常多的優(yōu)化。這也是我們有信心去大規(guī)模、低價格、高吞吐地承接業(yè)界服務(wù)上很重要的一點。”
“未來,金融、醫(yī)療、建筑、教育、體育和物流等諸多行業(yè)里將涌現(xiàn)出新的大模型應(yīng)用場景案例。”在譚待看來,豆包視覺理解模型將極大地拓展大模型應(yīng)用的場景邊界,為更多行業(yè)企業(yè)提供具有性價比的多模態(tài)大模型能力。
記者從火山引擎方面了解到,在B端市場上,豆包大模型目前已與八成主流汽車品牌合作,并接入多家手機、PC等智能終端,覆蓋終端設(shè)備約3億臺,來自智能終端的豆包大模型調(diào)用量在半年時間內(nèi)增長了100倍。
12月19日,有報道稱,蘋果公司正與騰訊、字節(jié)跳動商談,將兩家公司的人工智能模型整合到在中國銷售的iPhone中,但談判仍處于早期階段。截至發(fā)稿,字節(jié)跳動對此暫未回應(yīng)。
不過,隨后,字節(jié)跳動官方賬號發(fā)布風險提示稱,近期,資本市場出現(xiàn)炒作“豆包概念股”現(xiàn)象,流傳著眾多夸大其詞甚至是虛構(gòu)的內(nèi)容,涉及字節(jié)跳動資本開支、數(shù)據(jù)中心花費、AI硬件、應(yīng)用合作等多方面。請投資者切勿輕信市場傳言,以免遭受不必要的投資損失。
“目前,國內(nèi)安卓手機大部分都在和豆包合作。”被問及與蘋果合作一事時,譚待也沒有正面回復(fù),而是提及了豆包和國內(nèi)多家手機廠商的合作。
“手機的場景很多,所以對手機廠商來說,會在某些場景用豆包,某些場景用其他的大模型,或者某一個場景混合使用。對企業(yè)來說,肯定也需要一個多云或多模型的策略,這個我覺得很正常。最終還是誰能力更好、成本更低,(手機廠商)就會用誰,這筆賬就很好算。”譚待表示。
圖片來源:每經(jīng)記者 楊昕怡 攝
同時,他向《每日經(jīng)濟新聞》記者指出,區(qū)別于以往的技術(shù)產(chǎn)品,大模型在B端和C端獲客上不再割裂,而是齊頭并進。
“大家天天刷抖音,但會天天用火山引擎的云嗎?這兩者沒有必然關(guān)系。因為你看重抖音的價值和你看重火山引擎的價值是完全不一樣的,你個人用云沒有這個需求。但大模型不一樣,大模型的C端和B端背后都是同一個東西,就是模型本身。”譚待以一個細節(jié)舉例,在被企業(yè)問及如何進行AI轉(zhuǎn)型時,他有時會直接建議企業(yè)CEO下載豆包App試用,以便于去想象哪些企業(yè)場景需要大模型的應(yīng)用。
時至今日,以技術(shù)為中心的“百模大戰(zhàn)”篩選出了一批能夠進入新賽程的選手,而變現(xiàn)壓力也逐漸顯現(xiàn)。
不可忽視的是,國內(nèi)大模型產(chǎn)品在B端、C端獲客上的競爭日趨激烈。
今年11月,月之暗面創(chuàng)始人楊植麟在接受《每日經(jīng)濟新聞》記者采訪時指出,目前Kimi最為核心的任務(wù)是提升留存,“(令自己滿意的留存)永無止境”。
先于豆包2天,Kimi在12月16日發(fā)布了視覺思考模型k1。據(jù)介紹,在數(shù)學、物理、化學等基礎(chǔ)科學學科的基準能力測試中,初代k1模型的表現(xiàn)超過了OpenAI o1、GPT-4o以及Claude 3.5 Sonnet。
今年10月,《每日經(jīng)濟新聞》記者也從月之暗面方面證實,業(yè)界頂尖的語音技術(shù)專家——微軟亞洲研究院前首席研究經(jīng)理譚旭已正式加入月之暗面。不難看出,豆包的對手們也在大力投入,堅定追逐多模態(tài)。
“從我的角度,現(xiàn)在不太關(guān)心(市場)競爭,因為這個市場還在很早期,可能才開發(fā)出千分之一。”面對大模型領(lǐng)域的戰(zhàn)況,譚待顯得淡然。“肯定有競爭,但這不是最關(guān)鍵的。最關(guān)鍵的是,能不能把自己的東西做好、把成本做低、把方案的落地應(yīng)用性做好,讓企業(yè)和用戶真正能用起來。”
如需轉(zhuǎn)載請與《每日經(jīng)濟新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟新聞》報社授權(quán),嚴禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟新聞APP