每日經(jīng)濟(jì)新聞 2025-03-28 20:37:52
每經(jīng)記者 葉曉丹 每經(jīng)編輯 陳俊杰
近日,來(lái)自杭州的三家科技公司發(fā)布的大模型拿下全球最大AI開(kāi)源社區(qū)HuggingFace趨勢(shì)榜前三。
這三款模型分別是DeepSeek-v3、群核科技SpatialLM、通義千問(wèn)Qwen2.5-Omni。
《每日經(jīng)濟(jì)新聞》記者從阿里云方面了解到,Qwen2.5-Omni采用了通義團(tuán)隊(duì)全新首創(chuàng)的Thinker-Talker雙核架構(gòu),Position Embedding (位置嵌入)融合音視頻技術(shù),位置編碼算法TMRoPE(Time-aligned Multimodal RoPE)。
雙核架構(gòu)Thinker-Talker讓Qwen2.5-Omni擁有了人類(lèi)的“大腦”和“發(fā)聲器”,形成了端到端的統(tǒng)一模型架構(gòu),實(shí)現(xiàn)了實(shí)時(shí)語(yǔ)義理解與語(yǔ)音生成的高效協(xié)同。
3月27日凌晨,阿里巴巴發(fā)布并開(kāi)源首個(gè)端到端全模態(tài)大模型通義千問(wèn)Qwen2.5-Omni-7B,可同時(shí)處理文本、圖像、音頻和視頻等多種輸入,并實(shí)時(shí)生成文本與自然語(yǔ)音合成輸出。
相較于動(dòng)輒數(shù)千億參數(shù)的閉源大模型,Qwen2.5-Omni以7B的小尺寸讓全模態(tài)大模型在產(chǎn)業(yè)上的廣泛應(yīng)用成為可能。即便在手機(jī)上,也能輕松部署和應(yīng)用Qwen2.5-Omni模型。
而近期群核科技發(fā)布的空間理解開(kāi)源模型SpatialLM,登上全球最大AI開(kāi)源社區(qū)HuggingFace趨勢(shì)榜第二位。
公開(kāi)資料顯示,SpatialLM是群核科技自主研發(fā)的一款空間理解模型,該模型僅通過(guò)一段視頻即可生成物理正確的3D場(chǎng)景布局。不同于傳統(tǒng)大語(yǔ)言模型,SpatialLM突破了對(duì)物理世界幾何與空間關(guān)系的理解局限,將在機(jī)器類(lèi)人的空間認(rèn)知和解析能力上發(fā)揮重大作用。
而據(jù)《每日經(jīng)濟(jì)新聞》此前報(bào)道,3月24日,DeepSeek發(fā)布了V3的一個(gè)小版本更新,版本號(hào)為V3-0324。雖然官方稱這只是“小版本升級(jí)”,但實(shí)測(cè)能力接近V3.5版本,尤其在復(fù)雜邏輯和多模態(tài)理解上表現(xiàn)突出。
如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP