每日經(jīng)濟(jì)新聞

要聞

每經(jīng)網(wǎng)首頁(yè) > 要聞 > 正文

Open AI發(fā)布實(shí)時(shí)響應(yīng)的GPT-4o AI模型國(guó)產(chǎn)手機(jī)AI語(yǔ)音助手能趕上嗎？

每日經(jīng)濟(jì)新聞 2024-05-14 22:20:31

◎尤其在響應(yīng)速度方面，GPT-4o幾乎解決了延遲問(wèn)題，其可以在短短232毫秒內(nèi)響應(yīng)音頻輸入，平均為320毫秒，這接近于對(duì)話中的人類響應(yīng)的時(shí)間。

◎AI語(yǔ)音助手并不是一個(gè)新鮮事物，當(dāng)前幾乎各大手機(jī)廠商都在其智能手機(jī)中內(nèi)置了自己的AI語(yǔ)音助手，例如蘋(píng)果的“Siri”、小米的“小愛(ài)同學(xué)”、華為的“小藝”等。

每經(jīng)記者王晶每經(jīng)編輯梁梟

北京時(shí)間5月14日凌晨，Open AI公布了最新的GPT-4o人工智能模型，其中“o”代表“Omnimodel”（全能模型）。據(jù)悉，GPT-4o提供了GPT-4同水平的智能，并改進(jìn)了文本、視覺(jué)和音頻方面的能力，現(xiàn)在這款模型能夠以這三者任意組合的形式進(jìn)行輸入和輸出，交互方式更多樣、更自然。

GPT-4o的發(fā)布無(wú)疑在人工智能領(lǐng)域投下了一顆“重磅炸彈”，再結(jié)合近期一些消息——“蘋(píng)果公司被曝正與OpenAI敲定一項(xiàng)協(xié)議，今年將后者的部分技術(shù)引入iPhone，借此蘋(píng)果將能提供由ChatGPT支持的聊天機(jī)器人作為iOS 18中人工智能功能的一部分”，外界認(rèn)為，GPT-4o不僅會(huì)對(duì)國(guó)內(nèi)大模型行業(yè)帶來(lái)沖擊，同時(shí)也將為行業(yè)帶來(lái)新的機(jī)遇。

一位國(guó)內(nèi)手機(jī)廠商的AI從業(yè)者對(duì)記者分析稱：“從國(guó)內(nèi)目前的進(jìn)度來(lái)看，追上OpenAI達(dá)到的AI語(yǔ)音助手功能估計(jì)還需要一年左右的時(shí)間，這不是國(guó)內(nèi)和國(guó)外（在AI上）的差別，而是OpenAI vs（對(duì)抗）其他所有公司，OpenAI現(xiàn)在的優(yōu)勢(shì)在于語(yǔ)音情感化、實(shí)時(shí)視頻多模態(tài)以及‘恐怖’的推理速度。”

GPT-4o語(yǔ)音助手進(jìn)化：實(shí)時(shí)響應(yīng)，能識(shí)別用戶情感

雖然GPT-5沒(méi)有如期到來(lái)，但GPT-4o私人語(yǔ)音助手的進(jìn)化依舊讓不少人感嘆道：“太酷了。”

具體來(lái)看，在GPT-4o的支持下，它可以用各種語(yǔ)調(diào)、情緒給你講睡前故事，并且交互的語(yǔ)音感情豐富，可以變換語(yǔ)音語(yǔ)調(diào)、風(fēng)格，還可以隨時(shí)打斷，甚至“即興”唱歌。

Quartz報(bào)道稱，GPT-4o的情感屬性使AI聊天機(jī)器人比蘋(píng)果的Siri更加個(gè)性化。Siri給人的感覺(jué)就像在和一個(gè)機(jī)器人對(duì)話，但OpenAI的演示清楚地表明，GPT-4o具有“人工情感智能”，能夠識(shí)別用戶的情感并與你的情緒相匹配。

尤其在響應(yīng)速度方面，GPT-4o幾乎解決了延遲問(wèn)題，其可以在短短232毫秒內(nèi)響應(yīng)音頻輸入，平均為320毫秒，這接近于對(duì)話中的人類響應(yīng)的時(shí)間。并且，用戶在進(jìn)行對(duì)話時(shí)還可以隨時(shí)打斷。

在縮短延遲提升體驗(yàn)、情緒感知能力之外，GPT-4o在GPT-4的基礎(chǔ)上還進(jìn)行了多項(xiàng)升級(jí)，例如GPT-4o具有3D視覺(jué)內(nèi)容生成能力。演示人員手寫(xiě)“3X+1=4”數(shù)學(xué)題給GPT-4o看，GPT-4o便能在線語(yǔ)音指導(dǎo)如何一步步解題；而客戶端的ChatGPT則能隨時(shí)解決寫(xiě)代碼、讀圖表等任務(wù)。

性能提升的同時(shí)，GPT-4o價(jià)格還更便宜。OpenAI公司表示，新模型性能更強(qiáng)，接口調(diào)用價(jià)格卻只有此前模型的一半。所有用戶都可以免費(fèi)使用新模型，不過(guò)消息數(shù)量會(huì)受到限制，付費(fèi)用戶消息上限更高。預(yù)計(jì)新模型各項(xiàng)功能會(huì)在未來(lái)幾周逐步推出。

AI語(yǔ)音助手重回焦點(diǎn)

OpenAI今天更新后，數(shù)年前飽受詬病的AI語(yǔ)音助手又重回人們的視線。過(guò)去，人跟AI進(jìn)行語(yǔ)音對(duì)話，基本上都經(jīng)歷三步：用戶說(shuō)話后AI進(jìn)行語(yǔ)音識(shí)別，即音頻轉(zhuǎn)文本；大模型拿到這段文本，進(jìn)行回復(fù)，產(chǎn)出文本；文本進(jìn)行語(yǔ)音合成，變成音頻。但上述三個(gè)階段會(huì)導(dǎo)致較長(zhǎng)的延遲以及信息損耗，無(wú)法表達(dá)情感等。

AI語(yǔ)音助手并不是一個(gè)新鮮事物，當(dāng)前幾乎各大手機(jī)廠商都在其智能手機(jī)中內(nèi)置了自己的AI語(yǔ)音助手，例如蘋(píng)果的“Siri”、小米的“小愛(ài)同學(xué)”、華為的“小藝”、榮耀的“YOYO”、OPPO的“小布”。

其中，為人熟知的當(dāng)屬Siri。公開(kāi)資料顯示，Siri于2011年問(wèn)世，當(dāng)時(shí)被譽(yù)為AI技術(shù)的突破。然而多年來(lái)，Siri在某些方面的表現(xiàn)仍不夠理想。例如，Siri的語(yǔ)音識(shí)別能力還有待提高，在某些情況下，Siri可能會(huì)無(wú)法準(zhǔn)確地識(shí)別用戶的語(yǔ)音，導(dǎo)致用戶無(wú)法得到他們想要的信息或服務(wù)；其次，Siri的理解能力也有限，它很難理解對(duì)話的上下文，并只能執(zhí)行簡(jiǎn)單的任務(wù)。

Siri的聯(lián)合創(chuàng)始人、前首席執(zhí)行官達(dá)格·基特勞斯（Dag Kittlaus）甚至曾直言，在被蘋(píng)果收購(gòu)后，Siri可能沒(méi)有充分發(fā)揮其潛力，但語(yǔ)音助手仍將是數(shù)字技術(shù)的未來(lái)。

相比之下，Google Assistant和OpenAI的ChatGPT具有先進(jìn)的自然語(yǔ)言處理能力，這使它們能夠理解人類語(yǔ)言的細(xì)微差別并作出相應(yīng)的反應(yīng)。一旦蘋(píng)果與OpenAI達(dá)成協(xié)議，蘋(píng)果不僅可以縮短產(chǎn)品研發(fā)周期，還可以利用OpenAI在人工智能領(lǐng)域的積累迅速提升自家產(chǎn)品的智能化水平，帶來(lái)更加智能、更加互動(dòng)的Siri。

放眼國(guó)內(nèi)手機(jī)廠商，近年來(lái)國(guó)產(chǎn)手機(jī)廠商發(fā)布的新手機(jī)中，部署在手機(jī)“端側(cè)”的AI大模型成為重中之重。其中，OPPO推出安第斯大模型，參數(shù)量從70億到1000億，可以部署在端側(cè)和云端；vivo藍(lán)心大模型的參數(shù)量從10億到1750億，可以部署在端側(cè)和云端；小米MiLM大模型參數(shù)從13億到60億，主要部署在端側(cè)；榮耀“魔法大模型”則有70億參數(shù)，主要部署在端側(cè)。

在AI落地應(yīng)用方面，當(dāng)前國(guó)內(nèi)的AI技術(shù)主要集中在自動(dòng)攝像頭控制、人臉識(shí)別和身份驗(yàn)證、語(yǔ)音識(shí)別和轉(zhuǎn)錄等方面。其中，日常生活里，AI可以對(duì)語(yǔ)音助手、自動(dòng)化辦公、智能推薦系統(tǒng)等場(chǎng)景進(jìn)行大幅優(yōu)化，增強(qiáng)體驗(yàn)減少冗余工作量；在娛樂(lè)方面，AI可以處理復(fù)雜圖像視頻，如圖像增強(qiáng)、分辨率增強(qiáng)、圖像修復(fù)、色彩校正、消除物體以及智能摳像等等。此外，AI還能夠從各種格式（例如，音頻、視頻、電子郵件附件）的長(zhǎng)篇內(nèi)容提取內(nèi)容，生成簡(jiǎn)潔的摘要等等。

值得關(guān)注的是，當(dāng)前主流手機(jī)廠商推出的大模型應(yīng)用其實(shí)并沒(méi)有太大差異。從長(zhǎng)遠(yuǎn)發(fā)展來(lái)看，AI助手可以深度集成于操作系統(tǒng)，擁有理解與預(yù)測(cè)用戶需求的能力，進(jìn)而為實(shí)現(xiàn)無(wú)縫銜接的跨應(yīng)用服務(wù)提供支持。

在回應(yīng)幾年之后榮耀的AI會(huì)帶來(lái)怎樣的想象力或者場(chǎng)景時(shí)，榮耀CEO趙明曾在今年3月表示：“我們堅(jiān)信AI可以改變智能手機(jī)的未來(lái)，今天即使做得最好的蘋(píng)果實(shí)際上操作也非常不方便，未來(lái)用AI勢(shì)能改造的時(shí)候，比如說(shuō)一個(gè)電子設(shè)備，我需要它的服務(wù)，用眼睛一看，就提供相應(yīng)服務(wù)；或者打一個(gè)響指，這個(gè)服務(wù)就會(huì)過(guò)來(lái)。”

當(dāng)談及國(guó)產(chǎn)手機(jī)人工智能助手與GPT-4o之間的差距時(shí)，一位從業(yè)人士對(duì)記者稱：“主要（差距）還是算法和云端算力。”前述AI從業(yè)者則表示：“我們初步看了一些榜單，阿里通義千問(wèn)多模態(tài)模型已經(jīng)超越了GPT-4V，當(dāng)然，它離GPT-4o還有差距?，F(xiàn)在的問(wèn)題是，OpenAI是一家公司，而國(guó)內(nèi)可能得幾家（大模型廠商）組裝起來(lái)（才能）追齊，我們的壓力還是很大的，目前OpenAI（處于）斷崖式超前。”

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán)，嚴(yán)禁轉(zhuǎn)載或鏡像，違者必究。

讀者熱線：4008890008

特別提醒：如果我們使用了您的圖片，請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站，可聯(lián)系我們要求撤下您的作品。

GPT OpenAI 語(yǔ)音助手

上一篇文章

三花智控：公司及控股子公司擬使用不超過(guò)人民幣28億元閑置自有資金購(gòu)買理財(cái)產(chǎn)品

返回每經(jīng)網(wǎng)首頁(yè)

下一篇文章

魯信創(chuàng)投：全資子公司擬向國(guó)聯(lián)證券出售所持民生證券股份

相關(guān)文章

熱文精選

點(diǎn)擊排行

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

關(guān)注我們
辟謠專區(qū)

加入我們
招聘專頁(yè)

Copyright ? 2025 每日經(jīng)濟(jì)新聞報(bào)社版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載使用，違者必究。

廣告熱線? 北京: 010-57613265，?上海: 021-61283008，?廣州: 020-84201861，?深圳: 0755-83520159，?成都: 028-86512112

網(wǎng)絡(luò)社會(huì)征信網(wǎng)

兒童色情信息舉報(bào)專區(qū)

成都市互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

四川省互聯(lián)網(wǎng)舉報(bào)中心

中國(guó)互聯(lián)網(wǎng)舉報(bào)中心

每日經(jīng)濟(jì)新聞互聯(lián)網(wǎng)不良與違法信息舉報(bào)中心

互聯(lián)網(wǎng)新聞信息服務(wù)許可證：51120190017 網(wǎng)站備案號(hào)：蜀ICP備19004508號(hào)-3 川公網(wǎng)安備 51019002002026號(hào)

新聞職業(yè)道德監(jiān)督熱線：400 889 0008 郵箱：zbb@nbd.com.cn

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人在线免费