每日經(jīng)濟(jì)新聞
今日?qǐng)?bào)紙

每經(jīng)網(wǎng)首頁 > 今日?qǐng)?bào)紙 > 正文

搜狗速記工具“搜狗聽寫”注重場景體驗(yàn) 以開放態(tài)度助力AI商業(yè)化落地

每日經(jīng)濟(jì)新聞 2017-08-10 00:42:06

Graywatermark.thumb_head

語音記錄,是記者、編輯、作家等文字工作者們常用的記錄方式。但是,對(duì)于記錄者來說,語音并不方便后期的整理、分享和追溯,這也導(dǎo)致聽語音記錄的過程耗時(shí)耗力,影響信息的溝通。近日,搜狗推出語音實(shí)時(shí)變文字的速記工具“搜狗聽寫”,解決會(huì)議、采訪、寫作等場景下長語音內(nèi)容轉(zhuǎn)寫難題。

而這僅僅是搜狗AI技術(shù)商業(yè)落地的一小步,目前,搜狗已經(jīng)建立了強(qiáng)大的語音自研團(tuán)隊(duì),擁有互聯(lián)網(wǎng)規(guī)模最大的語音數(shù)據(jù)。搜狗語音交互技術(shù)中心總經(jīng)理王硯峰介紹,自去年開始進(jìn)行AI的技術(shù)研發(fā)和布局,已經(jīng)有些產(chǎn)品使用搜狗的AI能力。未來,會(huì)在可穿戴、車載、客廳場景下,自主研發(fā)更多的硬件。同時(shí),搜狗也會(huì)積極推廣AI云平臺(tái)、AI云服務(wù),服務(wù)更多的行業(yè)伙伴。在更多的垂直產(chǎn)品場景下,做更多好的產(chǎn)品,服務(wù)垂直行業(yè)的用戶群體。

碼字效率提升10倍

如果你是一個(gè)文字工作者,肯定經(jīng)常遇到這樣的苦惱:參加會(huì)議、外出采訪的音頻文件,整理成文字需要等上幾個(gè)小時(shí)的時(shí)間,手動(dòng)記錄的話一不小心就會(huì)漏掉重點(diǎn);身邊沒電腦又著急趕稿時(shí),手機(jī)打字讓人心急如焚;突然來了靈感,卻苦于不方便記錄讓好想法悄然溜掉……另外在日常工作和生活中還要整理各種各樣的音頻文件,工作效率大打折扣。

針對(duì)此痛點(diǎn),搜狗推出一款可以將語音實(shí)時(shí)變文字的速記工具“搜狗聽寫”,能夠解決會(huì)議、采訪、寫作等場景下長語音內(nèi)容轉(zhuǎn)寫問題,大大提高記者、作家甚至速記工作者的工作效率。

據(jù)了解,搜狗聽寫的功能相當(dāng)強(qiáng)大,可以支持寫文章、采訪錄音、會(huì)議記錄、筆記整理、日常記事等場景,幫助用戶實(shí)現(xiàn)高效記錄和信息輸入。而且針對(duì)不同場景和需求,搜狗聽寫可以支持“聽寫”和“轉(zhuǎn)寫”兩種模式。

在“聽寫”模式下,錄音的同時(shí)即可實(shí)時(shí)給出識(shí)別結(jié)果,話音落文字出,幾乎沒有時(shí)間差;而“轉(zhuǎn)寫”模式下則可以離線錄音,錄音完成后一次性獲取文字結(jié)果。同時(shí),為了提高文字整理效率,搜狗聽寫還貼心地加入了邊聽邊改、無線標(biāo)重點(diǎn)、多端同步、信息分享等人性化功能,大幅度提升記錄效率,讓文字編輯更輕松。

另外,搜狗聽寫還有分享功能,支持文字、圖片和鏈接形式,你可以根據(jù)自己的需求選擇分享方式,將轉(zhuǎn)寫出的文本通過微信、QQ、郵件、微博、朋友圈等分享給其他人。

王硯峰表示,“搜狗聽寫作為一款多場景的語音聽寫工具,其產(chǎn)品的關(guān)鍵在于語音識(shí)別準(zhǔn)確率,而通過大規(guī)模的優(yōu)質(zhì)語音訓(xùn)練數(shù)據(jù)和深度學(xué)習(xí)的技術(shù)能力積累,搜狗也將這種語音識(shí)別的技術(shù)優(yōu)勢轉(zhuǎn)化到了更多的適用場景中。”

技術(shù)實(shí)力保障場景識(shí)別準(zhǔn)確率

場景中的語音識(shí)別最考驗(yàn)技術(shù)的扎實(shí)度,用戶最關(guān)心的也是語音轉(zhuǎn)寫準(zhǔn)確率。據(jù)了解,為了保證在各種復(fù)雜場景下都能精準(zhǔn)轉(zhuǎn)寫,搜狗聽寫采用了大量的前沿技術(shù)。在轉(zhuǎn)寫方面,搜狗聽寫使用了搜狗知音獨(dú)家研發(fā)的長時(shí)語音轉(zhuǎn)寫技術(shù),并與業(yè)內(nèi)領(lǐng)先的端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)深度整合。

由于采用了業(yè)內(nèi)領(lǐng)先的端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù),搜狗聽寫的語音識(shí)別準(zhǔn)確率已經(jīng)達(dá)到業(yè)內(nèi)領(lǐng)先水平,在支持自動(dòng)標(biāo)點(diǎn)的能力方面,可以根據(jù)語義自動(dòng)添加標(biāo)點(diǎn),標(biāo)點(diǎn)類型在滿足逗號(hào)、句號(hào)、問號(hào)、嘆號(hào)的基礎(chǔ)上,還率先擴(kuò)充了書名號(hào)。

根據(jù)搜狗語音交互技術(shù)中心技術(shù)總監(jiān)陳偉介紹,搜狗聽寫使用了搜狗知音引擎的長時(shí)語音轉(zhuǎn)寫技術(shù),從立項(xiàng)到現(xiàn)在,錯(cuò)誤率已經(jīng)下降了30%。在聲學(xué)模型方面,采用了端到端深度神經(jīng)網(wǎng)絡(luò)技術(shù)Deep LC-CLDNN+CTC技術(shù),轉(zhuǎn)寫模式則使用了Deep CNN+CTC的方式,語言模型基于T級(jí)海量輸入法文本數(shù)據(jù)使用神經(jīng)網(wǎng)絡(luò)進(jìn)行建模。

“從去年年底想做這款產(chǎn)品的時(shí)候,我們就在考慮,在技術(shù)上永遠(yuǎn)不可能做到100%。反過頭來,看大家的需求是什么。大家最關(guān)心的是怎么方便大家進(jìn)行文檔的整理,怎么能夠更方便進(jìn)行內(nèi)容的查找。”王硯峰表示,這款產(chǎn)品識(shí)別準(zhǔn)確率已經(jīng)達(dá)到領(lǐng)先水平,但做產(chǎn)品的過程中并不是技術(shù)導(dǎo)向,而是產(chǎn)品導(dǎo)向。重點(diǎn)在怎么更多地結(jié)合用戶的場景和需求,把需求和場景結(jié)合起來成為好的聽說產(chǎn)品。

因此,據(jù)了解,在應(yīng)用場景上,搜狗聽寫針對(duì)用戶的使用場景,如開會(huì),寫小說等場景進(jìn)行優(yōu)化,識(shí)別效果較通用效果提升15%以上;還針對(duì)圖書館、咖啡廳等不便于大聲說話而又有使用語音的場景,提供耳語識(shí)別技術(shù),在人的說話音量低至30分貝時(shí),依然可以準(zhǔn)確識(shí)別。

在工作移動(dòng)化、時(shí)間碎片化的今天,如果你經(jīng)常面臨需要錄音的工作,不妨試試搜狗聽寫,相信工作效率會(huì)大大提升。據(jù)了解,搜狗聽寫有iOS和安卓兩個(gè)版本,用戶可根據(jù)自身需求下載安裝體驗(yàn)。

人工智能是新“賽道”

語音速記是語音識(shí)別技術(shù)的應(yīng)用之一,主打AI的搜狗也是其中一家,目前,搜狗已經(jīng)建立了強(qiáng)大的語音自研團(tuán)隊(duì),擁有互聯(lián)網(wǎng)規(guī)模最大的語音數(shù)據(jù)。

王硯峰介紹,搜狗知音是搜狗一年前發(fā)布的語音交互引擎,主打“自然交互+知識(shí)計(jì)算”的技術(shù)戰(zhàn)略。發(fā)展一年之后,目前已經(jīng)完善了引擎架構(gòu):基于搜狗輸入法和搜索引擎兩個(gè)入口,以大數(shù)據(jù)+深度學(xué)習(xí)為基礎(chǔ),上層建造語言 AI+語音AI+圖像AI,再延伸至對(duì)話、翻譯、TTS、OCR、識(shí)圖等。搜狗的語音識(shí)別技術(shù)服務(wù)的日訪問量也從2015年的0.55億次/日一路發(fā)展到2017年的2.6億次/日。為搜狗智能語音系統(tǒng)提供了海量的真實(shí)語料數(shù)據(jù),使得機(jī)器不斷學(xué)習(xí),識(shí)別準(zhǔn)確率越來越高,可應(yīng)用的場景也越來越廣泛。

事實(shí)上,AI是搜狗未來重要的核心戰(zhàn)略。搜狗CEO王小川也很早就為搜狗寫下了人工智能的新故事。王小川曾表示,“人類對(duì)于人工智能的終極描繪,始終是同人一樣進(jìn)行自然的語言交流,這也是搜狗人工智能的發(fā)展目標(biāo)。”而以語言理解為核心,讓輸入法走向?qū)υ捪到y(tǒng),讓搜索走向問答系統(tǒng)的搜狗,勢必也將成為未來智能生活最重要的入口之一。

不久前,王小川在發(fā)給內(nèi)部的全員信中表示,搜狗已完成了向移動(dòng)的轉(zhuǎn)型。王小川在內(nèi)部信中把搜索比作“競爭激烈的賽道”,稱搜狗取得了階段性成功,人工智能則是下一個(gè)賽道。在他看來,未來搜狗將繼續(xù)以語言為核心,在“自然交互+知識(shí)計(jì)算”的技術(shù)路線圖上繼續(xù)探索,改進(jìn)人機(jī)交互界面,研發(fā)未來交互問答式的下一代搜索引擎新形態(tài),成為中國人工智能領(lǐng)域的創(chuàng)新者和引領(lǐng)者。

堅(jiān)持差異化產(chǎn)品布局,著力人工智能是搜狗搜索穩(wěn)居第二的關(guān)鍵所在。在王小川看來,“搜索即AI”,業(yè)務(wù)上也呈現(xiàn)出機(jī)器翻譯、輸入法、AI開放平臺(tái)等多條產(chǎn)品線并發(fā)的局面。未來的顛覆性技術(shù)力量是人工智能,而搜狗是為語言理解而生。“我們將基于對(duì)自然語言的交互和計(jì)算,將搜索升級(jí)到問答系統(tǒng),將輸入法升級(jí)到對(duì)話系統(tǒng),并通過翻譯將中文世界與全世界連接。”

AI商業(yè)應(yīng)用年底持續(xù)落地

隨著語音識(shí)別性能力的提升和市場教育的完成,基于語音交互的垂直場景應(yīng)用將日益成熟。行業(yè)預(yù)測,未來1~3年將迎來產(chǎn)業(yè) 高速發(fā)展期。同時(shí),基于智能語音交互垂直場景如,家居、車載、可穿戴、機(jī)器人等將備受追捧。

在此背景之下,此次推出搜狗聽寫產(chǎn)品,是搜狗語音深入用戶垂直場景下的又一個(gè)全新探索,通過更加專注于特定的場景和人群,去理解用戶需求、解決實(shí)際問題,從而讓語音技術(shù)為更多人所用。

按照過往的行業(yè)發(fā)展經(jīng)驗(yàn),產(chǎn)品落地孰先孰后,似乎并不是決定性的因素,可是目之所及,人工智能的產(chǎn)品落地,已經(jīng)趨向白熱化了。綜合搜狗在人工智能上的產(chǎn)品布局,我們可以清晰地發(fā)現(xiàn),讓人工智能更“接地氣”,已經(jīng)成為搜狗在人工智能領(lǐng)域的獨(dú)特標(biāo)志。

王硯峰表示,在未來一年里,搜狗AI將會(huì)在更多的產(chǎn)品落地:一是可穿戴、車載、客廳場景內(nèi)自主研發(fā)更多硬件;二是進(jìn)一步推廣AI云平臺(tái);三是在更多用戶垂直場景下,推出更多用戶產(chǎn)品。

“搜狗聽寫與其他的差異在于兩點(diǎn),一是其他產(chǎn)品不能像搜狗聽寫那樣支持長時(shí)間錄音+免費(fèi)轉(zhuǎn)寫支持,二是搜狗聽寫更面向垂直場景,在記者采訪、作家寫作等場景下進(jìn)行了功能優(yōu)化(比如加入遠(yuǎn)程藍(lán)牙標(biāo)注重點(diǎn)技術(shù)),為用戶帶來更好的產(chǎn)品體驗(yàn)。”在回答競爭力的問題上,王硯峰顯得信心十足,而且有著清晰的邏輯。

在搜狗看來,在車載和家庭市場,雖然玩家很多,但市場格局還沒有形成。當(dāng)市場格局還沒有形成,且距市場成熟期還很早的時(shí)候,就有機(jī)會(huì)快速地?fù)屨际袌?,開發(fā)自己的產(chǎn)品,并且掌握市場份額。

除了自我研發(fā)智能硬件,搜狗還將以開放的態(tài)度共享AI技術(shù)。王硯峰表示,目前的中小開發(fā)者對(duì)于智能語音入口的產(chǎn)業(yè)格局是形不成有力威脅的,牌還是在巨頭的手上。搜狗做這件事情是為了搶奪未來的語音入口,會(huì)找適合自己的幾款,最有用戶痛點(diǎn)的幾款硬件,同時(shí)也會(huì)與合作伙伴合作,這兩個(gè)之間并不存在非此即彼的關(guān)系,它們之間是互補(bǔ)的關(guān)系。

如需轉(zhuǎn)載請(qǐng)與《每日經(jīng)濟(jì)新聞》報(bào)社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報(bào)社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。

讀者熱線:4008890008

特別提醒:如果我們使用了您的圖片,請(qǐng)作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。

搜狗速記工具“搜狗聽寫” AI商業(yè)化

歡迎關(guān)注每日經(jīng)濟(jì)新聞APP

每經(jīng)經(jīng)濟(jì)新聞官方APP

0

0

免费va国产高清不卡大片,笑看风云电视剧,亚洲黄色性爱在线观看,成人 在线 免费