每日經(jīng)濟(jì)新聞 2018-03-28 17:28:16
湯幟對《每日經(jīng)濟(jì)新聞》(以下簡稱NBD)記者表示,經(jīng)過將近20年的探索,整個數(shù)字出版行業(yè)在技術(shù)上已經(jīng)趨于成熟,而近兩年發(fā)力的點(diǎn)則是文檔處理和知識服務(wù)技術(shù)的升級。
每經(jīng)編輯 每經(jīng)記者 張虹蕾
北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所副所長湯幟
每經(jīng)記者 張虹蕾 北京攝影報道 每經(jīng)編輯 任芷霓
作為當(dāng)代中國印刷業(yè)革命的先行者,計(jì)算機(jī)漢字激光照排技術(shù)創(chuàng)始人王選的“得意門生”,北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所(以下簡稱北大計(jì)算機(jī)研究所)副所長湯幟已經(jīng)在新聞出版應(yīng)用技術(shù)領(lǐng)域征戰(zhàn)已近30年。
從跨進(jìn)北大校門算起,今年已經(jīng)是湯幟在北大學(xué)習(xí)和工作的第35個年頭。自1987年師從王選教授攻讀碩士研究生開始,湯幟就把全部的精力投入到軟件的研究與開發(fā)。湯幟對于我國自有知識產(chǎn)權(quán)軟件領(lǐng)域有兩大貢獻(xiàn),分別為方正飛騰排版與方正阿帕比數(shù)字版權(quán)保護(hù)系統(tǒng)。
業(yè)界對于湯幟的美譽(yù)頗多,有人說湯幟率領(lǐng)的團(tuán)隊(duì)的努力帶活了一個產(chǎn)業(yè),把Adobe等強(qiáng)敵擋在國外。而在北京大學(xué)計(jì)算機(jī)科學(xué)技術(shù)研究所35周年之際,《每日經(jīng)濟(jì)新聞》記者專訪湯幟,和他一起探討中國數(shù)字出版產(chǎn)業(yè)近年來的變革之路。
湯幟對《每日經(jīng)濟(jì)新聞》(以下簡稱NBD)記者表示,經(jīng)過將近20年的探索,整個數(shù)字出版行業(yè)在技術(shù)上已經(jīng)趨于成熟,而近兩年發(fā)力的點(diǎn)則是文檔處理和知識服務(wù)技術(shù)的升級。
NBD:行業(yè)起步的十多年來,我國數(shù)字出版產(chǎn)業(yè)產(chǎn)生了哪些變化?
湯幟:2000年初,國內(nèi)互聯(lián)網(wǎng)環(huán)境不夠成熟,未形成個人支付習(xí)慣,數(shù)字出版基本沒有2C市場,主要面向2B領(lǐng)域的機(jī)構(gòu)服務(wù)。上述模式持續(xù)將近十幾年,產(chǎn)業(yè)具備一定規(guī)模時,互聯(lián)網(wǎng)風(fēng)暴被掀起,網(wǎng)絡(luò)文學(xué)也開始獲取流量,近幾年2C網(wǎng)絡(luò)文學(xué)市場的用戶量超過2B市場。
NBD:網(wǎng)絡(luò)文學(xué)也催生內(nèi)容付費(fèi)潮流的發(fā)展,這對數(shù)字出版行業(yè)帶來哪些變化?
湯幟:從技術(shù)角度看,網(wǎng)絡(luò)文學(xué)以文字為主,一般基于網(wǎng)頁瀏覽,對于文檔處理技術(shù)要求較低。值得注意的是,雖然B2C市場看起來規(guī)模很大,但一些低俗獵奇文章充斥市場;相較于網(wǎng)絡(luò)文學(xué),內(nèi)容有深度的專業(yè)電子書,特別是科技類電子書的B2C規(guī)模較小,這一市場銷量大幅度提升還需時間。
NBD:對于上述市場現(xiàn)象,有解決途徑嗎?
湯幟:文檔處理技術(shù)的升級或許是一個打開專業(yè)類市場的“突破口”。不同于網(wǎng)絡(luò)文學(xué)的純文字,專業(yè)類書籍則涵蓋圖表、公式,在處理復(fù)雜版式的過程中,需要用到“門檻高”技術(shù)。此外,要想解決上述市場現(xiàn)象,還需要產(chǎn)業(yè)界各方共同努力。
NBD:數(shù)字版權(quán)保護(hù)技術(shù)目前是否已經(jīng)很成熟,還需要攻克哪些難題?
湯幟:經(jīng)歷將近20年的探索應(yīng)用,數(shù)字版權(quán)保護(hù)技術(shù)已進(jìn)入成熟期。但不可忽視的是,隨著技術(shù)更新迭代,也要求研究機(jī)構(gòu)作出相應(yīng)思考,為現(xiàn)有的數(shù)字版權(quán)保護(hù)錦上添花。
比如,北大計(jì)算機(jī)研究所也會探索區(qū)塊鏈在版權(quán)保護(hù)中應(yīng)用,但目前究竟新技術(shù)能夠產(chǎn)生怎樣的化學(xué)反應(yīng)尚不可預(yù)知。此外,作為研究機(jī)構(gòu),也不會關(guān)注熱點(diǎn)概念“炒作”,而是去挖掘真正能夠結(jié)合應(yīng)用具體落地點(diǎn)。
從研究層面和技術(shù)層面來看,我希望能夠用先進(jìn)的技術(shù)帶來更好的閱讀體驗(yàn);但從市場角度來講,出版方也需要有動力驅(qū)動,技術(shù)推廣程度和也和受眾素質(zhì)及整體行業(yè)環(huán)境相關(guān)。希望阿帕比這類公司能根據(jù)此前技術(shù)積累不斷革新,引領(lǐng)行業(yè)發(fā)展。
NBD:您目前是研究者,此前也在企業(yè)作出相應(yīng)指導(dǎo),您認(rèn)為一些數(shù)字出版的研究怎樣才能更好落地?
湯幟:從2000年開始帶領(lǐng)團(tuán)隊(duì)研究技術(shù),就一直沿著研究、開發(fā)、應(yīng)用一條龍的模式去思考,研究成果和企業(yè)應(yīng)用基本能夠達(dá)到無縫銜接。而現(xiàn)在出現(xiàn)的變化則是,市場上數(shù)字出版的公司越來越多,我們也用開放的心態(tài)面對市場,不會拘泥于方正或者阿帕比某幾家公司,而是把合適的技術(shù)提供給更需要的企業(yè)。
例如,眼下化學(xué)公式的檢索技術(shù),在藥物成分分析領(lǐng)域?qū)τ谶@一技術(shù)的需求十分迫切,就可以和相關(guān)單位達(dá)成合作和研究,在藥物分子庫的構(gòu)建領(lǐng)域,提供分子式自動識別、檢索等技術(shù)。
NBD:阿帕比系統(tǒng)技術(shù)特點(diǎn)是什么?
湯幟:阿帕比技術(shù)是從2000年開始做的,彼時,中國的數(shù)字版權(quán)剛剛起步,模式也僅是網(wǎng)絡(luò)電子圖書的在線購買。阿帕比技術(shù)主要的技術(shù)特點(diǎn)包括兩個,一個是數(shù)字版權(quán)保護(hù)技術(shù)實(shí)現(xiàn)了產(chǎn)業(yè)鏈各環(huán)節(jié)的保護(hù);另一個是實(shí)現(xiàn)了版式和流式融合的CEBX文檔技術(shù),使一個文檔既支持原版原式的閱讀或打印,也支持在移動終端高質(zhì)量地實(shí)時排版閱讀。
阿帕比技術(shù)支持出版社、圖書館、電子運(yùn)營商、讀者等各個環(huán)節(jié)的版權(quán)保護(hù)技術(shù),使得整個產(chǎn)業(yè)鏈條形成透明的交易環(huán)境,有利于出版社看到交易情況,定制相應(yīng)機(jī)制,形成良性循環(huán)。
NBD:技術(shù)革新是否也會降低人工成本?
湯幟:是的,目前大家都在做移動數(shù)字閱讀,移動閱讀需要把PDF文件轉(zhuǎn)換為其他流式閱讀的格式,需要很多人工校對的工作。因此,我們研究版面分析與理解技術(shù),使PDF轉(zhuǎn)化為移動閱讀格式時自動化程度更高,目前版面復(fù)雜的文檔轉(zhuǎn)化能夠達(dá)到80%~90%準(zhǔn)確度,未來希望結(jié)合人工智能等技術(shù)將轉(zhuǎn)化準(zhǔn)確率提升到99%以上。版面分析與理解技術(shù)還可以把表格、數(shù)學(xué)公式等復(fù)雜版面轉(zhuǎn)換為結(jié)構(gòu)化、語義化的信息。例如,針對上市公司年報的PDF文檔,可以把其中的表格轉(zhuǎn)換為Excel數(shù)據(jù)。
如需轉(zhuǎn)載請與《每日經(jīng)濟(jì)新聞》報社聯(lián)系。
未經(jīng)《每日經(jīng)濟(jì)新聞》報社授權(quán),嚴(yán)禁轉(zhuǎn)載或鏡像,違者必究。
讀者熱線:4008890008
特別提醒:如果我們使用了您的圖片,請作者與本站聯(lián)系索取稿酬。如您不希望作品出現(xiàn)在本站,可聯(lián)系我們要求撤下您的作品。
歡迎關(guān)注每日經(jīng)濟(jì)新聞APP