亞洲資本網(wǎng) > 資訊 > 科技頻道 > 正文
文本智能處理技術(shù)創(chuàng)造出“數(shù)字白領(lǐng)” 未來有望發(fā)揮出更多積極作用
2022-05-18 08:19:36來源: 南方都市報(bào)

“當(dāng)你覺得這份工作非??菰?,工作時(shí)覺得自己像個(gè)機(jī)器人,那這個(gè)工作其實(shí)就適合機(jī)器人完成。”近日,達(dá)觀數(shù)據(jù)CEO陳運(yùn)文在接受南方都市報(bào)記者專訪時(shí),分享了他對智能辦公機(jī)器人未來發(fā)展的看法。他表示,達(dá)觀數(shù)據(jù)今天所做的事,就是要幫助格子間里的白領(lǐng)完成繁瑣重復(fù)的工作,把人類從枯燥的工作中解放出來。

在科技高速發(fā)展的今天,計(jì)算機(jī)已經(jīng)學(xué)會(huì)自動(dòng)收集數(shù)據(jù)撰寫報(bào)告、根據(jù)材料自動(dòng)撰寫公文、自動(dòng)錄入財(cái)務(wù)報(bào)單等工作,而人類員工只需在審核無誤后輕點(diǎn)鼠標(biāo),繁瑣重復(fù)的工作便輕松完成了,這些看似科幻的圖景已出現(xiàn)在現(xiàn)實(shí)生活中。

達(dá)觀數(shù)據(jù)便是一家專注智能文本處理技術(shù)和智能辦公機(jī)器人服務(wù)的公司,是國內(nèi)文字資料智能化處理領(lǐng)域的第一家國家級(jí)專精特新“小巨人”企業(yè)。該公司打造的“數(shù)字員工”已經(jīng)走進(jìn)銀行、海關(guān)、政務(wù)部門等多個(gè)機(jī)構(gòu)與行業(yè),協(xié)助人工完成業(yè)務(wù)流程自動(dòng)化,提高企業(yè)效率與智能化水平。

陳運(yùn)文告訴南都記者,技術(shù)發(fā)展會(huì)代替很多的工作崗位,但同時(shí)也創(chuàng)造了新的工作崗位,而技術(shù)的發(fā)展最終是要將人類從繁復(fù)的工作中解放出來。

一 當(dāng)你工作時(shí)覺得自己像個(gè)機(jī)器人,這個(gè)工作就適合機(jī)器人

南都:在國內(nèi),文本處理技術(shù)的主要應(yīng)用場景和技術(shù)門檻在哪里?

陳運(yùn)文:百度、搜狗、阿里巴巴、騰訊等互聯(lián)網(wǎng)巨頭的應(yīng)用比較早,也比較全面的應(yīng)用了文本處理技術(shù)。比如搜索引擎,底層核心技術(shù)就是文本處理技術(shù),在搜索引擎輸入文字,文本處理技術(shù)在后臺(tái)理解輸入文本的意思,并從海量數(shù)據(jù)中將相關(guān)內(nèi)容找出來。

我們認(rèn)為文本處理技術(shù)在TO B企業(yè)服務(wù)界的價(jià)值更高,但TO B領(lǐng)域的文本處理技術(shù)難度和門檻也更高。文本處理技術(shù)的難點(diǎn)有兩個(gè)方面。其一,文字非常抽象與凝練,短短幾個(gè)文字就能表達(dá)非常豐富的含義,計(jì)算機(jī)解讀高度凝練的中文語言,難度是非常大;其二,語言文字處理是人類的高級(jí)認(rèn)知,機(jī)器人要掌握行業(yè)的“知識(shí)圖譜”,具備專業(yè)的閱讀能力才能夠閱讀專業(yè)的文檔資料,這些技術(shù)門檻使得文本的自動(dòng)化處理和應(yīng)用存在很多難點(diǎn)。

不過,文本自動(dòng)化處理的應(yīng)用場景非常廣闊。文字資料的處理普遍存在于每天的工作中,而智能化的文字資料處理技術(shù)可以大幅提升人類日常文字辦公的效率,為很多行業(yè)帶來顛覆性創(chuàng)新。雖然非常難,但非常有價(jià)值,所以我們下決心把它做好。

南都:每天,我們的工作生活都產(chǎn)生海量的數(shù)據(jù),其中有大量的無用信息,達(dá)觀數(shù)據(jù)如何完成價(jià)值提取?如何開拓場景應(yīng)用?

陳運(yùn)文:首先要讓機(jī)器人閱讀大量人類寫作的文字資料,訓(xùn)練它的語言模型。“讀書破萬卷,下筆如有神”,這句話對智能機(jī)器人也適用,在計(jì)算機(jī)看來,大量的文檔資料其實(shí)是以文字形式承載的數(shù)據(jù),系統(tǒng)會(huì)從大量數(shù)據(jù)提煉出語言模型,語言模型構(gòu)建完成后,就可以訓(xùn)練機(jī)器人完成日常工作。

讀和寫是人類日常重要的操作,我們分別訓(xùn)練了不同的語言模型,去完成讀和寫的工作,在很多行業(yè)里面得到了應(yīng)用。比如幫助銀行完成信貸審查的工作,幫助航運(yùn)物流企業(yè)處理訂單,完成貨運(yùn)訂倉工作,自動(dòng)化完成海關(guān)的進(jìn)出口報(bào)關(guān)工作。

而在文字創(chuàng)作領(lǐng)域,我們開發(fā)了AI機(jī)器人,通過學(xué)習(xí)人類寫作的大量文檔資料,總結(jié)寫作方式,完成相應(yīng)的工作。如政務(wù)辦公需要寫作公文,而公文寫作有非常嚴(yán)格的規(guī)范,字體、字號(hào)、段落等都有嚴(yán)格標(biāo)準(zhǔn),機(jī)器人學(xué)習(xí)大量優(yōu)質(zhì)的公文后,就可以自動(dòng)起草公文或報(bào)告。目前,我們的系統(tǒng)已經(jīng)在很多地方發(fā)揮作用,在稅務(wù)局、人社局、公安局、食品藥監(jiān)局等,完成審批、核驗(yàn)、制證等工作,完成原來依靠大量人工才能完成的工作,提升政府的行政效率。

南都:目前,達(dá)觀智能辦公機(jī)器人主要應(yīng)用到哪些場景?

陳運(yùn)文:主要有三類場景,第一類場景是大量的重復(fù)性工作。如財(cái)務(wù)工作,工作人員要理發(fā)票,并將發(fā)票內(nèi)所有詳細(xì)信息錄入到系統(tǒng)中。再如海關(guān)報(bào)關(guān)工作,每個(gè)商品都要填報(bào)關(guān)單,工作量非常大,而且繁瑣重復(fù),這些量大繁瑣的工作就適合機(jī)器人完成。

第二類對準(zhǔn)確率要求非常高的工作,常見于金融行業(yè)。銀行、證券、基金、保險(xiǎn)等領(lǐng)域?qū)ξ谋緮?shù)據(jù)的準(zhǔn)確率要求非常高,由人來處理這些事務(wù)非常辛苦,所以,我們可以將復(fù)核等工作交給機(jī)器人做。另外,政務(wù)公文對準(zhǔn)確率要求也非常高,姓名、職級(jí)、順序不能搞錯(cuò),公文的段落篇章都有嚴(yán)格的規(guī)范,機(jī)器人也可以完成稿件的復(fù)核或政府公文的復(fù)核工作。

第三類是跨系統(tǒng)的工作。在辦公過程中,我們常常要在 A系統(tǒng)查詢數(shù)據(jù),B系統(tǒng)核驗(yàn),再到C系統(tǒng)下載相關(guān)文檔等,需要同時(shí)使用多個(gè)系統(tǒng)。智能辦公機(jī)器人可以自動(dòng)到各個(gè)系統(tǒng)完成數(shù)據(jù)的查驗(yàn)、讀取、分析、錄入等工作,提升需要橫跨多系統(tǒng)的工作的效率。

我們有個(gè)常見的評(píng)判標(biāo)準(zhǔn),當(dāng)你覺得這份工作非??菰?,工作時(shí)覺得自己像個(gè)機(jī)器人,那這個(gè)工作其實(shí)就適合機(jī)器人完成,這是這些場景的共性所在。

二 人工智能技術(shù)需要新突破,把情感做到比較好的仿真水平

南都:利用智能辦公機(jī)器人參與到具體的工作中,一旦出現(xiàn)差錯(cuò),這種權(quán)責(zé)如何界定呢?

陳運(yùn)文:所有人工智能系統(tǒng)落地過程中,都會(huì)面臨此類問題,我們的解決方法是把1%的最終決策工作交給人來做,把99%的前期的處理工作交給計(jì)算機(jī)來做??梢园延?jì)算機(jī)看做助手,幫助人類完成繁瑣的前期工作,最終的決定由人來做,如此可以把權(quán)和責(zé)劃分清楚。

南都:我注意到,達(dá)觀數(shù)據(jù)的智能辦公機(jī)器人能自動(dòng)閱讀,也能自動(dòng)寫作,這樣的創(chuàng)作如果對比人類的創(chuàng)作水平,能達(dá)到什么樣的水平?

陳運(yùn)文:我們把自動(dòng)寫作分成兩類,一類是套路性寫作,一類是自由式寫作。套路性寫作是工作中遇到的比較多的類型,如工作匯報(bào)、企業(yè)月度或季度總結(jié)、會(huì)議紀(jì)要等。套路性寫作的特點(diǎn)是題材相對固定,格式規(guī)范有相對明確的套路,而且有過往大量的文章資料參考,因?yàn)橛写罅繑?shù)據(jù)的規(guī)律可循,所以我們的機(jī)器人在套路性寫作方面可以達(dá)到和日常辦事人員完全一致的寫作水平。

而自由式寫作,僅讓計(jì)算機(jī)來寫,很難達(dá)到人類可以認(rèn)可的水平。所以我們采用啟發(fā)式的寫作方式,這種方式能夠讓機(jī)器人達(dá)到比較高的創(chuàng)作水平。具體方法是,機(jī)器人先寫100字,如果這100字和人類要求的寫作風(fēng)格匹配,就讓機(jī)器人沿著100字續(xù)寫。如果這100存在細(xì)節(jié)問題或者偏離主題,人類可以在100字的基礎(chǔ)上修改,修改后讓計(jì)算機(jī)沿著改好的內(nèi)容再續(xù)寫100字,人類再針對寫出來的100字修改,改完以后再寫,這是人類寫作和計(jì)算機(jī)寫作相互交互的過程。換句話說,機(jī)器人的寫作方式和小學(xué)或者初中生的寫作方式不一樣,機(jī)器人是人機(jī)充分結(jié)合的寫作方式。

我們的技術(shù)已經(jīng)在小說寫作領(lǐng)域得到了初步應(yīng)用,主要在稿件潤色方面發(fā)揮作用。就目前而言,小說梗概由人類作家來完成,但故事梗概完成之后,要填充很多細(xì)節(jié),這些細(xì)節(jié)的填充是由機(jī)器人完成的。

南都:在您看來,制約機(jī)器人的感性創(chuàng)作的因素是什么?

陳運(yùn)文:機(jī)器人很難突破過往的寫作框架,也很難像人類一樣寫得出彩生動(dòng)。因?yàn)檫@需要把人類的情感注入到文字中,而情感是一件很難標(biāo)準(zhǔn)化的東西,比如我們看一句話,有人有點(diǎn)感動(dòng),有人非常感動(dòng)。我們今天講,所有的文字處理技術(shù)都需要大量的數(shù)據(jù)建模工作,數(shù)據(jù)建模的工作第一步是建立標(biāo)準(zhǔn),然后量化,然后開發(fā)數(shù)學(xué)模型完成建模工作。但情感恰恰難以量化分析,不能建立標(biāo)準(zhǔn),就很難用一套自動(dòng)化的方式完成這項(xiàng)工作。所以,我認(rèn)為需要想出更好的方法突破現(xiàn)有的人工智能技術(shù)框架,才能夠把情感做到比較好的仿真水平。

三 “數(shù)字白領(lǐng)”將有長足發(fā)展,但機(jī)器人仍難以取代創(chuàng)造性工作

南都:技術(shù)到底給人類帶來什么?自動(dòng)化對于藍(lán)領(lǐng)工人而言,或從事產(chǎn)業(yè)鏈下游工作的人,技術(shù)對他們來說是很殘酷的,因?yàn)樗麄兠媾R著被取代。“數(shù)字員工”似乎也在搶奪白領(lǐng)的工作機(jī)會(huì)。

陳運(yùn)文:其實(shí)今天我們覺得一些很殘忍的事情,如果到未來50年再回頭來看,會(huì)發(fā)現(xiàn)只是稀松平常的事情。我經(jīng)常舉一個(gè)例子,在家庭洗衣機(jī)發(fā)明之前,無論美國,還是歐洲都有大量專門洗衣服的洗衣工廠,很多富裕家庭不洗衣服,而是把臟衣服交給洗衣工廠,芝加哥的洗衣工廠最多有2000多個(gè)女工。在洗衣機(jī)發(fā)明并被日本人輕量化和批量生產(chǎn)后,那個(gè)時(shí)候大家也有同樣的顧慮,洗衣女工要何去何從?但在今天看來,這些話題不值一提。

我們相信,技術(shù)發(fā)展會(huì)代替很多的工作崗位,但同時(shí)也創(chuàng)造了新的工作崗位,技術(shù)發(fā)展會(huì)將人類從重復(fù)的工作中解放出來,這是非常人道的事情。我們不希望人們就像《摩登時(shí)代》里所演出的那樣,工人們每天在流水線上擰螺絲。今天我們做的工作,就是希望能夠代替格子間里的白領(lǐng)完成繁瑣重復(fù)的工作,把人類從這些枯燥的工作當(dāng)中解放出來。

南都:試問,未來的哪些業(yè)務(wù)場景是智能辦公機(jī)器人難以取代的?

陳運(yùn)文:我們的技術(shù)對自由式和創(chuàng)造性的寫作,或者說創(chuàng)造性的文字資料處理工作涉足不多。我們?nèi)祟惙浅B斆?,有?chuàng)造性,只有沒有任何創(chuàng)造力的工作,每天像機(jī)器人一樣重復(fù)機(jī)械、有規(guī)律的工作需要得到變革。人類智慧的結(jié)晶,一定的是充滿創(chuàng)造、充滿情感、充滿想象的,這是智能機(jī)器人難以取代的。

南都:在數(shù)字經(jīng)濟(jì)時(shí)代,您如何看待智能辦公機(jī)器人的未來發(fā)展前景?

陳運(yùn)文:我們看到,全球數(shù)字化的競爭愈演愈烈,如果企業(yè)率先采用新技術(shù),就可以迅速降低企業(yè)成本。類似技術(shù)在北美地區(qū)發(fā)展得非常迅速,有很多“數(shù)字白領(lǐng)”的金融企業(yè)得到了長足的發(fā)展。我們作為中國的科技企業(yè),也需要盡早地突破智能辦公領(lǐng)域的技術(shù)壁壘,把這些技術(shù)應(yīng)用到更廣闊的場景里去。

在中國,以文字資料處理為業(yè)的相關(guān)人士,初步統(tǒng)計(jì)超過了4000萬人,包括600萬的公務(wù)員和3000多萬的白領(lǐng),市場非常廣闊。而且,新一代年輕勞動(dòng)力短缺,讓人類陷入繁瑣重復(fù)機(jī)械化的工作沒有價(jià)值,我們應(yīng)該把人解放出來做真正有創(chuàng)造性、前瞻性的工作,重復(fù)的工作應(yīng)該讓機(jī)器人去完成。無論從市場需求的角度,還是從現(xiàn)實(shí)的勞動(dòng)力市場情況的角度來看,都非常有前景。

南都:達(dá)觀數(shù)據(jù)近期完成了5.8億元的C輪融資,公司未來的發(fā)展規(guī)劃是怎樣的?戰(zhàn)略目標(biāo)是怎樣的?

陳運(yùn)文:作為中國在文字資料智能化處理領(lǐng)域的第一家國家級(jí)專精特新“小巨人”企業(yè),我們希望能夠扛起文字資料智能化處理的大旗,向?qū)W術(shù)界的專家教授們請教前沿技術(shù),向產(chǎn)業(yè)應(yīng)用界的專家學(xué)習(xí)專業(yè)知識(shí),把文本智能處理系統(tǒng)開發(fā)好,能夠落地應(yīng)用,為整個(gè)社會(huì)更高效率的運(yùn)轉(zhuǎn)貢獻(xiàn)我們自己的力量,這是我們的目標(biāo)。

南都:中文世界的專業(yè)術(shù)語非常多,讓機(jī)器人理解這些文本的投入會(huì)不會(huì)非常大?

陳運(yùn)文:在以前,每個(gè)領(lǐng)域需要非常漫長的積累,才能夠建立幾個(gè)語言模型,而在大數(shù)據(jù)時(shí)代,獲取語料數(shù)據(jù)的難度和門檻低了很多。在過去的6年多的發(fā)展過程中,我們已經(jīng)積累了超過200多億字的語料數(shù)據(jù),一個(gè)人一輩子都看不完,但機(jī)器人可以對200億字的數(shù)據(jù)反復(fù)的從頭到尾閱讀、分析、建模,對文字提煉和建模的效率比以前要高很多。

我認(rèn)為,大數(shù)據(jù)時(shí)代能夠讓智能技術(shù)的推進(jìn)速度提升很多,數(shù)據(jù)智能就是有多少數(shù)據(jù)就有多少智能,今天的計(jì)算機(jī)能完成很多文字處理工作,也有賴于積累的大量數(shù)據(jù),并且對它做反復(fù)的建模?,F(xiàn)在是數(shù)據(jù)爆炸的時(shí)代,我們相信未來能夠攻克很多技術(shù)難關(guān)。

南都:貴公司將文本智能處理技術(shù)類比活字印刷術(shù),您是如何看待二者的相似之處?

陳運(yùn)文:活字印刷術(shù)是宋代畢昇發(fā)明的技術(shù),無論是活字印刷,還是雕版印刷,都是文字處理的新技術(shù)。新技術(shù)帶來意想不到的應(yīng)用價(jià)值,印刷術(shù)中國普及后,中國社會(huì)的繁榮、經(jīng)濟(jì)的發(fā)達(dá)、文化藝術(shù)的昌盛,都在明清時(shí)期進(jìn)入高峰。四大名著之所以出現(xiàn)在明清,也是因?yàn)橛∷⑿g(shù)讓小說廣泛傳播有了非常好的技術(shù)基礎(chǔ)。

所以,我們認(rèn)為,文本智能化處理技術(shù)和宋代活字印刷術(shù)類似,表面上只是文字處理領(lǐng)域的科技創(chuàng)新,但我們相信通過科技創(chuàng)新的力量,能夠推動(dòng)下游行業(yè)的變革和發(fā)展,帶動(dòng)深遠(yuǎn)的行業(yè)變革。我們今天做的事情,就是難而有意義的事情。文本語義理解因?yàn)楦叨瘸橄?,是人工智能領(lǐng)域中技術(shù)難度最高的領(lǐng)域,被微軟創(chuàng)始人比爾·蓋茨稱為“人工智能皇冠上的明珠”。我們希望能夠把這件事情做好,做成行業(yè)的標(biāo)桿。

關(guān)鍵詞: 活字印刷術(shù) 文本智能處理技術(shù) 數(shù)字白領(lǐng) 技術(shù)發(fā)展替代工作崗位

相關(guān)新聞
專題新聞
  • 雖說萬物皆可盤 但盤得住時(shí)光的才是王牌
  • 霍爾果斯:馮小剛等明星資本大撤離
  • 開心麻花電影頻出
  • 男頻IP為何“武不動(dòng)乾坤,斗不破蒼穹”
  • 《鐵血戰(zhàn)士》北美市場票房跳水 又玩壞一個(gè)大IP?

京ICP備2021034106號(hào)-51

Copyright © 2011-2020  資本網(wǎng)   All Rights Reserved. 聯(lián)系網(wǎng)站:55 16 53 8 @qq.com