• ?
    聯系我們

    廣東聯迪信息科技有限公司

    服務熱線

    網絡集成:400-899-0899

    軟件支持:400-8877-991

    咨詢熱線

    公司前臺:0756-2119588

    售前咨詢:0756-2133055

    公司地址

    珠海市香洲區興華路212號能源大廈二樓

    社會新聞
    當前位置 > 首頁 > 社會新聞

    DeepNLP 科普貼:既是地下的富礦,也是“魔鬼”的居所

    類別:社會新聞發布人:聯迪發布時間:2017-06-15

    DeepNLP 科普貼:既是地下的富礦,也是“魔鬼”的居所


    很長時間當中,人工智能與計算機科學、語言學之間有一個交叉學科始終被市場熱切關注,那就是NLP(natural language processing),即自然語言處理。


    這項技術的基本內涵,是指人類與計算機之間用自然語言進行有效通信的各種理論和方法。說白了就是如何讓機器聽懂人類說什么,以及如何讓機器說人類能聽懂的話。這兩個方面也被稱為NLP的兩個核心關鍵領域:自然語言理解和自然語言生成。


    回想一下,我們可能會發現NLP對于推動人工智能產業發展有著舉足輕重的作用。因為它可以直接作用于機器翻譯、語音輸入等領域。相比于人工智能和機器人領域那些“只聞其聲不見其人”的算法和神經網絡,翻譯和語言輸入法可是貨真價實的商業應用。


    所以作為這些應用領域的主角,NLP一直在人工智能產業化中扮演著重要角色。但有很多人認為,NLP在整個AI體系中是相對孤立的,應用范圍也相對狹窄。


    但隨著學界一種新的跨界思維開始流行起來,這種情況仿佛有了改觀:將流行的深度學習技術(deep learning)與NLP相結合,打造出更深度自然語言處理(DeepNLP)成為了火爆的AI概念。


    而真正令人在意的是,這個概念背后指向的應用性近乎于是無限廣泛的,甚至有人認為人類將史無前例地打開語言這個魔鬼迷宮,將人類的某些能力拉升到新的維度。


    究竟有沒有這么神當然不好說,但DeepNLP的潛在價值絕對不凡。


    為了讓大家更好理解DeepNLP的涵義與應用性,我們嘗試盡可能拋棄掉所有函數和語言學公式,并且用一種比喻來理解這項技術的真實情況:挖礦。


    假設DeepNLP是一座深埋在地下的富礦,那么想要得到它首先要翻越大塊鹽堿。而礦藏的最深處,可能就是魔鬼的居所。


    從NLP到DeepNLP:人工智能不僅可以翻譯、速記、問答

    188金宝博比分直播 www.froar.com.cn

    先來解釋一下NLP與DeepNLP的不同之處。


    自從上世界八十年代NLP概念被提出以來,經過了長時間的演進和迭代。其技術本身的變化非常顯著。但其基本運作模式卻是相同的。一般來說,NLP體系的工作對象都是人類語言。一段語言樣本進入NLP系統之后,將經過系統的符號化處理,將人類語言改寫成運算語言;然后通過運算能力進行??榛?,根據不同目標進行語言處理;最終,生成的??槭涑鑫峁?,整個語言處理任務就完成了。


    這樣的語言處理體系,按照目的來區分一般有三種應用:一是語音文本轉化為文字文本,也就是我們今天常用的語音輸入;其二是不同語言之間的轉化,也就是機器翻譯;第三種是語言文本理解后給出相應回饋,也就是siri這樣的聊天機器人。


    NLP的作用,基本就是在這三種應用當中讓語言處理更加自然、合理。而隨著深度學習技術的不斷發展,NLP似乎可以迎來一場全面的革命。


    NLP長久以來存在的問題,就是人類的不同語言體系確實太復雜了,經典計算網絡根本無法完全處理。尤其語義、語言情感、語言氛圍以及歧義、多義等內容,更是難以被機器理解。


    而目前火爆的深度學習技術,則可以用非監督式或半監督式的特征學習,來自主提取高效算法替代傳統算法?;謊災?,深度學習中的某些技術或許可以讓NLP自主理解人類語言中的具體特征和復雜語言材料。這就給NLP的革命打開了一線遐想。


    事實也確實如此,隨著卷積神經網絡、遞歸神經網絡、遷移學習等技術的成熟,NLP可以主動理解的算法越來越多。比如對關鍵詞的歸納、對句子上下文關系的理解,以及通過訓練結果去自主理解其他語料和語言情況。


    總之,深度學習技術加上NLP,把人工智能理解人類語言推向了理論上的新高度。甚至有學者提出了DeepNLP這個新概念。加入深度學習的NLP體系,可以在表達適配度,可訓練性,泛化性,??榛?、可遷移性等領域上較比原有NLP具有強烈的優勢。


    而所謂DeepNLP的美夢成真,是從一些新工具投入使用開始的。


    發現新礦層:詞向量等思維??櫬吹某寤?/strong>


    這一部分細說起來可能會有些枯燥生澀,但事實上這部分對于理解DeepNLP帶來的商業可能是至關重要的。所以我們還是要簡單聊一下。


    話說自然語言處理的邏輯,是將人類語言轉化為運算語言。但在傳統計算模式下的語言轉化,是將不同詞匯轉化為相互間完全沒有聯系的符號編碼。


    這種方式對于機器運算本身沒什么問題。但對于讓機器語言更好地貼近理解人類語言就會有很多障礙。比如帶來的運算量非常復雜,一旦需要對語義、句法、語言回指這樣的復雜問題進行計算,就會難以為繼。


    另一方面,這種轉化模式之后,詞、句、語法間是完全沒有聯系的。這也就難以讓機器學習人類語言間的聯系,產生自主理解的學習訓練效果。


    而有一些新技術的出現,正在改變這種現狀。比如一種叫做“詞向量”的思維???,這種技術把人類語言轉化為機器語言時,對每一個詞進行了有聯系的界定。即將詞匯處理成向量,并且向量間的相對相似度和語義相似度是相關的。


    比如說人,會關聯著男人、女人、老人、成年人等詞。這些詞相互有聯系,并且可以被機器理解。這也就將人類語言體系重新展現在了機器面前,給了機器學習全新的理解方式。


    詞向量只是DeepNLP技術中的一種解決方式,并且各種詞向量也在不斷進化當中。這些讓機器重新理解人類語言的技術,可以被視作全新的探測器。有了這些工具,語言應用的富礦就暴露在了人類面前。


    潘神的迷宮:DeepNLP的技術鹽堿地


    當然了,就像深度學習在眾多領域的應用一樣。DeepNLP達成應用也絕非朝夕之功,在開始近乎癲狂的應用想象之前,我們還是要潑一盆冷水。


    雖然幫助機器深度理解人類語言的工具和技術越來越多,但語言這個神奇的王國依然保留著大塊處女地。目前的精神網絡和深度學習算法,還有大量的語料和語言問題無法處理。這就像我們知道某處深山中有大量金礦,但勘探隊與其之間依舊隔著大片的鹽堿地和堅硬巖石。


    比如說語言歧義性問題,就是目前的詞向量、詞嵌入技術的“噩夢”。一個詞可以有很多種意思,是人類不同語言的“通病”。而人類理解這些多義詞基本依靠對語境和言語情感的理解。但機器學習對人類語言進行重新編碼的時候,卻無可避免地將同義詞進行錯誤編碼。甚至從而產生對整體語義的歧義理解。


    再比如不同語種的問題。字母文字和表意文字之間的邏輯、結構和語境是完全不同的,甚至近似語言之間的語法結構也可以截然不同。深度學習體系追隨的是語法內部的邏輯體系,而追尋語言本身的通路,在跨語種時可能出現巨大的障礙。


    還有一個問題,是DeepNLP究竟如何訓練。語言的復雜性,讓復雜處理后的語言結果很難被判定。一種判定結果也很難成為其他語言處理結果的指標。因此訓練樣本的缺少適配性,讓弱監督與無監督的NLP非常困難。


    當然了,問題該有是有,但并不妨礙我們看到DeepNLP的宏大價值。語言這令人著迷的東西,如果真正為人工智能所掌握,帶來的效果近乎沒有盡頭。


    越過山巖之后的富礦:DeepNLP的應用甜夢


    DeepNLP的應用價值可以非常復雜,如果算上與其他智能體系結合的應用場景,那近乎是個無窮數。但這里可以基本推測幾個DeepNLP應用場景,相信大家就會明白為什么將之稱為“富礦”。


    一、復雜語言目的提煉與反向生成:通過循環神經網絡與卷積神經網絡,NLP提取復雜語言材料的核心概念將成為可能。這個能力的作用非常多,比如全面接管客戶服務。而復雜語言提煉還可以重新定義模糊搜索和電商搜索。人只需要描述自己對信息或者商品的需求,NLP就可以自主提煉并進行精準定位。


    而這個能力的反向生成也十分重要,深度學習體系可以幫助NLP根據人類需求自主生成文字語言材料,就預示著根據某個需求進行文本與語音創作成為可能。通過人類語言訓練反向影響AI寫作,也是一個十分有意思的破局思路。


    二、基于語言的邏輯推理與情感判斷:通過對人類語言環境中的復雜關系進行遷移學習,可以達成另外一些有意思的應用可能。比如讓機器學習到人類語言中的邏輯和情感。先不提是否賦予機器這些東西,至少這將有機會讓機器從人類的語言中預測結果,達成機器推理甚至情感判斷。


    從聽懂你說話的機器人,變成能夠預測你目的、讀懂你的情緒的機器人,顯然是一場巨大的商機。


    三、文本關系的提取與分類:DeepNLP的另一個主攻方向,是對文本關系的理解。從語言環境、語位素到語言使用習慣和語言情感,人類的語言其實根植于無數文本關系之中。如果不能理解這些關系,那么AI就永遠是只能進行簡單交互的機器。


    而通過深度學習技術進行自然語言處理,卻可能讓機器理解這些關系。于是復雜的文本翻譯將成為可能,整本書的瞬間翻譯似乎也不是難事。而方言、發聲問題下的人機語音交互可能達成。當然了,這都僅僅是這個技術達成所帶來應用的一小部分。


    四、圖像的識別與描述:通過對語言材料的遷移學習,讓機器讀懂人類通過雙眼與自然界間的交互,也是一個充滿想象力的區域。而循環神經網絡等技術正在幫助NLP打開這種可能。通過反復訓練AI閱讀人類對圖像的描述,機器將生成自主描述圖像、歸類解釋圖像的能力。


    這讓AI擁有了可以自己看東西,并轉化為人類語言介質的能力。通過攝像頭,機器將可以隨時理解實物并進行分類匯總。這首先讓人類的公共安全警報、搜救、探測事業有了徹底改革,更深處或許將指向機器對自然萬物的自我解讀。


    這些應用聽起來都非常魔幻,而這正是DeepNLP的可怕之處。一旦高強度自主學習的NLP與人類信息接入,那絕不是若干應用所能描述的技術變革。


    礦石之外的石油:DeepNLP結合大數據


    在開采DeepNLP這座礦山之外,我們顯然能夠發現這項技術與大數據體系結合的奇妙化反。這或許將在礦井之外再打開一座油田。


    首先要知道,目前大數據資源中的很大一部分,都是以人類語言作為基本單位的。這些數據指向著多種多樣的目的和結果,但其借助人類語言的特點卻是相同的。在這一點上,原本普通廉價的人類語言卻可以成為DeepNLP非常有效的訓練材料。


    而反過來說,DeepNLP技術的成熟,也可以幫助人類重新理解和使用已有的大數據資源。比如用戶對某一產品的使用體會數據。原本的數據判別系統只能推測出滿意級別、改進點等幾個數據。因為它的邏輯是提取關鍵詞和打分。而這顯然就忽視了用戶的個體性。通過DeepNLP去處理客戶數據,或許可以判斷每一個用戶的受訪環境、受訪回答真實性,甚至根據語氣和描述推斷出用戶沒有提到的產品改進建議。


    這里有一個邏輯推演,那就是在足夠成熟的DeepNLP體系、足夠大的數據承載量以及足夠強大的運算能力(比如相對成熟的量子計算)支撐下,將有可能對人類的每一句話進行推演和預測,推斷人類生活中每一個細節的原因與結果。電影《少數派報告》中的預測犯罪機器人,或許就是以此為科學解釋。


    語言迷宮,是人類長期以來自身都無法破解的牢籠。一個優秀的演講者、魅力十足的推銷員、套路詭譎的騙子,往往有無法解釋的能力達成目標。而依靠的沒有其他東西,就是語言。一旦這種能力為AI所獲得,釋放出的當然有數不勝數的機遇財富,但同時出籠的,或許還有一位名喚“語言”的恐怖魔鬼。

    ?
    {ganrao}