科技行者下一代搜索引擎或將依賴人工智能、眾包和超級計算機

下一代搜索引擎或將依賴人工智能、眾包和超級計算機

下一代搜索引擎或將依賴人工智能、眾包和超級計算機

下一代搜索引擎或將依賴人工智能、眾包和超級計算機

2017年8月14日 周雅 CNET科技行者 【編譯】
  • 分享文章到微信

    掃一掃
    分享文章到微信

  • 關注官方公眾號-科技行者

    掃一掃
    關注官方公眾號
    科技行者

美國德克薩斯大學奧斯汀分校(UT Austin)的研究人員開發了一種將信息從WordNet數據庫整合到信息檢索(IR,information retrieval)系統的方法,便于通用搜索引擎以及醫學知識或非英語文本等細分領域的研發。

周雅 來源:CNET科技行者 【編譯】 2017年8月14日

關鍵字:搜索引擎 人工智能 自然語言處理 超級計算機 眾包

我們所知的WordNet是一個英語詞匯數據庫,它將英語單詞以同義詞集合(synset作為一個基本組織單位,集合里提供詞匯的簡短定義和使用示例,人腦如果有一個已知的概念,就可以在同義詞集合中找到一個適合的詞去表達這個概念。而現在,美國德克薩斯大學奧斯汀分校(UT Austin)的研究人員開發了一種將信息從WordNet數據庫整合到信息檢索(IRinformation retrieval)系統的方法,便于通用搜索引擎以及醫學知識或非英語文本等細分領域的研發。

 下一代搜索引擎或將依賴人工智能、眾包和超級計算機

說明之前,我們先來了解一下WordNet——由普林斯頓大學(Princeton)的心理學家、語言學家和計算機工程師聯合設計的一種基于認知語言學的英語詞典【常用的英語詞典分為詞典 (Dictionary、分類詞匯匯編 (Thesaurus、同義詞和反義詞 (Synonyms and Antonyms、慣用法 (Usage)、成語 (Idioms、俚語 (Slang和詞源 (Etymology等等】。

下一代搜索引擎或將依賴人工智能、眾包和超級計算機

(圖中四種不同詞性的網絡之間并無連接,WordNet為其提供連接)

它是一個覆蓋范圍寬廣的英語詞匯語義網。名詞,動詞,形容詞和副詞各自被組織成一個同義詞的網絡,每個同義詞集合都代表一個基本的語義概念,并且這些集合之間也由各種關系連接——它不是光把單詞以字母順序排列,而且按照單詞的意義組成一個單詞的網絡 

為什么需要一個WordNet 

  • 計算機提供了一個良好的模式演練場,通過它,人們可以測試各種關于人類認知能力的理論模型。
  • 越來越多的人認識到,一個大的詞庫對自然語言理解,人工智能的各方面研究都具有重要的價值。 
  • 對大規模機器可讀詞典的需求同時也帶來許多基礎問題。首先是如何構造這樣一個詞庫,是手工編制還是機器自動生成?第二,詞典中應包含什么樣的信息?第三,詞典應如何設計,即信息如何組織,以及用戶如何訪問?實際上,這些問題涉及到詞典的編纂方法,詞典的內容,詞典的使用方式這一系列非常基礎的問題。

WordNet的內容是什么?對此公開資料顯示,人們經常區分詞語知識和世界知識,前者體現在詞典中,后者體現在百科全書中,但事實上二者的界限是模糊的。比如hit)某人是一種帶有敵意的行為,這是百科知識;而hitstrike)多多少少同義,并且hit可以帶一個直接賓語論元,這是詞語知識。但hit的直接賓語應該是固體(而不是像gas這樣的氣體),這是詞語知識還是百科知識就界限模糊了。不過毫無疑問,要理解語言,這兩部分知識是缺一不可的。WordNet相當于一個統籌。 

之所以有了WordNet,也就有了更多相關的應用落地,比如搜索引擎。那么,搜索引擎如何生成相關站點鏈接列表? 

這要歸功于信息檢索演變進程中兩股強大力量的發展:人工智能(尤其是自然語言處理)和眾包。

當我們搜索一個信息,得到一系列信息,兩者之間如何對應起來?對于我們所輸入的詞匯與大量預測網頁之間的關系,計算機算法對此的解釋是,主要基于其系統所接受的數以億計的文本訓練中語言連接的頻率。 

但這并不是信息的唯一來源。對于重要話題,專業的注解者會強化其語義關系,調整搜索結果和生成結果的算法,而通過網絡檢索者(也就是我們)的點擊,算法會辨別出哪些鏈接是最佳結果。

盡管很不可思議,但這個模型帶來的改變世界性的成功,也存在一定缺陷。因為搜索引擎給出的結果往往不像我們想的那樣智能,它們仍然缺乏對人類語言和邏輯的真正理解。除此之外,它們有時會重復、加深我們的搜索結果中出現的偏差,而不是為我們提供新的信息或觀點。 

在研究過程中,美國德克薩斯大學奧斯汀分校信息學院副教授馬修·里斯(Matthew Lease)提出一個設想:利用計算機和人類大腦的雙重力量,或許能夠創造更加智能的信息檢索系統方式。 

為了將人工智能與注釋者的見解以及特定領域資源的信息編碼整合在一起,里斯教授及其同事們正在開發一種新的信息檢索方案,它將有利于通用搜索引擎以及醫學知識或非英語文本等研發的細分領域。 

8月初,在加拿大溫哥華舉辦的計算機語言學協會年度會議上,里斯、德克薩斯大學奧斯汀分校和美國東北大學的幾位合作者通過兩篇論文,描述了他們新穎的信息檢索系統想法。他們的研究借助了德克薩斯高級計算中心的超級計算資源。 

在其中一篇論文中,以博士生An Nguyen為首,他們提出了一種方法,即結合多個注解者輸入的信息,來確定所有給出的文本中最好的注解方案。他們將這種方法用在了兩個問題的研究上: 

分析自由文本搜索描述醫學研究的文章,來提取每項研究的細節(例如,健康狀況、患者統計信息、治療手段和效果),以及通過識別命名實體分析突發新聞報道來識別事件、人以及所涉及的地方。 

里斯同時提出,在自然語言處理中有一個重要挑戰,即準確地在自由文本中查找所包含的重要信息,它將使我們把這些信息提取到數據庫,并將其與其他數據結合在一起,以做出更加智能的決策和新發現。相關解決方案是,里斯這些研究人員已經大規模地利用眾包來為醫學和新聞文章注解,以確保其智能系統將能夠更加精準地找到每一篇文章中所包含的關鍵信息。 

習慣上,這些注解歷來都是由相關領域專家完成的。然而,近來,眾包已經成為一個以較低成本獲取大量帶標簽數據的廣受歡迎的方法。可以預見的是,這些來自非專業人士的注解質量要比那些領域專家的注解差,因此評估大眾注解者的可靠性是很有必要的,而且將這些個人注解整合成一套參考標準一致的標簽也很有必要。

里斯的研究團隊還發現,他們的方法可以訓練神經網絡,這樣它就可以非常準確地預測出命名實體,并在未命名文本中提取相關信息。這個新方法改進了現有的標記和訓練方法。 

該方法還為每一位工作人員的標簽質量提供了評估,它可以在任務之間轉移,而且對誤差分析和智能路由任務很有用——可以識別出每個特定文本的最佳注解人選。

下一代搜索引擎或將依賴人工智能、眾包和超級計算機 

該圖是一個局部權值共享分類的例子,如圖所示,單詞被分為了兩組,里斯的研究小組在歸屬于同一組的單詞中,隨機地選擇待共享權值后將其嵌入。權值共享限制了系統必須學習的自由參數的數量,提高了該神經模型的效率和精度,并成為了一個靈活結合先驗知識的方法。在這一過程中,他們將最好的人類知識與機器學習結合在了一起。【貢獻者:張燁(Ye Zhang);德州大學奧斯汀分校馬修·里斯(Matthew Lease);美國東北大學拜倫·C·華萊士(Byron C. Wallace)】

第一篇論文:Learning to Effectively Select Topics For Information Retrieval Test Collections

鏈接:https://arxiv.org/pdf/1701.07810.pdf 

利用現有知識創造更好的神經系統模型

該團隊的另一篇論文以博士生張燁(Ye Zhang)為首,文章提出,自然語言處理(NLP)的神經模型往往會忽視現有資源,例如WordNet詞匯數據庫。 

他們提出了一種方法,可以通過權值共享(weight sharing),利用這些現有的語言資源,為了自動文本分類改善自然語言處理模型。例如,該模型學習將醫學文章進行分類,將描述臨床試驗的研究分類到與臨床醫學問題相關的定義下。

在權值共享下,相似的詞匯將共享一個權值的其中一部分,或指定的數值。權值共享限制了系統必須學習的自由參數的數量,從而提高該神經模型的效率和精度,并起到一個靈活結合先驗知識的方式。在這個過程中,他們將人類知識與機器學習結合在了一起。

神經網絡模型的參數有很多,并且需要大量的數據去配合它們。里斯因此有了一個想法,如果能夠以某種方式推出一些與其他先驗詞匯相關的詞匯,那么就沒必要非要為每個單獨的詞匯設置一個參數,而可以將多個單詞配合使用一個參數,這樣所需要學習模型的數據就比較少了。這種方法將在沒有大量數據限制的情況下實現深度學習成果。

他們將一種形式的權值共享應用在了一段電影評論的情感分析和與貧血癥有關的生物醫學搜索中。在分類任務上,相比沒有使用權值共享策略的情形,他們的方法不斷獲得了改進性能。 

來自美國東北大學的合作者拜倫·華萊士(Byron Wallace)也認為,這種方式,相當于在數據驅動的神經網絡模型中編寫和開發專業領域知識提供了一個通用框架。【華萊士曾經也是德州大學奧斯汀分校的教職工,而且也是德克薩斯高級計算中心(TACC)的老用戶。】 

里斯、華萊士和他們的合作者在德克薩斯高級計算中心的Maverick超級計算機上使用GPU(圖形處理單元)對其機器學習系統進行分析和培訓。 

里斯表示:訓練神經計算模型處理大數據需要大量的計算時間。而TACC恰好就成為了一處很棒、很合適的資源,而且這不僅僅緣于其強大的可用存儲,還得益于其大量的節點和可適用于神經模型訓練的高效處理速度。 

據里斯說,除了GPUTACC部署了英特爾先進的處理架構,機器學習庫正在迎頭趕上。 

盡管許多深度學習庫一直在對GPU的處理進行高度優化,但從長遠來看,一旦其他架構也進行了優化,它們將變得更快。 

TACC數據密集型計算主管尼爾·加夫尼(Niall Gaffney)表示,在TACC的與Caffe(加州大學伯克利分校開發的深度學習框架,已被充分應用到了英特爾的至強Phi處理器中)進行的前期工作中,他們發現,這些CPU的性能差不多與許多人工智能運行時的CPU性能相當。

加夫尼認為這相當于一個變革,畢竟它將能夠提供更多可以滿足這些研究人員的節點,同時也允許高性能計算機(HPC)用戶可以在他們的分析階段利用人工智能,而無需移動到一個不同的GPU啟用系統。 

通過提高自動信息提取和文本分類的核心自然語言處理技術,建立在這些技術上的網絡搜索引擎可以繼續提高。 

里斯已經收到來自美國國家科學基金會(NSF)、美國博物館和圖書館服務研究院(IMLS)和美國國防高級研究計劃局(DARPA)的資助,來改善跨各種任務、規模和設置的眾包質量。盡管商業網絡搜索公司投入了大量資源來開發實用、有效的解決方案,但行業的需求迫使里斯仍然專注于商業應用問題和短期解決方案。這也是為什么像里斯這樣的研究人員得以展開這些高風險、潛在變革性的研究之原因。

第二篇論文:Exploiting Domain Knowledge via Grouped Weight Sharing with Application to Text Categorization

鏈接:https://arxiv.org/pdf/1702.02535.pdf

<來源 :phys.org;編譯:科技行者>

    av种子迅雷下载地址,怎样才能看三级片,韩国三级论理片,哪里有av资源,av臀部系列的番号种子