繼百度詞法分析工具 LAC 2.0開源之後,8月4日,百度 NLP 又重磅釋出了中文依存句法分析工具——DDParser!
相較於目前的其他句法分析工具,DDParser 基於大規模標註資料進行模型的訓練,採取了更加簡單易理解的標註關係,並且支援一鍵安裝及呼叫,更加適合開發者快速學習及使用。
開源地址:
https://gitee.com/baidu/DDParser
https://github.com/baidu/DDParser
DDParser 是什麼
DDParser(Baidu Dependency Parser)是百度 NLP 基於大規模標註資料和深度學習平臺飛槳研發的中文依存句法分析工具,可幫助使用者直接獲取輸入文字中的關聯詞對、長距離依賴詞對等。
如圖1所示,輸入文字通過 DDParser 輸出其對應的句法分析樹,其中,兩詞之間的弧表示兩個詞具有依賴關係,由核心詞指向依存詞,弧上的標籤表示依存詞對核心詞的關係。
▲ 圖1
DDParser 能做什麼
通過依存句法分析可直接獲取輸入文字中的關聯詞對、長距離依賴詞對等,其對事件抽取、情感分析、問答等任務均有幫助。
如圖1所示例項,在事件抽取任務中,我們通過依存分析結果可提取句子中所包含的各種粒度的事件,如“納達爾擊敗梅德韋傑夫”、“納達爾奪得冠軍”、“納達爾奪得2019年美網男單冠軍”。
相應的,在問答任務中,我們根據問題的句法樹與答案所在文字的句法樹進行基於樹的結構匹配,可獲取對應的答案。例如,問題“誰奪得了2019年美網男單冠軍”,句法樹見圖2,其答案所在文字的句法樹見圖1,我們通過兩棵樹的對應部分匹配,可得出答案為“納達爾”。
▲ 圖2
在情感分析任務中,依存分析可用於評價物件的情感極性判斷。如圖3所示,我們根據依存分析結果提取評價物件“羊肉串”的觀點:“羊肉串鹹”和“羊肉串不新鮮”,基於此來判斷該評價物件的情感極性。
▲ 圖3
利用依存分析結果可獲取詞之間的依賴關係和關聯路徑,如圖4所示例項。前半句中存在兩條路徑“打疫苗”和“在哪兒打”,後半句中存在兩條路徑“打疫苗”和“打在哪兒”,這些路徑資訊可以給相似度計算等其他任務提供更多特徵。
▲ 圖4
總而言之,依存分析將句子表示為一棵樹,提供了詞之間的依賴關係和關聯路徑,其在句子序列基礎上提供了更多的句子結構資訊,可幫助其他任務從句子結構角度獲取所需資訊。
DDParser 的優勢
· 基於大規模優質標註資料
DDParser 訓練資料近百萬,包含搜尋 query、網頁文字、語音輸入資料等,覆蓋了新聞、論壇等多種場景。從應用的角度出發,為了方便使用者快速上手,DDParser 共設計了14種依存關係,並著重凸顯實詞間的關係,在隨機資料上 LAS 可達到86.9%。
· 基於深度學習框架,不依賴繁複的特徵工程
首先,DDParser 採用 bilinear attention mechanism 對句子語義進行表示,代替複雜的特徵工程模式。其次,其輸入層加入了詞的 char 級別表示,緩解粒度不同帶來的效果下降,網路結構如圖5所示。
▲ 圖5
· 呼叫便捷
DDParser 支援 Python 一鍵安裝,方便使用者快速使用。
DDParser 與其他開源工具的效果對比
DDParser 在與訓練資料同源分佈的標準測試集合上,LAS 達到92.9%。同時,為了驗證 DDParser 在中文句法分析的優勢,我們選擇市面上關注度高的2款句法分析開源工具進行效果對比,評估方式為專家根據各工具依存關係定義人工標註。
經測試,在從搜尋、聊天、網頁文字、語音輸入等資料集合中隨機抽取構成的隨機測試集合上,DDParser 效果達到了86.9%,效果優於同類工具,具體效果對比情況如表1所示。
▲ 表1
DDParser 如何安裝使用
DDParser 支援 pip 一鍵安裝,相容 Windows、Linux 和 MacOS,呼叫方法如下所示:
pip install ddparser
from ddparser import DDParser
ddp = DDParser()
ddp.parse("百度是一家高科技公司")
具體安裝方法參見 GitHub 的 README 文件中的快速開始。
目前,DDParser 已經開源,歡迎大家體驗,並貢獻你的 star 和 Fork!!!如果你有任何意見或問題都可以提 issue 到 Github,工具開發者將及時為你解答。
DDParser 專案地址:
https://gitee.com/baidu/DDParser
https://github.com/baidu/DDParser
百度自然語言處理(Natural Language Processing,NLP)以『理解語言,擁有智慧,改變世界』為使命,研發自然語言處理核心技術,打造領先的技術平臺和創新產品,服務全球使用者,讓複雜的世界更簡單。
[admin
]