歡迎您光臨本站 註冊首頁

vicword 1.4 發布,PHP 中文分詞庫

←手機掃碼閱讀     admin @ 2020-04-05 , reply:0

VicWord 一個純php的分詞

主要更新:
    1. 添加默認詞庫路徑
    2. 詞庫不存在返回false,改為拋出異常。

碼雲地址: https://gitee.com/jitog/phpfenci
github:  https://github.com/lizhichao/VicWord

分詞說明
    含有3種切分方法
    getWord 長度優先切分 。最快
    getShortWord 細粒度切分。比最快慢一點點
    getAutoWord 自動切分 。效果最好

三種分詞結果對比


     $fc = new VicWord('igb');
     $arr = $fc->getWord('北京大學生喝進口紅酒,在北京大學生活區喝進口紅酒');
     //北京大學|生喝|進口|紅酒|,|在|北京大學|生活區|喝|進口|紅酒
     //$arr 是一個數組 每個單元的結構[詞語,詞語位置,詞性,這個詞語是否包含在詞典中] 這裡只值列出了詞語
 
     $arr =  $fc->getShortWord('北京大學生喝進口紅酒,在北京大學生活區喝進口紅酒');
     //北京|大學|生喝|進口|紅酒|,|在|北京|大學|生活|區喝|進口|紅酒
 
     $arr = $fc->getAutoWord('北京大學生喝進口紅酒,在北京大學生活區喝進口紅酒');
     //北京|大學生|喝|進口|紅酒|,|在|北京大學|生活區|喝|進口|紅酒
 
     //對比
     //qq的分詞 http://nlp.qq.com/semantic.cgi#page2 
     //百度的分詞 http://ai.baidu.com/tech/nlp/lexical
 

分詞速度
    機器阿里雲 Intel(R) Xeon(R) Platinum 8163 CPU @ 2.50GHz
    getWord 每秒140w字
    getShortWord 每秒138w字
    getAutoWord 每秒40w字
    測試文本在百度百科拷貝的一段5000字的文本


[admin ]

來源:OsChina
連結:https://www.oschina.net/news/114652/vicword-1-4-released
vicword 1.4 發布,PHP 中文分詞庫已經有52次圍觀

http://coctec.com/news/soft/show-post-229277.html