Apache Tika 1.22 發布,內容抽取工具集合

←手機掃碼閱讀     admin @ 2019-08-05 , reply:0

Apache Tika 1.22 已發布,Tika 是一個內容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,並且為文本抽取工作提供了一個統一的界面。其次,Tika 也提供了便利的擴展 API,用來豐富其對第三方文件格式的支持。

新版本包含許多改進和錯誤修復,主要更新內容如下:

  • 注意:已知回歸:PDFBOX-4587  - 代碼點在 0xF000 和 0XF0000 之間的 PDF 密碼將導致異常
  • 為 HWP v5 文件添加解析器(TIKA-2909)
  • 修復關閉流的順序,以避免在 TesseractOCRParser 中出現「無法關閉臨時資源」異常(TIKA-2908)
  • 通過緩存編碼檢測器提升 AutoDetectReader 的性能(TIKA-1568)
  • 防止 RTFParser 輸出不被允許的標籤組合(TIKA-2889)
  • 修復 RereadableInputStream 以釋放所有資源(TIKA-2903)
  • 在基於 OpenNLP 語言檢測器的 tika-eval 模塊中實現自定義語言標識符;添加 18 種語言,並為所有 121 種語言添加常用單詞列表(TIKA-2790)
  • 修復 MimeTypesReader.releaseParser() 中的 NPE (TIKA-2896)
  • 修復 RTFParser 以提取更多內容(TIKA-2883)
  • 將 clientSubmitTime 添加到從 PST 文件中提取的元數據(TIKA-2898)
  • 改進了用於 xltx,xltm 和其他幾種文件格式的 StreamingZipContainerDetector(TIKA-2886)

發布公告

下載地址:https://tika.apache.org/download.html





[admin ]

來源:OsChina
連結:https://www.oschina.net/news/108785/apache-tika-1-22-released
Apache Tika 1.22 發布,內容抽取工具集合已經有13次圍觀

http://coctec.com/news/all/show-post-211637.html