Apache Tika 1.22 已發布,Tika 是一個內容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,並且為文本抽取工作提供了一個統一的界面。其次,Tika 也提供了便利的擴展 API,用來豐富其對第三方文件格式的支持。
新版本包含許多改進和錯誤修復,主要更新內容如下:
- 注意:已知回歸:PDFBOX-4587 - 代碼點在 0xF000 和 0XF0000 之間的 PDF 密碼將導致異常
- 為 HWP v5 文件添加解析器(TIKA-2909)
- 修復關閉流的順序,以避免在 TesseractOCRParser 中出現「無法關閉臨時資源」異常(TIKA-2908)
- 通過緩存編碼檢測器提升 AutoDetectReader 的性能(TIKA-1568)
- 防止 RTFParser 輸出不被允許的標籤組合(TIKA-2889)
- 修復 RereadableInputStream 以釋放所有資源(TIKA-2903)
- 在基於 OpenNLP 語言檢測器的 tika-eval 模塊中實現自定義語言標識符;添加 18 種語言,並為所有 121 種語言添加常用單詞列表(TIKA-2790)
- 修復 MimeTypesReader.releaseParser() 中的 NPE (TIKA-2896)
- 修復 RTFParser 以提取更多內容(TIKA-2883)
- 將 clientSubmitTime 添加到從 PST 文件中提取的元數據(TIKA-2898)
- 改進了用於 xltx,xltm 和其他幾種文件格式的 StreamingZipContainerDetector(TIKA-2886)
發布公告
下載地址:https://tika.apache.org/download.html