歡迎您光臨本站 註冊首頁

Apache Tika 1.24 發布,內容抽取工具集合

←手機掃碼閱讀     admin @ 2020-03-21 , reply:0

Apache Tika 1.24 發布了,Tika 是一個內容抽取的工具集合 (a toolkit for text extracting) 。它集成了 POI 和 Pdfbox,並且為文本抽取工作提供了一個統一的界面。其次,Tika 也提供了便利的擴展 API,用來豐富其對第三方文件格式的支持。

主要更新內容如下:

  • 更新 Drew Noakes 的元數據提取器
  • 啟用 PDF 中的結構標籤的可選提取(alpha 級)
  • Tika 應用程序的 --extract 模式現在輸出到 STDOUT
  • 為 PDF 添加可選的 Preflight 解析器
  • 改進對某些基於 zip 格式的檢測
  • 將元數據提取器升級到 2.13.0 
  • 升級到 POI 4.1.2
  • 從 PSD 文件中提取 XMP
  • 在 PDF 中添加了 XMLProfiler 作為可選的解析器以配置 XFA 和 XMP
  • 從 PDF 提取依賴於 DCT 過濾器的內聯圖像
  • 升級到 PDFBox 2.0.19
  • 修復了 ASM 解析器配置中的錯誤
  • 升級到 Java-libpst 0.9.3
  • 修復了 ToXMLHandler 的 XLIFF12Parser 故障 

更新說明: https://downloads.apache.org/tika/CHANGES-1.24.txt


[admin ]

來源:OsChina
連結:https://www.oschina.net/news/114241/apache-tika-1-24-released
Apache Tika 1.24 發布,內容抽取工具集合已經有79次圍觀

http://coctec.com/news/all/show-post-227841.html