歡迎您光臨本站 註冊首頁

風鈴蟲 2.0.0 釋出,新增抓取深度限制

←手機掃碼閱讀     admin @ 2020-05-31 , reply:0

風鈴蟲是一款輕量級的高效爬蟲工具,配置簡單,方便二次開發,能抓取js渲染的網頁,可以抓取任何資料,支援儲存網頁快照,智慧防封殺,天然適合分散式。

本次更新是一個重大的版本更新,在本次更新過程中,對大量程式碼進行重構,提升了程式碼質量,並新增了許多新功能。在保證穩定性的同時,將預設使用正規表示式匹配改為使用關鍵詞匹配,使用門檻進一步降低。另外還新增了去重介面,使使用者能夠根據需要實現自定義去重邏輯。與此同時,本次更新還增加了深度限制功能,可以根據使用者的設定來限制抓取深度。

本次更新點如下

  1. 重新定義任務排程器,最佳化排程相關演算法
  2. 剝離請求去重模組,能自定義去重邏輯
  3. 最佳化例項別名設定,實現全域性別名依賴
  4. 修復基於記憶體實現的請求記錄器中的嚴重漏洞
  5. 增加請求深度限制機制,允許設定抓取深度
  6. 最佳化規則構造器,增加構造規則
  7. 最佳化同步啟動介面
  8. 增加無查詢引數去重器
  9. 修改XPATH提取核心
  10. 最佳化構造規則,規則組織更合理和人性化
  11. 最佳化定義內容解析器
  12. 最佳化定義連結解析器
  13. 最佳化測試系列介面
  14. 最佳化內容匹配預設設定
  15. 增加連結過濾規則,支援多種方式過濾連結
  16. 修復處理相對路徑時的邏輯錯誤

[admin ]

來源:OsChina
連結:https://www.oschina.net/news/116051/wind-bell-2-0-0-released
風鈴蟲 2.0.0 釋出,新增抓取深度限制已經有98次圍觀

http://coctec.com/news/all/show-post-236349.html