歡迎您光臨本站 註冊首頁

Nutch 1.3 在Ubuntu上的簡單配置

←手機掃碼閱讀     火星人 @ 2014-03-12 , reply:0
  

因為Nutch 1.3跟以前比改了不少東西,所以1.2中的有些配置已經不在適用了

首先我的機器用的是Ubuntu 10.04,挺老的版本了,因為有它的光碟,一直沒有升級

當然是先下載nutch的包了,用的人人的鏡像http://labs.renren.com/apache-mirror//nutch/

只有先會用了才能進行下一步的工作嘛,所以介紹一下最簡單的配置方法:

1.  修改nutch解壓目錄中的runtime/local/bin/nutch腳本的執行許可權   chmod 755 nutch

2. 修改runtime/local/conf 裡面的nutch-site.xml,在configuration標籤中增加如下標籤

http.agent.name

看樣子可以填任何你想取的爬蟲crawl的名字

 

3.在此前提到的local目錄下建抓取起始url文本myurl,和抓取結果存放目錄mydir

4.myurl中可以加入任何你想抓取的地址,比如www.6688.cc

5.然後配置local目錄下conf目錄中的automaton-urlfilter.txt,將最後一行以+開關的行改為+^http://([a-z0-9]*\.)*sina.com.cn/,第2 個星號后的域名可以自定義

6.最後可以開始運行了,在local目錄下,執行./bin/nutch crawl myurl -dir mydir -depth 2  -threads 2 -topN 4

-dir                       選項設置抓取結果存放目錄

-depth                 選項設置爬取的深度

-threads             選項設置并行爬取的線程數

-topN                  選項設置每個深度爬取的最大頁數

最後就可以查看mydir中的結果了



[火星人 ] Nutch 1.3 在Ubuntu上的簡單配置已經有375次圍觀

http://coctec.com/docs/linux/show-post-68641.html