因為Nutch 1.3跟以前比改了不少東西,所以1.2中的有些配置已經不在適用了
首先我的機器用的是Ubuntu 10.04,挺老的版本了,因為有它的光碟,一直沒有升級
當然是先下載nutch的包了,用的人人的鏡像http://labs.renren.com/apache-mirror//nutch/
只有先會用了才能進行下一步的工作嘛,所以介紹一下最簡單的配置方法:
1. 修改nutch解壓目錄中的runtime/local/bin/nutch腳本的執行許可權 chmod 755 nutch
2. 修改runtime/local/conf 裡面的nutch-site.xml,在configuration標籤中增加如下標籤
3.在此前提到的local目錄下建抓取起始url文本myurl,和抓取結果存放目錄mydir
4.myurl中可以加入任何你想抓取的地址,比如www.6688.cc
5.然後配置local目錄下conf目錄中的automaton-urlfilter.txt,將最後一行以+開關的行改為+^http://([a-z0-9]*\.)*sina.com.cn/,第2 個星號后的域名可以自定義
6.最後可以開始運行了,在local目錄下,執行./bin/nutch crawl myurl -dir mydir -depth 2 -threads 2 -topN 4
-dir 選項設置抓取結果存放目錄
-depth 選項設置爬取的深度
-threads 選項設置并行爬取的線程數
-topN 選項設置每個深度爬取的最大頁數
最後就可以查看mydir中的結果了
[火星人 ] Nutch 1.3 在Ubuntu上的簡單配置已經有375次圍觀