`
zolomon
  • 浏览: 22781 次
  • 性别: Icon_minigender_1
  • 来自: 上海
最近访客 更多访客>>
社区版块
存档分类
最新评论

三,nutch 1.0 爬虫配置与运行

阅读更多
本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr


在解压出来的目录下的bin目录里建立urls文件夹,
  在里面创建url.txt,内容为http://www.17173.com
  这里为要抓取的入口路径,可以设置多个值,也可以放置多个txt文件
  然后在cygwin里面进入这个bin目录,
  输入./nutch crawl urls -dir file:///d:/solomoncrawl -depth 3
  这样就可以看到开始抓取了.



  nutch是一个批处理文件,后面跟的命令和参数告诉它该如何运行.
  crawl urls是告诉nutch爬虫要crawl一个目录里的url,这个目录的名字是urls.
  nutch爬虫有很多行为,crawl是其中一个主要行为.
  -dir参数告诉它该把抓取来的东西放在什么地方,指定了一个d盘下叫solomoncrawl的目录.
  -depth参数告诉它该抓取的深度,从入口url开始扩展多少层.
抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来.
  • 描述: 抓取效果图(1)
  • 大小: 10.6 KB
  • 描述: 抓取效果图(2)
  • 大小: 13.1 KB
  • 描述: 抓取效果图(3)
  • 大小: 16.8 KB
  • 描述: 抓取完毕
  • 大小: 14.6 KB
分享到:
评论
1 楼 ansjsun 2009-11-25  
抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来
少他就不给报告了??

相关推荐

Global site tag (gtag.js) - Google Analytics