三,nutch 1.0 爬虫配置与运行 - - ITeye博客

`

zolomon

浏览: 22781 次
性别:
来自: 上海

最近访客更多访客>>

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

solomon：晕．比我的ID差一个字母． "本文为solomon ...
〇,概述与索引
talangniao： ???????????????
〇,概述与索引
talangniao：怎么在nutch1.0使用ikanalyzer分词,有没有尝试 ...
二,nutch 1.0 web应用部署
ansjsun：抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来少他 ...
三,nutch 1.0 爬虫配置与运行
coolasp： ...
〇,概述与索引

三,nutch 1.0 爬虫配置与运行

博客分类：

nutch 1.0专题

阅读更多

本文为solomon@javaeye原创,如有转载,注明出处(作者solomon与链接http://zolomon.iteye.com).
本专题使用中文分词为ikanalyzer,感谢其作者为java中文事业做出的巨大贡献.
我的个人资料http://www.google.com/profiles/solomon.royarr

在解压出来的目录下的bin目录里建立urls文件夹,
在里面创建url.txt,内容为http://www.17173.com
这里为要抓取的入口路径,可以设置多个值,也可以放置多个txt文件
然后在cygwin里面进入这个bin目录,
输入./nutch crawl urls -dir file:///d:/solomoncrawl -depth 3
这样就可以看到开始抓取了.

nutch是一个批处理文件,后面跟的命令和参数告诉它该如何运行.
crawl urls是告诉nutch爬虫要crawl一个目录里的url,这个目录的名字是urls.
nutch爬虫有很多行为,crawl是其中一个主要行为.
-dir参数告诉它该把抓取来的东西放在什么地方,指定了一个d盘下叫solomoncrawl的目录.
-depth参数告诉它该抓取的深度,从入口url开始扩展多少层.
抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来.

查看图片附件

分享到：

〇,概述与索引 | 二,nutch 1.0 web应用部署

2009-04-23 09:13
浏览 3704
评论(1)
查看更多

评论

1 楼 ansjsun 2009-11-25

抓取完毕会有一个报告,我这次抓的东西比较少,所以没看出来
少他就不给报告了??

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据: nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据nutch 爬虫数据

Nutch1.0的API chm格式: Nutch1.0的API，不过注意没有搜索功能

开源搜索引擎nutch-1.0.part01.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。

Nutch 1.0part6: Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch1.0 part4: Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch1.0part5: Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

nutch-1.0part1: Nutch 是一个开源Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。

Nutch分布式网络爬虫研究与优化.pdf: Nutch分布式网络爬虫研究与优化.pdfNutch分布式网络爬虫研究与优化.pdfNutch分布式网络爬虫研究与优化.pdf

Nutch1.0:Nutch1.0修改版（整合中文分词）原始码修改，编译打包-修改: Nutch1.0:Nutch1.0修改版（整合中文分词）原始码修改，编译打包

Eclipse中编译Nutch-1.0: Eclipse 中编译 Nutch-1.0 运行源代码

开源搜索引擎nutch-1.0.part09.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

eclipse配置nutch，eclipse配置nutch: eclipse配置nutch，eclipse配置nutch

开源搜索引擎nutch-1.0.part08.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

开源搜索引擎nutch-1.0.part07.rar: Nutch 是一个开源的、Java 实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。 nutch 1.0

Apache Nutch 网络爬虫.rar: 三、配置Nutch 在使用Nutch之前，需要先进行配置。主要包括设置爬取的起始URL、定义抓取的深度和数量、指定存储数据的目录等。Nutch通过一个名为nutch-site.xml的配置文件来进行配置，用户可以根据自己的需求进行...

nutch1.7 爬虫: 一个已经部署好的 nutch1.7爬虫。导入到 eclipse里面就能用了。假如不能用的话。还是装个cygwin 吧找到org.apache.nutch.crawl.Crawl 这个类。 run configuration 在 Programa argument 里面输入 crawl urls -...

Apache Nutch网络爬虫 v1.19.zip: Apache Nutch网络爬虫 v1.19.zip

nutch-1.0-dev.jar: nutch-1.0-dev.jar nutch devlope

nutch爬虫资料: 包括nutch的参考书，和NUTCH源代码分析

Nutch-1.0分布式安装手册.rar: Nutch-1.0分布式安装手册.rar，完整的

Global site tag (gtag.js) - Google Analytics