博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境
阅读量:4188 次
发布时间:2019-05-26

本文共 1012 字,大约阅读时间需要 3 分钟。

1,在windows平台下,使用nutch,得需要cygwin工具作为其模拟linux的运行环境,cygwin在这里的安装就不多说了,可以到下下载,直接点击setup.exe即可下载,然后就点下一步下一步安装就可以了。

2,安装完cygwin,确定配置好环境变量,可以输入cygcheck -c cygwin查看版本
[img][/img],正确之后
就可以进行下一步了。
3,到nutch官网下载nutch1.6的版本(目前最新的版本为2.1),1.6的自带编译好的bin,所以可以省去像nutch2.1配置的时候,需要用Ant进行编译。
4,在cygwin的根目录下建一个urls文件夹,里面把你想要抓取的url地址写上即可,可以是txt后缀名,也可以无后缀,然后再建一个抓取网页后生成数据的文件夹xxx。
5,然后在在cygwin中找到nutch1.6的根目录,执行bin/nutch
如果正确无误,则会在cygwin中打印一系列nutch命令,
6,下一步就可以抓取网页了执行 bin/nutch crawl urls -dir xxx -depth 2 -threads 2 -topN 2 会在xxx文件夹中生成3个文件夹crawldb,linkdb,segments,里面放的是数据信息
另外需要注意的是在1.2后的版本之后没有index,indexing文件夹,以及打包好的war包,关于这一点,笔者认为,可能是为了让nutch跟solr更专注自己的业务,nutch主要爬取数据,而solr主要用来搜索数据。
7,在抓取成功之后,会有上面一步的3个文件夹生成,然后就可以映射成solr索引了,笔者使用的是solr3.6的,4.x的solr笔者还没测试,在cygwin中执行bin/nutch solrindex http://localhost:8080/solr/ myfile/crawldb -linkdb myfile/linkdb myfile/segments/*   即可,在这之前,一定要确保自己的solr服务是启动的,并可以正常访问,如果出现某些失败,最大的原因可能是映射的字段不一致造成的,检查nutch下面的的solrindex-mapping.xml文件把相对应的字段配置在solr的scheaml.xml中即可.
8,映射成功后即可以访问了solr主页,点击查询,会看到刚才抓取的结果!

转载地址:http://yajoi.baihongyu.com/

你可能感兴趣的文章
Inside ASP.NET 2.0-即时编译系统
查看>>
修復VS.NET 2005
查看>>
LINQ
查看>>
JavaScript组件之JQuery(A~Z)教程(基于Asp.net运行环境)[示例代码下载]
查看>>
学英语的网站[转载]
查看>>
Asp.net 2.0 自定义控件开发[开发一个图表(WebChart)控件(柱状图示例)](示例代码下载)
查看>>
住在我隔壁储藏室的大学刚毕业的小夫妻[转载]
查看>>
英语学习加油站[收集]
查看>>
Asp.net 2.0 自定义控件开发专题讲解[为用户控件增加DataSource属性, 能够自动识别不同数据源](示例代码下载)
查看>>
2007.5.13 祝天下所有的母亲: 节日快乐!
查看>>
Asp.net 2.0自定义控件开发相关的几种嵌入资源解决方案
查看>>
Asp.net 2.0控件开发相关调试(JavaScript调试和自定义控件设计时调试)
查看>>
Asp.net 2.0 自定义控件开发专题[详细探讨页面状态(视图状态和控件状态)机制及其使用场景](示例代码下载)
查看>>
Asp.net 2.0自定义控件(点击HyperLink后执行事件)[网友问题: DataList里HyperLink控件激发事件,在哪定义?]
查看>>
Asp.net 2.0 自定义控件开发[实现自动计算功能(AutoComputeControl)][示例代码下载]
查看>>
[转载]《越狱》第二季过后,剧情跌宕起伏,各角色们的命运也各有不同,现公布如下
查看>>
Asp.net 2.0 自定义控件开发[实现GridView多行表头固定表体滚动效果][示例代码下载]
查看>>
Asp.net 2.0 自定义控件开发[创建自定义浮动菜单FloadMenu控件][示例代码下载]
查看>>
[MVP] 热烈祝贺!您已经获得连任 Microsoft MVP 奖励
查看>>
Asp.net 2.0 自定义控件开发[创建自定义右键PopupMenu控件][示例代码下载]
查看>>