当前位置: 首页 > news >正文

考试源码网站wordpress软件外包网

考试源码网站wordpress,软件外包网,常州网站建设平台,什么是竞价推广1 nutch1.0 的配置 环境准备: 1.1. 下载NUTCH 1.0 推 荐使用国内的镜像站点: http://labs.xiaonei.com/apache-mirror/lucene/nutch/ 1.2. 环境变量 添加:NUTCH_JAVA_HOME 指向JRE所在路径 1.3. 准备windows下的Linux虚 拟环境,…


1 nutch1.0 的配置
环境准备:
1.1. 下载NUTCH 1.0 推 荐使用国内的镜像站点:
http://labs.xiaonei.com/apache-mirror/lucene/nutch/
1.2. 环境变量 添加:NUTCH_JAVA_HOME 指向JRE所在路径
1.3.  准备windows下的Linux虚 拟环境,这里使用“Cygwin”下载地址:
http://www.cygwin.com/setup.exe
配置过程
1.4. 解压NUTCH 1.0,如C:\nutch
1.5. 在C:\nutch 下新建路径urls\并 新建文件nutch.txt(也可以是其他名字的文件)并在nutch.txt中 写入要抽取的站点地址.如:www.google.com\  注意:最后一行的后面要有换行
1.6. 打开C:\nutch\conf\crawl-urlfilter.txt 文件
找到:

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 

修改为:

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*google.com/

 1.7.       打开C:\nutch\conf\nutch-site.xml

修改为:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
configuration>
<!-- HTTP properties -->
<property>
<name>http.agent.name</name>
<value>*</value>
<description></description>
</property>
<!-- file properties -->
<property>
<name>searcher.dir</name>
<!--  索引文件路径  -->
<value>C:\nutch\localweb</value>
<description></description>
</property>
</configuration>

 1.8.  运行安装好的Cygwin,进入到nutch路 径下的bin路径,执行命令$sh nutch crawl ../urls -dir ../localweb -depth 2 -threads 20
参数说明:
         crawl:通知nutch.jar, 执行crawl的main方法。
         urls: 存放需要爬行的url.txt文件的目录
         -dir ../localweb爬 行后文件保存的位置
         -depth 4: 爬行深度。
        -threads : 指 定并发的进程 这里设定为5
        - topN :一 个网站保存的最大页面数。
1.9.   找到C:\nutch\nutch-1.0.war 文 件,复制到tomcat安装路径的webapp下。
1.10. 停止tomcat,修改webapp路 径下nutch-1.0\WEB-INF\classes\nutch-site.xml文件为:

<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<!-- Put site-specific property overrides in this file. -->
<configuration>
<!-- HTTP properties -->
<property>
<name>http.agent.name</name>
<value>*</value>
<description></description>
</property>
<!-- file properties -->
<property>
<name>searcher.dir</name>
<!--  索引文件路径 -->
<value>C:\nutch\localweb</value>
<description></description>
</property>
</configuration>

 1.11.为了不出现中文乱码问题,修改TOMCAT安 装路径下的配置文件:\conf\server.xml

找到项目<Connector 增加属性URIEncoding="UTF-8" useBodyEncodingForURI="true"
增加后的结果为:

<!-- Define a non-SSL HTTP/1.1 Connector on port 8080 --><Connector  URIEncoding="UTF-8" useBodyEncodingForURI="true".......

 1.12.启动TOMCAT ,访问http://127.0.0.1:8080/nutch-1.0/ 即可。

 

以上参考http://hi.baidu.com/doingwell/blog/item/6667d24efcead000b3de058b.html

http://www.hkea.cn/news/774907/

相关文章:

  • php做视频直播网站关键词竞价广告
  • 重庆怎么站seo深圳网络推广团队
  • 自学软件网站开发网络推广怎样做
  • 最新版的wordpress怎么添加特征图优化关键词的作用
  • 深圳做网站google推广网络营销和传统营销的区别和联系
  • 专业做网站的顺德公司网络推广怎么收费
  • php商城网站建设多少钱天津百度seo排名优化
  • 注册网站免费注册insseo关键词优化推广哪家好
  • 深圳房地产网站开发常见的网络营销工具有哪些
  • .net 网站管理系统湖南企业竞价优化首选
  • 南山区住房与建设局官方网站网络赚钱推广
  • wordpress mycred汉化seo引擎搜索入口
  • 在线教育网站用什么做百度搜索的优势
  • 甘肃省住房城乡建设厅网站首页智能建站模板
  • 智能科技网站模板下载地址百度学术论文查重
  • 网站要怎么做才能让360收录推广品牌的策划方案
  • 做网站前景营销课程培训视频
  • 青海做网站广告开户南京seo
  • wordpress写软文赚钱seo快速培训
  • 南宁网站建设接单陕西省人民政府
  • wordpress网站价格seo域名综合查询
  • 支付网站怎么做的网络自动推广软件
  • js做网站统计品牌关键词优化
  • 微信公众号管理平台官网谷歌seo建站
  • 鲜花购物网站源码企业网站营销的优缺点
  • 表白网站制作在线日照网站优化公司
  • 企业网站建设策划书 前言徐州关键词优化排名
  • 一级a做爰片视频网站全国新闻媒体发稿平台
  • 唐山网站建设哪家专业高德北斗导航
  • wordpress 地址 .html企业网站seo贵不贵