【Nutch】Linux下应用nutch 1.0 Web前端实现单机检索
nutch的爬虫和搜索可以说是分离的两块,爬虫可以是M/R作业,但搜索不是M/R作业。搜索有两种方式:一是将爬虫数据(或者称索引数据)放在本地硬盘,进行搜索。二是直接搜索HDFS中的爬虫数据。
这里介绍如何使用nutch-1.0的WEB前端检索本地爬虫数据:
(1)Nutch的搜索可以独立于hadoop集群,只要将爬虫下来的数据copy到任何机器,在此机器上安装一个tomcat,并运行nutch自带的WEB前端程序并做相应配置,就可实现搜索。
(2)将使用命令bin/nutch crawl -dir data -depth 3 -topN 5爬虫下下来的数据data放在本地某目录下(如果是分布式爬虫,可以使用命令" bin/hadoop dfs -copyfromLocal data 本地目录" 将爬虫数据data复制到本地目录),例如将生成的data目录复制到/home/nutch/nutchinstall/crawltest/目录下。(安全起见,请确保目录路径中没有空格,这个可能有影响)。
说明:
data目录是爬虫生成的目录,下面有这些子目录:crawldb,index,indexes,linkdb,segments
(3)安装tomcat,请确保安装路径没有空格,这很重要,在windows上因为有空格导致搜索结果始终为0.
(4)将Nutch主目录下的WEB前端程序nutch-1.0.war复制到 /usr/program/apache-tomcat-6.0.18/webapps/目录下(apache安装目录是/usr/program/apache-tomcat-6.0.18)
(5)浏览器中输入http://localhost:8080/nutch-1.0,将自动解压nutch-1.0.war。
(6)配置WEB前端程序中的nutch-site.xml文件,配置完成后必须重启tomcat(/usr/program/apache-tomcat-6.0.18/bin/shutdown.sh,然后在start.sh)。
nutch-site.xml在目录/usr/program/apache-tomcat-6.0.18/webapps/nutch-1.0/WEB-INF/classes/下,
配置如下:
<property>
<name>http.agent.name</name> 不可少,否则无搜索结果
<value>nutch-1.0</value>
<description>HTTP 'User-Agent' request header.</description>
</property>
<property>
<name>http.robots.agents</name>
<value>nutch-1.0,*</value>
<description>The agent strings we'll look for in robots.txt files,
comma-separated, in decreasing order of precedence. You should
put the value of http.agent.name as the first agent name, and keep the
default * at the end of the li
相关文档:
2009 年 4 月 23 日
本文中我们针对 Linux 上多线程编程的主要特性总结出 5 条经验,用以改善 Linux 多线程编程的习惯和避免其中的开发陷阱。在本文中,我们穿插一些 Windows 的编程用例用以对比 Linux 特性,以加深读者印象。
背景
Linux 平台上的多线程程序开发相对应其他平台(比如 Windows)的多线程 API 有一些细微 ......
将asterisk移植到ppc__6xx环境下的嵌入式系统上的主要步骤:
在宿主机上asterisk源码包解压缩后的目录下:
1. ./configure CC=ppc_6xx_gcc --without_gnu_ld __host=ppc_linux (过去有段时间了,大小写可能有点记不清楚)
2. make menuselect (选择要裁剪的组件)
3. make cross_complier=ppc_6xx ARCH=ppc
4. ma ......
http://linux.ctocio.com.cn/437/8831437.shtml
我们在调试硬件板时,经常需要做多个jffs2的根文件系统映像,有时也要对比其他途径得到的可用的jffs2根文件系
统映像。但jffs2的文件系统映像不象光盘的映像文件一样可以通过loop设备来挂载……
我们在调试硬件板时,经常需要做多个jffs2的根文件系统
映像, ......
http://www.soidc.net/articles/1215484977397/20080407/1215945405315_1.html
一、在一个已建好的文件系统上进行修改
设已建立好的文件系统压缩文件为ramdisk.gz
1、解压
#cd ramdisk.gz所在目录
#gunzip ramdisk.gz
&nb ......
LINUX常用命令(基础)
1. man 对你熟悉或不熟悉的命令提供帮助解释
eg:man ls 就可以查看ls相关的用法
注:按q键或者ctrl+c退出,在linux下可以使用ctrl+c终止当前程序运行。
2. ls 查看目录或者文件的属*,列举出任一目录下面的文件
eg: ls /usr/man
ls -l
a.d表示目录(directory),如果是一个"-"表示是文件,如果 ......