【Nutch】Linux下Nutch分布式配置和使用
Linux下Nutch分布式配置和使用
目 录
介绍. 2
0 集群网络环境介绍. 2
1 /etc/hosts文件配置. 2
2 SSH无密码验证配置. 2
2.1配置所有节点之间SSH无密码验证. 2
3 JDK安装和Java环境变量配置. 3
3.1 安装 JDK 1.6 3
3.2 Java环境变量配置. 4
4 Hadoop集群配置. 4
5 Hadoop集群启动. 6
6 Nutch分布式爬虫. 9
6.1配置Nutch配置文件. 9
6.2 执行Nutch分布式爬虫. 10
7 Nutch检索. 13
7.1 Windows下Nutch单机搜索本地索引数据. 13
7.2 Linux下Nutch单机搜索本地索引数据. 14
7.2.1 WEB前端搜索. 14
7.2.2 命令行搜索. 15
7.3 Linux下Nutch搜索HDFS中索引数据. 15
7.3.1 WEB前端搜索. 16
7.3.2 命令行搜索. 17
附 Nutch-1.1 介绍. 18
介绍
这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。
0 集群网络环境介绍
集群中所有节点均是Cent-OS系统,防火墙均禁用,sshd服务均开启;所有节点上均有一个名为nutch的用户(非超级用户,安装前root使用useradd添加),用户主目录是/home/nutch。
集群包含三个节点:1个namenode,2个datanode,节点之间局域网连接,可以相互ping通。节点IP地址和主机名分布如下:
10.10.97.132 gc03vm12 namenode
10.10.97.142 gc04vm12 datanode01
10.10.97.144 gc04vm14 datanode02
本配置将Nutch安装在/home/nutch/nutchinstall目录下。一般最好建议安装在其它非主目录路径下,例如/usr/local下,但此时需要使nutch用户对目录有rwx权限(nutch用户对主目录有rwx权限),一般做法是root用户在/usr/local下创建一个目录,并修改该目录拥有者为nutch(chown –R nutch:nutch 目录路径)。
1 /etc/hosts文件配置
namenode节点上vi /etc/hosts,将所有节点的名字和IP地址写入其中,写入如下内容,注意注释掉127.0.0.1行:
10.10.97.132 gc03vm12
10.10.97.142 gc04vm12
10.10.97.144 gc04vm14
# 127.0.0.1 centos54 localhost.local
相关文档:
1. #vi /etc/profile,增加ulimit -HSn 65536
2. #vi /etc/security/limits.conf,为你的用户增加
user soft nofile 38192
user hard nofile 65536
3. 重启Shell即可
4. ulimit -a 查看设置是否成功。
5. 查看系统总限制的命令:
#cat /proc/sys/fs/file-max
6 ......
Ubuntu10.04镜像会出现无法识别键盘输入。在登录画面时,不能输入密码,无法正常进入系统。 解决办法: (1) 开户屏幕键盘功能 在上图开机界面在右下角单击小人图案,再单击“Universal Access Perferences”,出击“Universal Access Perferences”对话框,在对话框中选中“Use on-screen keybo ......
1. 查看socket状态
server1:~ # netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
TIME_WAIT 257
CLOSE_WAIT 117
FIN_WAIT2 2
ESTABLISHED 228
2. #vi /etc/sysctl.conf
3. 增加
net.ipv4.tcp_keepalive_time = 120
net.ipv4.tcp_keepalive_probes = 2
&n ......
1. 网络子系统
* 系统调用接口
* 协议无关层
* 协议实现层
* 驱动无关层
* 驱动程序层
注:调用接口<->协议层<->驱动程序
2. 网卡驱动程序
* 位于数据链路层
3. 关键数据结构
* struct net_device
* struct sk_buffer
4. 初始化
* 生成net_device,并初始化其成员
* 根据需要,对网卡自身寄存器 ......