易截截图软件、单文件、免安装、纯绿色、仅160KB

【Nutch】Linux下Nutch分布式配置和使用

Linux下Nutch分布式配置和使用
 
目   录
介绍. 2
0 集群网络环境介绍. 2
1 /etc/hosts文件配置. 2
2 SSH无密码验证配置. 2
2.1配置所有节点之间SSH无密码验证. 2
3 JDK安装和Java环境变量配置. 3
3.1 安装 JDK 1.6 3
3.2 Java环境变量配置. 4
4 Hadoop集群配置. 4
5 Hadoop集群启动. 6
6 Nutch分布式爬虫. 9
6.1配置Nutch配置文件. 9
6.2 执行Nutch分布式爬虫. 10
7 Nutch检索. 13
7.1 Windows下Nutch单机搜索本地索引数据. 13
7.2 Linux下Nutch单机搜索本地索引数据. 14
7.2.1 WEB前端搜索. 14
7.2.2 命令行搜索. 15
7.3 Linux下Nutch搜索HDFS中索引数据. 15
7.3.1 WEB前端搜索. 16
7.3.2 命令行搜索. 17
附 Nutch-1.1 介绍. 18
 
介绍
       这是本人在完全分布式环境下在Cent-OS中配置Nutch-1.1时的总结文档,但该文档适合所有Linux系统和目前各版本的nutch。
0 集群网络环境介绍
    集群中所有节点均是Cent-OS系统,防火墙均禁用,sshd服务均开启;所有节点上均有一个名为nutch的用户(非超级用户,安装前root使用useradd添加),用户主目录是/home/nutch。
    集群包含三个节点:1个namenode,2个datanode,节点之间局域网连接,可以相互ping通。节点IP地址和主机名分布如下:
    10.10.97.132  gc03vm12  namenode
    10.10.97.142  gc04vm12  datanode01
    10.10.97.144  gc04vm14  datanode02
    本配置将Nutch安装在/home/nutch/nutchinstall目录下。一般最好建议安装在其它非主目录路径下,例如/usr/local下,但此时需要使nutch用户对目录有rwx权限(nutch用户对主目录有rwx权限),一般做法是root用户在/usr/local下创建一个目录,并修改该目录拥有者为nutch(chown –R nutch:nutch 目录路径)。
1 /etc/hosts文件配置
    namenode节点上vi /etc/hosts,将所有节点的名字和IP地址写入其中,写入如下内容,注意注释掉127.0.0.1行:
    10.10.97.132  gc03vm12 
    10.10.97.142  gc04vm12 
    10.10.97.144  gc04vm14 
   # 127.0.0.1     centos54 localhost.local


相关文档:

修改Linux文件句柄限制

1. #vi /etc/profile,增加ulimit -HSn 65536
2. #vi /etc/security/limits.conf,为你的用户增加
    user soft nofile 38192
    user hard nofile 65536
3. 重启Shell即可
4. ulimit -a 查看设置是否成功。
5. 查看系统总限制的命令:
   #cat /proc/sys/fs/file-max
6 ......

linux 开机问题

Ubuntu10.04镜像会出现无法识别键盘输入。在登录画面时,不能输入密码,无法正常进入系统。 解决办法: (1) 开户屏幕键盘功能 在上图开机界面在右下角单击小人图案,再单击“Universal Access Perferences”,出击“Universal Access Perferences”对话框,在对话框中选中“Use on-screen keybo ......

Linux内核参数调优

1. 查看socket状态
server1:~ # netstat -n | awk '/^tcp/ {++S[$NF]} END {for(a in S) print a, S[a]}'
TIME_WAIT 257
CLOSE_WAIT 117
FIN_WAIT2 2
ESTABLISHED 228
2. #vi /etc/sysctl.conf
3. 增加
   net.ipv4.tcp_keepalive_time = 120
   net.ipv4.tcp_keepalive_probes = 2
 &n ......

Linux网卡驱动开发总结

1. 网络子系统
* 系统调用接口
* 协议无关层
* 协议实现层
* 驱动无关层
* 驱动程序层
注:调用接口<->协议层<->驱动程序
2. 网卡驱动程序
* 位于数据链路层
3. 关键数据结构
* struct net_device
* struct sk_buffer
4. 初始化
* 生成net_device,并初始化其成员
* 根据需要,对网卡自身寄存器 ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号