Php采集让你的站跟新浪网的新闻保持同步.doc
采集已经不是什么新名词了,很多站长为了省事,也局限于人力的缺乏,使用程序来给自己
的网站添砖加瓦,比如本人的个人网站西西弗斯网也采集了大量的新闻,那么如果实现呢?今天我们运用php来实现这个功能.
谈到采集,我们不得不说两个东西,第一个是如何获取远程网站的源代码,这个可以通过php的一个扩展curl来获取,另一个是如果去匹配你需要的信息,这个的解决办法是正则表达式.
Windows下开启curl的方法如下:
1、拷贝PHP目录中的libeay32.dll, ssleay32.dll, php5ts.dll, php_curl.dll文件到 system32 目录。
2、修改php.ini:配置好 extension_dir ,去掉 extension = php_curl.dll 前面的分号。
3、重起apache。
Linux下开启curl的方法如下:
进入安装 原php 的源码目录,
cd ext
cd curl
phpize
./configure --with-curl =DIR
make
就会在PHPDIR/ext/curl /moudles/下生成curl .so的文件。
复制curl .so文件到extensions的配置目录,修改php .ini就好了.
然后你就可以利用curl来获取到指定url的网页源码了,这里给大家一个封装好的函数:
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}
接下来就应该说到php中的正则表达式了:
1.中括号
[0-9]匹配0-9
[a-z]匹配a-z小写字母
[A-Z]匹配A-Z大写字母
[a-zA-Z]匹配所有大小写字母
可以使用ascii来制定更多
2.量词
p+匹配至少一个含p的字符串
p*陪陪任何包含0个或多个p的字符串
p?匹配任何包含0个或一个p的字符串
p{2}匹配包含2个p的序列的字符串
p{2,3}匹配任何包含2个或3个的字符串
相关文档:
我打算在命令行中这样调用php: cat filename|php a.php,让a.php读取filename里面的每行记录进行处理,方法如下:
<?php
$fp = fopen("/dev/stdin", "r");
while($input = fgets($fp, 10000))
{
echo urldecode($input);
}
?>
......
基于PHP的网上商城管理信息系统分析与设计
一、 (背景介绍)选题依据及价值:
2008年下半年,全球性的金融危机爆发,蔓延至各个产业及领域,这次经济的大萧条让我看到的是机遇,中国在这次经济危机中显示了不凡的实力与发展潜力,当企业面临困境的时候,最先想到的是如何缩减商业成本,比如裁员降薪,随着网络 ......
1.直接使用mysql_insert_id()获取上一次插入的数据的AUTO_INCREMENT的变量的编号,比使用mysql语句获取方便极多。但注意要在query()后立刻使用,保证时间正确性,如多线程访问数据库是产生误差。
2.等号左右各留一空格,清晰便于阅读。
3.PHP中,单双引号均可以套string,区别在于:
"this is a simple $test" = 'this i ......
function get_web_page( $url )
{
$options = array(
CURLOPT_RETURNTRANSFER => true, // return web page 返回网页
CURLOPT_HEADER => false, // 不返回头信息
CURLOPT_FOLLOWLOCATION => true, ......