Php采集让你的站跟新浪网的新闻保持同步.doc
采集已经不是什么新名词了,很多站长为了省事,也局限于人力的缺乏,使用程序来给自己
的网站添砖加瓦,比如本人的个人网站西西弗斯网也采集了大量的新闻,那么如果实现呢?今天我们运用php来实现这个功能.
谈到采集,我们不得不说两个东西,第一个是如何获取远程网站的源代码,这个可以通过php的一个扩展curl来获取,另一个是如果去匹配你需要的信息,这个的解决办法是正则表达式.
Windows下开启curl的方法如下:
1、拷贝PHP目录中的libeay32.dll, ssleay32.dll, php5ts.dll, php_curl.dll文件到 system32 目录。
2、修改php.ini:配置好 extension_dir ,去掉 extension = php_curl.dll 前面的分号。
3、重起apache。
Linux下开启curl的方法如下:
进入安装 原php 的源码目录,
cd ext
cd curl
phpize
./configure --with-curl =DIR
make
就会在PHPDIR/ext/curl /moudles/下生成curl .so的文件。
复制curl .so文件到extensions的配置目录,修改php .ini就好了.
然后你就可以利用curl来获取到指定url的网页源码了,这里给大家一个封装好的函数:
function getwebcontent($url){
$ch = curl_init();
$timeout = 10;
curl_setopt($ch, CURLOPT_URL, $url);
curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
$contents = trim(curl_exec($ch));
curl_close($ch);
return $contents;
}
接下来就应该说到php中的正则表达式了:
1.中括号
[0-9]匹配0-9
[a-z]匹配a-z小写字母
[A-Z]匹配A-Z大写字母
[a-zA-Z]匹配所有大小写字母
可以使用ascii来制定更多
2.量词
p+匹配至少一个含p的字符串
p*陪陪任何包含0个或多个p的字符串
p?匹配任何包含0个或一个p的字符串
p{2}匹配包含2个p的序列的字符串
p{2,3}匹配任何包含2个或3个的字符串
相关文档:
1、模板的由来
在没有模板技术之前,使用PHP开发程序,通常都是php代码和html混编在一起。比如说新闻列表,很可能就是一个newslist.php页面,结构如下:
<?
//从数据库中读取出要显示的新闻记录
?>
<html>
<head>……..
</head>
<body>
<?
While ($news ......
基于PHP的网上商城管理信息系统分析与设计
一、 (背景介绍)选题依据及价值:
2008年下半年,全球性的金融危机爆发,蔓延至各个产业及领域,这次经济的大萧条让我看到的是机遇,中国在这次经济危机中显示了不凡的实力与发展潜力,当企业面临困境的时候,最先想到的是如何缩减商业成本,比如裁员降薪,随着网络 ......
1、安装libeven
memcached的使用需要libeven的支持,我们得先装上libeven。
官方网站:http://www.monkey.org/~provos/libevent/
libevent安装方式比较简单:
./configure && make
make install
检查是否 已经安装
ls -l /usr/local/lib/ | grep even
2、安装memcached
官方网站:http://ww ......
function get_web_page( $url )
{
$options = array(
CURLOPT_RETURNTRANSFER => true, // return web page 返回网页
CURLOPT_HEADER => false, // 不返回头信息
CURLOPT_FOLLOWLOCATION => true, ......