易截截图软件、单文件、免安装、纯绿色、仅160KB

Php采集让你的站跟新浪网的新闻保持同步.doc

   采集已经不是什么新名词了,很多站长为了省事,也局限于人力的缺乏,使用程序来给自己
的网站添砖加瓦,比如本人的个人网站西西弗斯网也采集了大量的新闻,那么如果实现呢?今天我们运用php来实现这个功能.
   谈到采集,我们不得不说两个东西,第一个是如何获取远程网站的源代码,这个可以通过php的一个扩展curl来获取,另一个是如果去匹配你需要的信息,这个的解决办法是正则表达式.
  Windows下开启curl的方法如下:
1、拷贝PHP目录中的libeay32.dll, ssleay32.dll, php5ts.dll, php_curl.dll文件到 system32 目录。
2、修改php.ini:配置好 extension_dir ,去掉 extension = php_curl.dll 前面的分号。
3、重起apache。
   Linux下开启curl的方法如下:
进入安装 原php 的源码目录,
cd ext
cd curl
phpize
./configure --with-curl =DIR
make
就会在PHPDIR/ext/curl /moudles/下生成curl .so的文件。
复制curl .so文件到extensions的配置目录,修改php .ini就好了.
   然后你就可以利用curl来获取到指定url的网页源码了,这里给大家一个封装好的函数:
function getwebcontent($url){
       $ch = curl_init();
       $timeout = 10;
       curl_setopt($ch, CURLOPT_URL, $url);
       curl_setopt($ch, CURLOPT_RETURNTRANSFER, 1);
       curl_setopt($ch, CURLOPT_CONNECTTIMEOUT, $timeout);
       curl_setopt ($ch, CURLOPT_FOLLOWLOCATION, 1);
       $contents = trim(curl_exec($ch));
       curl_close($ch);
       return $contents;
}
   接下来就应该说到php中的正则表达式了:
1.中括号
[0-9]匹配0-9 
[a-z]匹配a-z小写字母 
[A-Z]匹配A-Z大写字母 
[a-zA-Z]匹配所有大小写字母 
可以使用ascii来制定更多
2.量词
p+匹配至少一个含p的字符串 
p*陪陪任何包含0个或多个p的字符串 
p?匹配任何包含0个或一个p的字符串 
p{2}匹配包含2个p的序列的字符串 
p{2,3}匹配任何包含2个或3个的字符串


相关文档:

用模板技术实现PHP代码和HMTL代码分离

1、模板的由来
在没有模板技术之前,使用PHP开发程序,通常都是php代码和html混编在一起。比如说新闻列表,很可能就是一个newslist.php页面,结构如下:
<?
//从数据库中读取出要显示的新闻记录
?>
<html>
<head>……..
</head>
<body>
<?
While ($news ......

基于PHP的网上商城管理信息系统分析与设计 开题报告

基于PHP的网上商城管理信息系统分析与设计
 
一、   (背景介绍)选题依据及价值:
2008年下半年,全球性的金融危机爆发,蔓延至各个产业及领域,这次经济的大萧条让我看到的是机遇,中国在这次经济危机中显示了不凡的实力与发展潜力,当企业面临困境的时候,最先想到的是如何缩减商业成本,比如裁员降薪,随着网络 ......

php 使用memcached 安装配置

 
1、安装libeven
memcached的使用需要libeven的支持,我们得先装上libeven。
官方网站:http://www.monkey.org/~provos/libevent/
libevent安装方式比较简单:
./configure && make
make install
检查是否 已经安装
 ls -l /usr/local/lib/ | grep even
2、安装memcached
官方网站:http://ww ......

PHP 通过curl库函数获取网页内容


function get_web_page( $url )
{
$options = array(
CURLOPT_RETURNTRANSFER => true,     // return web page 返回网页
CURLOPT_HEADER         => false,    // 不返回头信息
CURLOPT_FOLLOWLOCATION => true,   ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号