使用perl分析html文件
原文地址:http://bbs.chinaunix.net/viewthread.php?tid=1316204
前天研究使用HTML::TreeBuilder模块分析网页,看到了一篇文章,顺便就翻译了一下,发上来分享。本人文笔不好,e文水平有限,大家撮合看吧。
原文地址:http://www.perl.com/pub/a/2006/01/19/analyzing_html.html?page=1
文章的背景是,作者在教授网页编辑的课程,他会给学生做一些使用nvu做网页作业,每个作业中有些特定的要求,作者苦于给学生的作业评分和做注释,所以就想到使用perl程序对学生的作品进行分析。
perl的正则表达式在文本处理方面的能力已经非常卓越,并且还有分解网页的专用模组HTML::TreeBuilder。它提供了一个html的分解器,这个分解器可以从一个网页构建出一个元素的树形结构。并且,从一个网页中建立一棵树和构建它的内容是非常容易的:
#新建一棵树
$tree = HTML::TreeBuilder->new;
#由一个网页文件构建树的内容
$tree->parse_file($file_name);
#当然也可以由一个变量的内容中分解出树的内容
$tree->parse($value);
树的节点是一个HTML::Element对象。这有很多方法可以存取和操作树中的这些节点。当你使用完成了这棵树的时候,可以使用下面的方法销毁它并且释放它占用的内存:
$tree->delete;
在HTML::TreeBuilder建立的树形结构中,一个模组HTML::Element代表一个html元素。它有大量的方法存取和操作这些元素和搜寻树中的子孙节点和祖先节点。例如:方法find()使用一个或更多的标签名作为参数来寻找所有的下行的相关节点:
@elements = $element->find('a', 'img');
上面这条语句将把所有$element节点以下的<a>节点和<img>节点存储在@elements数组里。方法look_down()是比find()更强大的搜索方法。它以三种类型的方法来查找下行节点:1,严格指定标签的名称或属性值。2,使用正则表达式匹配。3,通过一个返回真的子函数来确定想要的节点。下面是一些例子:
@anchors = $element->look_down('_tag' => 'a');
找到所有的$element下的<a>节点,并存储到@anchors数组中。
@colors = $element->look_down('style' => qr/color/);
找到所有的$element下的含有style属性并且该属性包括color的节点,并存储到@anchors数组中。
@largeimages = $element->look_down(
sub {
$_[0]->tag() eq 'img' and
相关文档:
<select name="CluefromType" id="CluefromType" style="width: 182px" onchange="return CluefromOtherTypeSelected();">
<option value="市场走访">
市场走访
< ......
System.Net.WebClient wc = new System.Net.WebClient();
Byte[] pageData = wc.DownloadData("httP://www");
string s = System.Text.Encoding.Default.GetString(pageData); ......
HTML 是 Web 统一语言,这些容纳在尖括号里的简单标签,构成了如今的 Web。1991 年,Tim Berners-Lee 编写了一份叫做 “HTML 标签”的文档,里面包含了大约20个用来标记网页的 HTML 标签。他直接借用 SGML 的标记格式,也就是后来我们看到的 HTML 标记的格式。本文讲述了 HTML 这门 Web 标记语言的发展简史。
......
随着Web2.0技术的不断发展,Web前端的优化受到越来越多的关注,特别是JavaScript和CSS优化的讨论一直是热点,工具也相对丰富,而对HTML优化则有所忽视,最近,来自百度泛用户体验团队的工程师Miller(chenminliang)撰文强调了HTML优化的重要性和相关技巧。
Miller首先举例说明了HTML优化稍显忽略的事实:
在Steve Souder ......