Java HTML Parser应用
最近因为项目需要,研究了java html parser类库的应用。记录下使用要点:
主要的类说明:
1、Parser类
解析器主类,负责载入HTML代码并解析。
2、Node接口
用来表征在解析过程中使用的语法单元。示例如下段html代码:
<span> ----Tag node
text ----Text Node
</span>
文本和标签都是独立的node元素。text文本是标签span的child node
3、NodeFilter
标签过滤器接口,用来在parser或NodeList中过滤出需要的某一类node。
4、NodeList
数据结构,表示Node的集合
需要特别注意的地方:
Parser和NodeList都有一个名为extractAllNodesThatMatch(NodeFilter filter)的方法用来过滤出符合某个条件的node,但是其内部的实现机制不同。
Parser是在解析器的功能基础上使用Iteror实现。每次调用该方法后需要执行reset方法,否则会影响下一次调用的结果。
而NodeList是在内部的数组上进行循环判断,因此各次调用之间不会互相影响,效率也比Parser的高,土建使用。
代码示例:
实现getElementByID功能
<code>
public class NodeIDFilter implements NodeFilter {
private String id;
public NodeIDFilter(String id)
{
this.id=id;
}
public boolean accept(Node node) {
if(node instanceof Tag)
{
if(!((Tag)node).isEndTag())
{
String s=((Tag)node).getAttribute("id");
if(s!=null)
return s.equals(this.id);
}
}
return false;
// throw new UnsupportedOperationException("Not supported yet.");
}
}
public class MHTMLParser
{
....
protected Node getElementById(String id) throws ParserException
{
//this.myparser.reset();
if(this.mNodeList==null||this.mNodeList.size()==0) return null;
NodeIDFilter nodef = new NodeIDFilter(id);
NodeList nl = this.mNodeList.extractAllNodesThatMatch(nodef,true);
//
if (nl.size() != 0)
{
return nl.elementAt(0);
}
return null;
}
}
</code>
相关文档:
学java也将近快两年的时间了,之前学过的东西自己感觉有点模糊,理论掌握的不是很透彻,有些问题解决的也不是很全面,为此在大学毕业前夕,想把知识好好的梳理一下,把自己对技术的疑点和一些研究心得写到csdn博客上。 ......
win7系统下Java环境变量的配置 Jdk版本为1.6
打开控制面板->用户帐户->更改我的环境变量
变量名:JAVA_HOME
变量值:D:\Program Files\Java\jdk1.6.0_12(这只是我的JDK安装路径)
变量名:Path
在变量值的最前面加上:%JAVA_HOME%\bin;(若已经有Path项,无须另外新 ......
W3C标准的HTML标签
按功能类别排列
DTD:指示在哪种 XHTML 1.0 DTD 中允许该标签。
S=Strict,严格类型, T=Transitional,过渡类型【最普遍】, F=Frameset,框架类型.
标签成对,xhtml是比html更严格,类似XML格式
标签描述DTD
<!DOCTYPE>
定义文档类型。
STF
<html>
定义 HTML 文档。
STF
< ......
重写的主要优点是能够定义某个子类特有的特征:
如:
public class Father
{
public void speak()
&nb ......