开源的网页抓取项目HTML Parser 介绍
HTML Parser is a Java library used to parse HTML in either a linear or nested fashion. Primarily used for transformation or extraction, it features filters, visitors, custom tags and easy to use JavaBeans. It is a fast, robust and well tested package.
code download:http://sourceforge.net/projects/htmlparser/
相关文档:
百度了下 大体知道 如下区别:
id 代表唯一 ,在整个页面是唯一的,不能重复。
name 可以重复,整个页面的 name 可以都一样
用在JavaScript 中 时
document.getElementById("str") 返回的是 唯一的数据。
document.getElementsByName("str") 返回的是个数组。
还有什么区别?有待路人指证! ......
String.prototype.HTMLEncode = function() {
var temp = document.createElement ("div");
(temp.textContent != null) ? (temp.textContent = this) : (temp.innerText = this);
var output = temp.innerHTML;
temp = null;
return output;
}
String.prototype.HTMLDecode = function() {
var temp = doc ......
当HTML控件的id="ctl00_contentPlaceHolder_ddl_academy",name="ctl00$contentPlaceHolder$ddl_academy"时
Request.Form["ctl00$contentPlaceHolder$ddl_academy"]而不是
Request.Form["ctl00_contentPlaceHolder_ddl_academy"] ......
1: 遍历并输出Table中值
<table id="tb">
<tr>
<td></td>
</tr>
<tr>
<td></td>
</tr>
</ ......
转自:InfoQ
作者
Abel Avram
译者
张龙
发布于
2010年1月30日 上午12时6分
目前Web Hypertext Application
Technology Working Group
(WHATWG)正与W3C
通
力合作建立HTML 5标准,在过去3个月中 ......