html文档中心

<@Aattention Content="本Blog原创文章，转载或引用请注明转载"
from="Robby.cnblogs.com"@>
      由于自己的搜索引擎中做到了这一块内容，所以今天说说如何抓取网页数据、分析并且去除Html标签，给大家提供一个参考。我的平台是Visual
Studio2005，C#。
—————————————————————割—————————————————————————
      首先将网页内容整个抓取下来，这个我就不说了，不是本次话题的重点。假设抓取的数据放在RecvBuffer这个byte[]中（数据从网络上传输过来时不是字符串的形式而是byte），那么我们的第一步就是将RecvBuffer转化为String，以便于对其操作，实例如下：

//
将接收到的数据增加到响应字符串中
  strResponse
+=
Encoding.A ......

直接封装成一个类的，用起来还挺方便的
using System;
using System.Data;
using System.Configuration;
using System.Web;
using System.Web.Security;
using System.Web.UI;
using System.Web.UI.WebControls;
using System.Web.UI.WebControls.WebParts;
using System.Web.UI.HtmlControls;
using System.Text.RegularExpressions;
/// <summary>
/// HtmlExtract 抽取html里面的文本信息
/// </summary>
public class HtmlExtract
{

        #region private attributes
        private string _strHtml;
        #endregion
        #region public mehtods
         public HtmlExtract(string inStrHtml)
        { _strHtml = inStrHtml;}
        public string ExtractText()
        {
&nb ......

<p>: 格式化段落; <h1>,<h6> 标题; <blockquote>-- 引用的文本; <pre>--预先格式化好的文本;保留原有的格式.
<ol><dl><ul>:顺序列表，定义列表,无标号列表. <li>用以显示单个的元素; <dl><dt><dd></dd></dt><dl>
<center>: 文本居中; <div>: 文档中的一个分区.
<b>粗体; <i>: 斜体; <big>: 大号字帖; <small>: 小号的字体; <em>:强调的文本; <Strong> 加粗文本;
<del>:删除线; <ins>: 下划线;
<table><tr><th><td>: table的定义;
＆nbsp: 无间格空格; &lt: <; &copy: 版权符号; &amp: &; 练字符(-).
<a href="www.sina.com"></a>
<img src="path/img.jpg" alt="" width="100" height="200“/>
<script type="tex/JavaScript" src=""></script>
-------------------------------------------------------------------- ......

到底元素的id和name有什么区别阿？为什么有了id还要有name呢?!
id的主要用途:
在客户端页面作为对象的唯一表示,同一个页面中不允许出现多个相同的id.可以使用javascript的document.getElementById('id')来获取对象.
name的具体用途有：
用途1:
作为可与服务器交互数据的HTML元素的服务器端的标示，比如input、select、textarea、和button等。我们可以在服务器端根据其name通过Request["name"]取得元素提交的值。
用途2:
HTML元素input type='radio'分组，我们知道radio button控件在同一个分组类，check操作是mutex的，同一时间只能选中一个radio，这个分组就是根据相同的name属性来实现的。
用途3:
建立页面中的锚点，我们知道<a href="url">link</a>是获得一个页面超级链接，如果不用href属性，而改用name，如：<a name="PageBottom"></a>，我们就获得了一个页面锚点。
用途4:
作为对象的identity，如Applet、Object、Embed等元素。比如在Applet对象实例中，我们将使用其name来引用该对象。
用途5:
在img元素和map元素之间关联的时候，如果要定义img的热点区域，需要使用其属性usemap，使usemap="#name"(被关联的map元素的nam ......

一、基础理解:
var e = document.getElementById("selectId");
e. options= new Option("文本","值") ;
//创建一个option对象,即在<select>标签中创建一个或多个<option value="值">文本</option>
//options是个数组,里面可以存放多个<option value="值">文本</option>这样的标签
1:options[ ]数组的属性:
length属性---------长度属性
selectedIndex属性--------当前被选中的框中的文本的索引值,此索引值是内存自动分配的(0,1,2,3.....)对应(第一个文本值,第二个文本值,第三个文本值,第四个文本值..........)
2:单个option的属性(---obj.options[obj.selecedIndex]是指定的某个<option>标签,是一个---)
text属性---------返回/指定文本
value属性------返回/指定值，与<options value="...">一致。
index属性-------返回下标,
selected 属性-------返回/指定该对象是否被选中.通过指定 true 或者 false，可以动态的改变选中项
defaultSelected 属性-----返回该对象默认是否被选中。true / false。
3:option的方法
增加一个<option>标签-----obj.options.add(new("文本","值"));<增>
删除一个<op ......

如何抓取网页数据、分析并且去除Html标签(C#)

如何抓取网页数据、分析并且去除Html标签(C#)

搜索之路 c#从html中提取文本

搜索之路 c#从html中提取文本

HTML学习1

HTML学习1

[转帖]html中id和name属性的区别

javascript之HTML（select option）详解

javascript之HTML（select option）详解