易截截图软件、单文件、免安装、纯绿色、仅160KB

基于XML技术的网页内容提取

如题
我这学期选的课题是这个但是不知道该怎么准备,导师也没怎么说清楚,希望各位达人能指点一二,小弟在这谢过啦!

谢谢你 ,我现在也自己看资料整理思路呢,具体的还要一点时间。
引用
思路如下:
使用C#+XML技术如下:
1、WebClient获取网页内容
2、网页内容是HTML标签,用XML的技术提取,页面肯定要符合XML的基本语法。
因此要将不规则的标签,转换成XHTML的合法格式,关于XHTML的dtd,参考W3C的网站。
把大写标签转换成小写标签,可以用正则表达式的替换功能
3、下步就是分析获取什么样的内容,这步可能用到的技术XQuery和XSLT

具体没有说的很清楚,这是自己的想法,第1、2两点我是做过的,不过我是提取里面的图片


你可以利用webbroser访问一个页面,然后,用webbroser.document获得html dom,webbroser.document.body.outerHTML,就是body元素内的所有HTML了。

webbroser 改为webbrowser


相关问答:

利用C#编写txt转化到xml的程序

txt 和XML 格式相应
不借助DataSet
导入读取TXT文件
然后直接写入XML(同一文件,不同数据,递增原数据没有被覆盖情况下增加数据.)
教个要点或最好是有个代码提示的
过路好汉 帮个忙撒^^
不会,帮楼主 ......

C# DataSet导出xml 批处理(循环)得怎么处理

DataSet导出xml 批处理(循环)得怎么处理
XML文件
<A>
      <B>
        <C>
        </C>
  &nb ......

VS中xml文件的中英文显示颜色不一样?

<?xml version="1.0" encoding="gb2312" ?>
<sites>
<site>
<name>.Net开发者园地</name>
<url>http://dotnet.aspx.cc</url>
<img&g ......

Gridview绑定xml子列

<content>
<article   imageUrl= "圖片地址 "   Large= "圖片鏈接地址 ">
    <head> 標題 </head> ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号