易截截图软件、单文件、免安装、纯绿色、仅160KB

基于XML技术的网页内容提取

如题
我这学期选的课题是这个但是不知道该怎么准备,导师也没怎么说清楚,希望各位达人能指点一二,小弟在这谢过啦!

谢谢你 ,我现在也自己看资料整理思路呢,具体的还要一点时间。
引用
思路如下:
使用C#+XML技术如下:
1、WebClient获取网页内容
2、网页内容是HTML标签,用XML的技术提取,页面肯定要符合XML的基本语法。
因此要将不规则的标签,转换成XHTML的合法格式,关于XHTML的dtd,参考W3C的网站。
把大写标签转换成小写标签,可以用正则表达式的替换功能
3、下步就是分析获取什么样的内容,这步可能用到的技术XQuery和XSLT

具体没有说的很清楚,这是自己的想法,第1、2两点我是做过的,不过我是提取里面的图片


你可以利用webbroser访问一个页面,然后,用webbroser.document获得html dom,webbroser.document.body.outerHTML,就是body元素内的所有HTML了。

webbroser 改为webbrowser


相关问答:

利用C#编写txt转化到xml的程序

txt 和XML 格式相应
不借助DataSet
导入读取TXT文件
然后直接写入XML(同一文件,不同数据,递增原数据没有被覆盖情况下增加数据.)
教个要点或最好是有个代码提示的
过路好汉 帮个忙撒^^
不会,帮楼主 ......

请教一个关于XML读写的问题?

想知道用dataset读写XML是怎么办到的,而且怎么存入数据库?
用XML读写又怎么能实现?
请各位大虾帮个忙~~~!
DataSet set = new DataSet();
set.ReadXml()

set.WriteXml

public static DataSet Con ......

VS中xml文件的中英文显示颜色不一样?

<?xml version="1.0" encoding="gb2312" ?>
<sites>
<site>
<name>.Net开发者园地</name>
<url>http://dotnet.aspx.cc</url>
<img&g ......

如何获取运行telnet命令后返回的xml字串信息

Ganglia中的gmond组件可以收集机器资源的信息,通过命令:telnet localhost 8649 后,就会在屏幕上返回一个xml格式的资源信息的字串。请问在java中如何获取telnet返回的结果呢?(在java中我知道怎么去调用telnet命 ......

基于XML技术的网页内容提取


如题
请问能不能给点指点,关于这个课题我不知道该怎么准备!
说得太简洁了,不理解

买几本xml基础的书看看

是解析xml吗?如果是,建议先用dom解析,找到方法后,可以直接使用jquery解析,建 ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号