易截截图软件、单文件、免安装、纯绿色、仅160KB

基于XML技术的网页内容提取

如题
我这学期选的课题是这个但是不知道该怎么准备,导师也没怎么说清楚,希望各位达人能指点一二,小弟在这谢过啦!

谢谢你 ,我现在也自己看资料整理思路呢,具体的还要一点时间。
引用
思路如下:
使用C#+XML技术如下:
1、WebClient获取网页内容
2、网页内容是HTML标签,用XML的技术提取,页面肯定要符合XML的基本语法。
因此要将不规则的标签,转换成XHTML的合法格式,关于XHTML的dtd,参考W3C的网站。
把大写标签转换成小写标签,可以用正则表达式的替换功能
3、下步就是分析获取什么样的内容,这步可能用到的技术XQuery和XSLT

具体没有说的很清楚,这是自己的想法,第1、2两点我是做过的,不过我是提取里面的图片


你可以利用webbroser访问一个页面,然后,用webbroser.document获得html dom,webbroser.document.body.outerHTML,就是body元素内的所有HTML了。

webbroser 改为webbrowser


相关问答:

jquery 读取XML?

HTML code:

<div id="tessx">
<ALEXA VER="0.9" URL="163.com/" HOME="0" AID="=">
<RLS PREFIX="http://" more="79" ......

字段值为空的XML文件如何导入DATAWINDOW

有这样一段由.net生成的xml(由dataset转化而来):

<NewDataSet> <xs:schema id="NewDataSet" xmlns="" xmlns:xs="http://www.w3.org/2001/XMLSchema" xmlns:msdata=& ......

好 请问有什么XML的好书

好 我想学习XML好书,请问有什么书,可以深入的学习下的 谢谢
无废话XML 台湾两只老虎

XML入门经典

友情 帮顶。

无废话XML 台湾两只老虎知识点比较少

XML从入门到精通
......

如何获取运行telnet命令后返回的xml字串信息

Ganglia中的gmond组件可以收集机器资源的信息,通过命令:telnet localhost 8649 后,就会在屏幕上返回一个xml格式的资源信息的字串。请问在java中如何获取telnet返回的结果呢?(在java中我知道怎么去调用telnet命 ......

基于XML技术的网页内容提取


如题
请问能不能给点指点,关于这个课题我不知道该怎么准备!
说得太简洁了,不理解

买几本xml基础的书看看

是解析xml吗?如果是,建议先用dom解析,找到方法后,可以直接使用jquery解析,建 ......
© 2009 ej38.com All Rights Reserved. 关于E健网联系我们 | 站点地图 | 赣ICP备09004571号