word转html如何清除冗余代码
我有几万个从word转来的html文件,但这些html文件由doc的100多K变成了几M,几十M。
原来转为html时产生了大量的冗余代码,请问有什么方法可以清除这些垃圾。
需要程序代码。
刚才没分了,现在又有了,可以加分的
/// <summary>
/// 清理Word生成的冗余HTML
/// </summary>
/// <param name="html"> </param>
/// <returns> </returns>
public static string CleanWordHtml(string html)
{
StringCollection sc = new StringCollection();
// get rid of unnecessary tag spans (comments and title)
sc.Add(@" <!--(\w|\W)+?-->");
sc.Add(@" <title>(\w|\W)+? </title>");
// Get rid of classes and styles
sc.Add(@"\s?class=\w+");
sc.Add(@"\s+style='[^']+'");
// Get rid of unnecessary tags
//sc.Add(@"
相关问答:
c# 有没有用于C/S的 html文本编辑器
就像web界面的文本内容编辑器
up
C/S还要编译器干嘛啊
又不用控制样式
貌似没有吧 如果有了通知下我 我也要liujintaohfbb@163.com我的邮箱 ......
我在做一个网站asp的,想生成html,生成后如何调用呢?
如:我当前调用页面是http://192.168.0.100/jdasp/x.asp?cnmai=1795 ,生成的是x1795.html文件,
如何在调用x ......
如题所示,处于某种需要,需要(无法改变)在html最头端加上一段JavaScript代码。可是加上之后就影响了页面的显示,有没有哪种办法可以避免这种情况的
如下所示,原来的htmlHTML code:
<!DOCTYPE html P ......
我在mySql中有一字段可存html标签,比如说里面有a标签
但是我输入查询条件a的时候并不想查出这条记录,也就是说查询的时候不考虑标签,只考虑内容。
请问大家怎样解决?
可以再弄一个字段来保存过滤标签后的内容。 ......
我用WebBrowser载入一个网页
然后读取保持html到文件
发现和实际的差别好大。很多位置都出现乱码
再ie中保存出来的就没问题
不知道怎么回事
Function getWebHtml(browser As Web ......