word转html如何清除冗余代码
我有几万个从word转来的html文件,但这些html文件由doc的100多K变成了几M,几十M。
原来转为html时产生了大量的冗余代码,请问有什么方法可以清除这些垃圾。
需要程序代码。
刚才没分了,现在又有了,可以加分的
/// <summary>
/// 清理Word生成的冗余HTML
/// </summary>
/// <param name="html"> </param>
/// <returns> </returns>
public static string CleanWordHtml(string html)
{
StringCollection sc = new StringCollection();
// get rid of unnecessary tag spans (comments and title)
sc.Add(@" <!--(\w|\W)+?-->");
sc.Add(@" <title>(\w|\W)+? </title>");
// Get rid of classes and styles
sc.Add(@"\s?class=\w+");
sc.Add(@"\s+style='[^']+'");
// Get rid of unnecessary tags
//sc.Add(@"
相关问答:
一个静态的html页面,美化,界面布局已经处理好了 ,在编写程序的时候需要在转化成JSP页面,
所以新建一个JSP页面,讲原来的代码拷贝到里面去,结果布局变了?
不存在路径问题!
没人? 真失败!
......
用javascript
如何复制信息到剪贴板【不带HTML标记的】
很常见的一个例子,比如我在论坛发帖子的时候,我在编辑器里编辑好一段文字之后,点提交。
这时候JS自动帮我复制了。
如果万一出错,我还可以 ......
我在mySql中有一字段可存html标签,比如说里面有a标签
但是我输入查询条件a的时候并不想查出这条记录,也就是说查询的时候不考虑标签,只考虑内容。
请问大家怎样解决?
可以再弄一个字段来保存过滤标签后的内容。 ......
将.net代码切成HTML源码的方法?请多多指教!
这是要做什么 直接运行后查看源文件?
运行!查看源代码!
你想要干嘛?
就是运行后页面的源码为HTML的代码 而不是。net源码!
可以用jscript呼叫出ht ......
我用WebBrowser载入一个网页
然后读取保持html到文件
发现和实际的差别好大。很多位置都出现乱码
再ie中保存出来的就没问题
不知道怎么回事
Function getWebHtml(browser As Web ......