word转html如何清除冗余代码
我有几万个从word转来的html文件,但这些html文件由doc的100多K变成了几M,几十M。
原来转为html时产生了大量的冗余代码,请问有什么方法可以清除这些垃圾。
需要程序代码。
刚才没分了,现在又有了,可以加分的
/// <summary>
/// 清理Word生成的冗余HTML
/// </summary>
/// <param name="html"> </param>
/// <returns> </returns>
public static string CleanWordHtml(string html)
{
StringCollection sc = new StringCollection();
// get rid of unnecessary tag spans (comments and title)
sc.Add(@" <!--(\w|\W)+?-->");
sc.Add(@" <title>(\w|\W)+? </title>");
// Get rid of classes and styles
sc.Add(@"\s?class=\w+");
sc.Add(@"\s+style='[^']+'");
// Get rid of unnecessary tags
//sc.Add(@"
相关问答:
c# 有没有用于C/S的 html文本编辑器
就像web界面的文本内容编辑器
up
C/S还要编译器干嘛啊
又不用控制样式
貌似没有吧 如果有了通知下我 我也要liujintaohfbb@163.com我的邮箱 ......
用下面这个函数可以读取网页保存下来的HTM文件,但是不能直接读取网页,为什么?
BOOL GetSourceHtml(CString theUrl,CString Filename)
{
CInternetSess ......
<a href="src"> aaa </a>
我想把这个A标记禁用成不可点击的状态
怎么处理...
<a href="#"> aaa </a>
这样就可以了啊
<a> aaa </ ......
HTML里如何实现既有上标又有下标?
参 考 :
HTML特殊标记 上标 下标 下划线 删除线等 http://www.cnblogs.com/7788/archive/2009/08/25/1553757.html
引用
参 考 :
HTML特殊标记 上标 下标 下划线 删除 ......