word转html如何清除冗余代码
我有几万个从word转来的html文件,但这些html文件由doc的100多K变成了几M,几十M。
原来转为html时产生了大量的冗余代码,请问有什么方法可以清除这些垃圾。
需要程序代码。
刚才没分了,现在又有了,可以加分的
/// <summary>
/// 清理Word生成的冗余HTML
/// </summary>
/// <param name="html"> </param>
/// <returns> </returns>
public static string CleanWordHtml(string html)
{
StringCollection sc = new StringCollection();
// get rid of unnecessary tag spans (comments and title)
sc.Add(@" <!--(\w|\W)+?-->");
sc.Add(@" <title>(\w|\W)+? </title>");
// Get rid of classes and styles
sc.Add(@"\s?class=\w+");
sc.Add(@"\s+style='[^']+'");
// Get rid of unnecessary tags
//sc.Add(@"
相关问答:
我的java applet 嵌入html后无法显示,而用appletviewer显示正常为什么,还有就是用html converter转化后可以显示,为什么?请大侠赐教!
HTML code:
<HTML>
<HEAD>
<TITLE>TEST.HTML< ......
用javascript
如何复制信息到剪贴板【不带HTML标记的】
很常见的一个例子,比如我在论坛发帖子的时候,我在编辑器里编辑好一段文字之后,点提交。
这时候JS自动帮我复制了。
如果万一出错,我还可以 ......
select 下样表, <select name="us">
<option value="aa" selected>aa </option>
& ......
每次关闭的时候就出现下面这个
Microsoft® HTML Help Executable 遇到问题需要关闭。我们对此引起的不便表示抱歉。
打开后有一个问题,本来有的索引没有了,就不能搜索内容了,查资料极为不 ......
C# code:
protected void Button1_Click(object sender, EventArgs e)
{
string str = HttpContext.Current.Server.MapPath("/WebSite1");
str += @"\index.htm";
......