Wordから変換されたHTML文書の余分なタグを取り除く

WordからHTMLへの変換後に大きなHTML文書が作成されています。 HTMLコードには余分な量のタグが含まれています。私は正規表現で余分なタグを取り除きたい。私はUltraEditエディタ（v11.20）を使用しています。私は、HTMLで必要な場所を見つけるためにいくつかの正規表現を試してみましたが、私のために動作していませんでした（たとえば、「*」）Wordから変換されたHTML文書の余分なタグを取り除く

をここでのコードサンプルです：。

<P LANG="en-US" CLASS="western" ALIGN=JUSTIFY STYLE="margin-left: -0.49in; margin-right: -0.59in; text-indent: 0.3in; margin-bottom: 0in"> 
<FONT COLOR="#943634">  </FONT><FONT COLOR="#943634"><FONT FACE="Arial, sans-serif"><FONT SIZE=5 STYLE="font-size: 20pt"><B> TEXT TEXT</B></FONT></FONT></FONT></P>

私は正規表現を使用したいです

<h1> TEXT TEXT TEXT</h1>

ノートでこれを置き換え、

<font color="#943634"> </font>タグ内部の間隔があり

また、<B> </B>タグ内のテキストは長い場合があり、改行することができます。

function wp_bootstrap_filter_ptags_on_images($content){ 
    return preg_replace('/<p>\s*(<a .*>)?\s*(<img .* \/>)\s*(<\/a>)?\s*<\/p>/iU', '\1\2\3', $content); 
} 
add_filter('the_content', 'wp_bootstrap_filter_ptags_on_images');

...それがすべてではないのですが、それは何か、何もありません...：

出典

2016-07-13 minto

私たちはサポートの問題を抱えていますが、それを修正したり試したりすることはできませんが、これは外部の努力をしてみようとしていないようです。 – vignesh

この質問を閉じるには、プログラミング関連ではないので投票してください – fehrlich

エディタでこれをやり直さないで、[専用ツール]（https://www.google.com/search?q=clean+up+html + from + word＆ie = utf-8＆oe = utf-8）。 Wordはタグを吐き出してHTMLと呼ぶことで有名です。 –

-1

まあ、

タグpはタグIMGの周りに追加、削除するには、してみてください！ :-)

出典

2016-07-13 11:23:29 user3173022

FindとReplaceコマンドでタグを削除して問題を解決しましたが、それを数回再実行してください。

出典

2016-07-21 13:09:37 minto

Wordから変換されたHTML文書の余分なタグを取り除く

答えて

関連する問題