私は、特にクリーンでないか整形式ではないソーステキストを持っていますが、テキストを見つけてタグに行をラップする必要があります。テキストはアウトライン形式です。正規表現の書式付きテキストをキャプチャして折り返す正規表現
1. becomes a <h1> tag
A. becomes a <h2> tag
(1) becomes a <h3> tag
and so on...
ソースの例を次に示します。
- テスト準備A.ドアを開けます。 B.ライトを点灯する。
望ましい結果は
<h1>1. PREPARE FOR TEST</h1>
<h2>A. Open the door.</h2>
<h2>B. Turn on the light.</h2>
残念ながら、テキストが同じ行であってもよいであろうか、複数行にすること、あるいは輪郭数との間の空間の異なる数を有することができますテキスト。別の例OATが上記である場合
(1)空気入口及び空気出口弁をチェックが開示されて> 53.6゜F、または閉じOATは
48.2℃未満である場合F.
この場合、所望の結果が
<h3>(1) Check skin air inlet and skin air outlet valves are shown open if temperature is above 53.6 deg F., or closed if temperature is below 48.2 deg F.</h3>
私の質問はあるだろう
- アウトラインレベルに関連付けられたテキスト行全体、つまり1.、A.、(1)などを見つけるにはどうすればよいですか。
- どのように適切なタグでそのテキストを折り返しますか?
私は正規表現で特に強くはありませんが、私はこのプロジェクトで必要とされるよりシンプルなものをいくつか行うことができました。ここで私はH1の行を見つけようとしましたが、正規表現を知っている人は誰でも明示的に見ることができますが、これは最初の単語を過ぎても機能しません。 D {1,3} \
。\ S + [AZ] {2}
Iは、現時点でのPythonを使用しているが、PHPとのより良いです、必要に応じてそれを移動することができると私はPHPとPythonの方が優れているからです。
ありがとうございます。
ソースファイルに改行がありますか? –
改行を数えることはできません。私たちはPDFをテキストに変換して解析しています。 –
**完全にはっきりしない**あなたが言ったところ:*ここにソースの例があります*改行がありません –