この質問は別の方法で聞かれたかもしれませんが、もし私に指摘してください。私は検索結果の中でそれを見つけることができませんでした。文字列内のマークアップをトレースする最も効率的な方法は何ですか?
私はここのようなマークアップのテキストを解析したいと思います。
- たとえば、銃弾リストのための
* some string
- 例えば、斜体の場合は
*some string*
- たとえば、 URLの場合
&some string&
- 例:
&some string&specific url&
などの文字列
私は特別なマークアップシーケンスを見つけるために、文字列を処理について移動する二つの方法を考えることができます異なるURLについて:
。私は文字中心の方法、すなわちシーケンス1、2を探している文字列を解析することができます。しかし、文字列を複数回解析する必要があるため、効率が悪いようです。
b。文字ごとに文字列を処理し、特殊文字とその位置を記憶しておく方がよいでしょう。メモリが上記のような特殊シーケンスと一致する場合、特殊文字は文字列のHTMLに置き換えられます。私はそれが良いアイデアかどうかは確かではありませんし、どうやってそれを実装すべきかについては確信していません。
これについてはどのような方法が最適ですか?正規表現はどうですか?それはパターンまたはbに従っていますか? 3番目の選択肢はありますか?
P.S.私はPythonを使用しています。 Pythonの例で最も感謝しています。
私は正規表現がおそらく最も簡単な方法だと思います。最も効率的ではありませんが、数百キロバイトの文書を処理しない限り、おそらく問題はありません。 – Ryan
本当にやりたいですか? – PeeHaa
@minitech:マークアップ付きのドキュメントを保存したいのですが、遅延が発生することなくHTML翻訳をロードできるようにしたいと考えています。ページはそれほど大きくならないはずです(ただし、そのサイズはエンドユーザーによって異なります)。 – Benjamin