私は、次のトリッキーな問題を持っている:私は2つの基本的に同一のテキスト、それらの1つのXMLタグ付きを持ってマージ2とほぼ同様の文章
、他ではありません。
xmlタグを含むテキストのスペルが正規化されていますが、これは嫌です。そのため、私は2つのテキストをマージする方法を探しています。xml-textを、xml-structureを保持している非常に似ていますが、同一ではないプレーンテキストで置き換える必要があります。
誰でも知っていることはありますか? Perlの問題を解決する方法はありますか?
ありがとうございました!
アレックス
例
正規化されたXML:
<div2>
<head>Title</head>
<p>Here is some normalized sample text.</p>
<p>The orthograph has been changed.</p>
</div2>
元のプレーンテキストから:
TITEL
正規化されたサンプルのtexteを次に示します。
オルソグラフが変更されました。
私はこのような出力を持っているしたいと思います:
<div2>
<head>Title</head>
<p>Here is some normalised sample texte.</p>
<p>The ortographe has been changed.</p>
</div2>
あなたは何をしたいのかの最小のサンプルを提供することは可能でしょうか?あるいは、私たちはあなたの入力と出力を自分自身で想像してみるべきですか? – FailedDev
[Levenstein distance](http://ja.wikipedia.org/wiki/Levenstein_distance)または同様の基準に基づいて単語を添付できます。 – choroba
申し訳ありませんが、私は最小限のサンプルを提供していません。 –