改行に関係なく2つのドキュメントを比較したいと思います。コンテンツが同じだが改行の位置と量が異なる場合は、あるドキュメントの行を別のドキュメントの行にマップしたいと思います。正規表現を使用して2つのドキュメントを比較する
は考える:私は文献1にその行1を決定できるアルゴリズムは5を通してライン1と同じテキストが含まれていたい
文献1
I went to Paris in July 15, where I met some nice people.
And I came back
to NY in Aug 15.
I am planning
to go there soon
after I finish what I do.
文献2
I went
to Paris
in July 15,
where I met
some nice people.
And I came back to NY in Aug 15.
I am planning to go
there soon after I finish what I do.
を文献2では、文献1の2行目と3行目は、文献2の6行目と同じテキストを含むことになる。
1 = 1,2,3,4,5
2,3 = 6
4,5,6 = 7,8
他のドキュメントの複数の行にまたがっている場合、各ドキュメントの各行に正規表現を使用する方法はありますか?
数字は何ですか? –
1つの方法は、両方の入力を単語に分割して、それらの単語の出現を維持し、単語が1つずつ(単語が同じであると仮定して)対応させることです。 – nneonneo
各文書と一致する行 – hmghaly