私は、各行の言葉でプレーンテキストファイルがあります。は、Pythonは、重複した名前
3210 <DOCID>GH950102-000003<DOCID>/O
3243 Australia/LOCATION
3360 England/LOCATION
3414 India/LOCATION
3474 Melbourne/LOCATION
3497 England/LOCATION
3521 >India<TOPONYM>/O
3526 >Zimbabwe<TOPONYM>/O
3531 >England<TOPONYM>/O
3536 >Melbourne<TOPONYM>/O
3541 >England<TOPONYM>/O
3546 >England<TOPONYM>/O
3551 >Glasgow<TOPONYM>/O
3556 >England<TOPONYM>/O
3561 >England<TOPONYM>/O
3566 >Australia<TOPONYM>/O
3568 <DOCID>GH950102-000004<DOCID>/O
3739 Hampden/LOCATION
3821 Hampden/LOCATION
3838 Ibrox/LOCATION
3861 Neerday/LOCATION
4161 Fir Park/LOCATION
4229 Park<TOPONYM>/O
4234 >Hampden<TOPONYM>/O
4239 >Hampden<TOPONYM>/O
4244 >Midfield<TOPONYM>/O
4249 >Glasgow<TOPONYM>/O
4251 <DOCID>GH950102-000005<DOCID>/O
4535 Edinburgh/LOCATION
4840 Road<TOPONYM>/O
4845 >Edinburgh<TOPONYM>/O
4850 >Glasgow<TOPONYM>/O``
が、私はこのリストに同じ場所の名前を削除すると、それは次のようになります。
3210 <DOCID>GH950102-000003<DOCID>/O
3243 Australia/LOCATION
3360 England/LOCATION
3414 India/LOCATION
3474 Melbourne/LOCATION
3497 England/LOCATION
3526 >Zimbabwe<TOPONYM>/O
3551 >Glasgow<TOPONYM>/O
3568 <DOCID>GH950102-000004<DOCID>/O
3739 Hampden/LOCATION
3838 Ibrox/LOCATION
3861 Neerday/LOCATION
4161 Fir Park/LOCATION
4229 Park<TOPONYM>/O
4244 >Midfield<TOPONYM>/O
4249 >Glasgow<TOPONYM>/O
4251 <DOCID>GH950102-000005<DOCID>/O
4535 Edinburgh/LOCATION
4840 Road<TOPONYM>/O
4850 >Glasgow<TOPONYM>/O
Iを重複した場所の名前を削除して、docidをファイル内に残す必要があります。私はユニークを使用しているLinuxを介して方法があることを知っているが、私はそれを別のdocid内の場所を削除します実行する場合。 ロケーション名が同じであれば、重複する名前を削除する必要がある場合は、すべてのdocidとdocid内で分割する必要がありますか?
1つのdocid内にある場所の元の順序を保持する必要がありますが、どの場所が残っているか気にしますか? – Gnudiff
docid内のロケーションの元の注文は必要ありません。私はちょうど1つのdocid内の場所がタグまたはタグ/場所で場所名を持つ場所名を削除するか、重複してはいけません。 –
Moizzy
これは、あなたの期待している結果では、最初のdocidに2つのイングランドがあることがわかります。そうですか? – Gnudiff