私は、別々に収集された同じ学生セットの名前の2つのリストを持っています。数多くの誤植があり、私はファジーマッチングを使用して2つのリストをリンクしています。私はagrep
と同様の99 +%ですが、次の基本的な問題に取り組んでいます:どのように私は(例えば) "アドリアンブルース"と "ブルースエイドリアン" forenamesを一致させることができますか? Levenshteinの編集距離は、置換の数を数えているため、この特殊なケースではうまくいかない。Rの "Firstname Lastname"/"Lastname Firstname"の順序に依存しないファジーマッチング
これは非常に一般的な問題でなければなりませんが、私はそれに対処するための標準Rパッケージまたはルーチンを見つけることができません。私は何か明白な何かを見逃していると思います... ???
@Ritchie Cottonが指摘しているように、3 +の名前、オプションのハイフネーションはどのように扱いますか? ''と ' - 'の両方に分けることができます。 'cat(sort(c( 'Smith'、 'John'))、collapse = '')は、 'John Smith''を返します。 – smci
私はあなたにアルファベット順に名前タプルを並べ替えるだけで、 * "Firstname Lastname"/"Lastname Firstname" *で順序独立性を指定するタイトルを編集しました。より一般性が必要な場合は、再編集してください。 – smci