私はPythonで文字列のリストを持っています。Pythonで単語とその略語をクラスタリングする
例えば、
[ 'FD 5000'、 'RD'、 '10000のための定期預金'、 '1000 RD'、 '1000預金を定期']
入力がなくて同じである。リスト内の文字列の順序は任意で、リストの長さは任意です。
単語とその省略形の文字列を別々のリストにまとめたいと思います。
予想される出力: {[ '5000用FD'、 '10000のための定期預金']、 [ 'RD'、 '1000 RD'、 '1000年のための預金を定期']}
私はユーザーが入力したコメントを実際にクラスタリングしようとしています。いくつかのユーザはテキストを省略形で入力することができ、他のユーザは完全な形でテキストを入力することができる。したがって、同様のコメントをまとめてグループ化するには、一般的な方法が必要です。
任意の解決方法があります。
クラスタリング(監視されていない統計的方法)*これはできません。 –
@ Anony-Mousse私は直感的にこれが本当である理由を理解しますが、より正式な議論がありますか?私はいくつかの読書資料を教えていただけますか? – maestromusica
省略はクラスタリングの一部ではありません。 –