私はPythonのnltk.metrics.distance
モジュールに精通しています。これは、通常、2つの文字列の編集距離を計算するために使用されます。トークンベースの編集距離はPythonでですか?
私はこのような距離を計算する機能に興味がありますが、通常どおりchar-wiseではなくtoken-wiseです。これにより、(文字の代わりに)全体のトークンのみを置換/追加/削除できることを意味します。通常の編集距離と私の希望トークン化バージョンの
例:
> char_dist("aa bbbb cc",
"aa b cc")
3 # add 'b' character three-times
> token_dist("aa bbbb cc",
"aa b cc")
1 # replace 'bbbb' token with 'b' token
はすでにpythonでtoken_dist
を計算することができ、いくつかの機能、ありますか?むしろ私自身のコードを書くよりも、すでに実装され、テストされているものを使用したいと思います。ヒントありがとう。
pip install editdistance
は、その後、次はあなたにトークンワイズ編集距離を与える:
素晴らしいです!ありがとうございました – petrbel