2017-05-05 7 views
1

私は多くの名前がmanishの代わりにman1sh、vikasがv1kasのように書かれているデータセットを持っています。nlpの名前を修正する

これらの名前をnlpでどのように修正できますか?

何か助けていただければ幸いです。

+0

pythonでは、 'v1kas'.replace(' 1 '、' i ')はそのトリックを行います。またはあなたの質問です、どのようにそれらの数字で文字列を識別する?それとも、数字が入った文字列をどのようにして識別し、その文字を正しい文字に置き換えるのに十分なスマートなプログラムを書くのですか? – user2263572

答えて

1

ディープニューラルネットワークに基づく綴り修正https://medium.com/@majortal/deep-spelling-9ffef96a24f6この方法は現時点での最先端の方法です。ここにはコードhttps://github.com/MajorTal/DeepSpellがあり、それ以上の改良をすでに施しているものもあります。https://hackernoon.com/improving-deepspell-code-bdaab1c5fb7e.Iは論文を見つけることができませんが、良い結果と公開データセットで編集距離のために文字レベルの深い神経ネットワークを行う論文があります。

上記の方法については、すべてのMachine Learningソリューションと同様に、トレーニングのためのデータが必要です。あなたのケースのデータがない場合は、古い単純編集距離メソッドhttp://norvig.com/spell-correct.htmlが唯一の方法です。

関連する問題