2017-01-12 7 views
-1
  1. に異なる綴りと重複するレコードを探す私はudhaya、udaya、udhayaのクマー、uthayaのようなフィールドname_entry持つレコードを持っています。しかし、4人はすべて同じ人で、実際の呪文はudhaya kumarです。
  2. このシナリオでは私は人レコードを見つけて、複製物を元のに更新する必要があります。
  3. 私は20000個のレコードを持っており、の最小300レコードのような重複があります。 このシナリオでは解決策が必要です。

は似て綴ら(スペルミス)単語を決定する方法はありません、データベースレベルではMYSQL

+2

名前が異なる場合、どのようにデータベースが同じ人物であることがわかっていますか?これらの記録が実際に同じ人であることを示すその他の情報はありますか? –

+1

タイトルはMysqlと呼ばれ、タグはOracleと書かれています。どれ? – Aleksej

答えて

0

..事前にありがとうございます。

しかし、Stanford NLP(Stanford_NLP)、Apache Open NLP(Open NLP)などの自然言語処理ライブラリはほとんどありません。名前エンティティの認識を拡張し、カスタムモデルをトレーニングすることができます。そこから、同様の綴りの単語をグループ化して、重複を削除することができます。これは複雑で、結果の精度はモデルの訓練の程度によって異なります。

ただし、ご質問から、これを達成する唯一の方法です。

+0

質問に答えた場合は、回答としてマークしてください。 –