分類されていないデータの10000レコードのテーブルがあります。テキストの類似性や特定の機能などの特定のプロパティに基づいて分類したいと思います。例についてはデータの分類
、 は、単一の列は、今私は、単一のエンティティ名、電話番号、電子メールを持っているインデックスを持っている名前、電話番号や性別
が含まれていることを考えてみましょう。私は適切な型のインデックスIDS
表A(列表)
id column_data index_id
1 abc
2 male
3 +1298312123
4 pqr
5 +1283711231
6 female
7 +1231231112
8 male
9 xyz
表B(インデックステーブル)
id index_name
1 name
2 phone number
3 email
の列をタグ付けしたい、私がタグ付けしたいですすべての名前、電話番号、性別を単一のindex_idで識別し、データを簡単に識別します。
P.Sデータをデモとして使用しました。私たちは何千ものデータと1000のインデックスを分類したいと思いますか?
どのような方法が最適ですか?
あなたがここに機械学習を適用しようとしている場合を除き、あなたがのためにすべてのルールを書き留めておく必要があり分類し、データをループします。これまでに何を試しましたか? –
文字列の比較を試みました。しかし、ある程度のデータの整合性は検証できませんでした。文字列の比較にJaro Winklerアルゴリズムを使用しました。 –
機械学習を使用して、一連の例と正しい分類を与え、高い成功率で分類する方法のルールを学ぶことができます。 –