0

私は約100,000行のテーブルを持っています。この表は、Excelファイルであり、そしてここでのスナップショットです:効率的なパターンマッチングを使用してビッグデータの行の類似性を見つける方法

+------------+-----------+-----+-----+-----------------------------------------------------------+ 
| First Name | Last Name | Sex | Age |       Address       | 
+------------+-----------+-----+-----+-----------------------------------------------------------+ 
| Parm  | Jit  | m | 23 | palm court scoeity, RD. golf course, delhi    | 
| Param  | jit  | m | 24 | palm cort society, road golf course, delhi    | 
| Pram  | Jet  | m | 28 | palm court socityt Road golf course, Delhi    | 
| Prm  | jit  | m | 31 | society palm court, Rod. Golf coure, delhi    | 
| Param  | Jeet  | m | 33 | palm court scoety, delhi         | 
| varun  | nagraj | m | 36 | Thame Square, auckland-AZ-2014       | 
| Janet  | kumar  | m | 40 | Thame Square, auckland-AZ-2014       | 
| varun  | kumar  | m | 42 | Thame Square, auckland-AZ-2014       | 
| Jatin  | Kakkar | m | 45 | Noida, near shipra mall, sectr 57, Noida, U.P.   | 
| Jatin  | Kakar  | m | 56 | Noida, near shipra mall, sectr 57, Noida, Uttar pardesh | 
| Jatin  | Kakkr  | m | 57 | Noida, Flat no- 23, near shipra mall, sectr 57, Noida, UP | 
| Janet  | Yellen | F | 23 | 11 CORONADO POINTELAGUNA NIGUELCA92677     | 
| Janet  | Yellen | F | 24 | 11 CORONADO POINTELAGUNA NIGUELCA       | 
| Janet  | Yellen | F | 25 | 11 CORONADO POINTELAGUNA 92677-0000      | 
| Jant  | Yelen  | F | 26 | 11 CORONADO POINTELAGUNA NIGUELCA0000      | 
| Janet  | Yellen | F | 26 | 11 CORONADO POINTELAGUNA NIGUELC       | 
| Abigail | Johnson | F | 24 | PRESERVE DRIVE NE, 11BELMONTMI4930      | 
| andrew  | symonds | m | 24 | Fame Stret, brisbane, hn 181        | 
| Angel  | Ahrendts | F | 26 | WYNGATE MANOR CTALEXANDRIAVA        | 
| Safra  | Catz  | F | 26 | 31155 ZOAR SCHOOL ROADLOCUST GROVEVA22508-0000   | 
| Park  | Geun-hye | F | 30 | CATHOLIC CHURCH RDBEACH LAKEPA       | 
| Sheryl  | Sandberg | F | 24 | 80164 SULTANA AVEINDIOCA92201-0000      | 
| Sheryl  | Sandberg | F | 24 | SULTANA AVEINDIOC           | 
| Safra  | Catz  | F | 26 | OAR SCHOOL ROADLOCUST GROVEV        | 
| Park  | Geun-hye | F | 30 | 308 CATHOLIC CHURCH RDBEACH LAKEPA18405-0000    | 
| andrw  | simnds | m | 24 | Fame Stret, 181 HOUSE NO         | 
| prashat | vats  | m | 35 | Al thei, al nzar, dubai12         | 
| prasant | vats  | m | 37 | Al, al nazar, dubai23          | 
| andrw  | simonds | m | 34 | Fame brisbane, 181 H.N.         | 
| vats  | prashant | m | 30 | Al thei, al nazar, dubai         | 
| vast  | prshant | m | 30 | al nazar, dubai, street adamifullah      | 
| prashant | vats  | m | 37 | Al thei, al nazar, dubai         | 
| ram  | vats  | m | 29 | Al thei, nazar, dubai          | 
| Kiss  | hanes  | m | 45 | Sydney, andrew str. 223         | 
+------------+-----------+-----+-----+-----------------------------------------------------------+ 

私は、このデータの行の類似点を見つけるためにしようとしています、例えば、1行目は、私が試してみました2行することは非常に似ていますクラスタリングアルゴリズム(すなわちBIRCHDBSCANK meansSpectralMarkov Clustering)が、私は私のpythonプラットフォーム上のすべてのデータを取っていますので、それらのすべては、(彼らはpythonでメモリエラーを与える前に、100,000行で実行するために約半分の時間を取ります、私のマシンのRAMは16gbです)。

私はこの問題に対してより良いアルゴリズムを使用すべきですか、またはsparkのようなプラットフォームにデータを移動してから作業する必要がありますか?前者が当てはまる場合、あまり時間がかからないアルゴリズムで私を助けてくれますか?大きなデータで実用的な問題を解決するアプローチを楽しみにしているので、これを理論的な質問とはみなさないでください。

+1

Excelと、わずか100000レコード - それは大きなデータではありません。エクサバイトではなく、メガバイトです... –

答えて

1

これは、すべての

まず...このデータセットにこれらのアルゴリズムを使用するように意味がありません、常に規模を検討する前作業アプローチを見つけるためにサンプルを始めます。実際にはクラスタリングではなく、クリーニングに焦点を当てることをお勧めします。 OpenRefineは良いスタートになるかもしれません。

+0

データクリーニングにはどのようなアプローチがありますか? –

関連する問題