0
私はsparkを学習しようとしています。Python Sparkでの正確な文字列の近似
RDD1
[["James Dean,1"], ["Roger Moore,2"]]
RDD2
[["22,1931,James Deen"], ["23,1927,Roger Moor"]]
今すぐRDD2内のデータが正しく入力されない場合があります:私は次の形式を持つ2つのRDDSを持っています。私はRDD1に行き、それぞれの名前を確認してから、RDD2のすべての類似した文字列を検索し、その綴りを訂正したい。私はこれについてどうやって行くのですか? 私はスパークに慣れているので、私は完全に迷っています。
ルックアップ編集距離。 Sparkで試してみる前に、まずこれをPython(またはScala)で解決してみてください。 – arun