スパークの2つのrddを比較するには？

2つのcsvファイルを2つのスパークRDDにロードしました.1つは国コードを含み、もう1つはツイートデータを含みます。私は次のものを見つけようとしています：スパークの2つのrddを比較するには？

つぶやきにいくつの国が記載されていますか？
どの国に言及したかの合計回数を計算します。

コード：

country_lines = sc.textFile('country-data.csv') 
words = country_lines.flatMap(lambda country_lines: country_lines.split(")") 
country_tuples = words.map(lambda word : (word, 1)) 
countryDF = sqlContext.createDataFrame(country_tuples, ["country" , "code"]) 

tweets = sc.textFile("tweet_data.csv")

私はCountryDFで各国が（つぶやきのテキストを持つ唯一の列があります）ツイートのcsvで発生するどのように多くの時間を見つけようとしています。

country_DFは次のようになります。

Afghanistan AFG 
Albania ALB 
Algeria ALG 
American Samoa ASA 
Andorra AND

私はそれぞれの国の発生がつぶやきでのpythonを使用してRDD pyspark数えるにはどうすればよいですか？

出典

2017-03-13 user7704313

tweetDFをグループ化してtweet.csvで各国のカウントを取得し、次にcountryDFと結合してカウントを取得できます。

df = tweetDF.groupby("CountryName").count().join(countryDF,["CountryName"])

出典

2017-03-14 10:38:20 Suresh

スパークの2つのrddを比較するには？

答えて

関連する問題