2017-03-13 9 views
0

2つのcsvファイルを2つのスパークRDDにロードしました.1つは国コードを含み、もう1つはツイートデータを含みます。私は次のものを見つけようとしています:スパークの2つのrddを比較するには?

  1. つぶやきにいくつの国が記載されていますか?
  2. どの国に言及したかの合計回数を計算します。

コード:

country_lines = sc.textFile('country-data.csv') 
words = country_lines.flatMap(lambda country_lines: country_lines.split(")") 
country_tuples = words.map(lambda word : (word, 1)) 
countryDF = sqlContext.createDataFrame(country_tuples, ["country" , "code"]) 

tweets = sc.textFile("tweet_data.csv") 

私はCountryDFで各国が(つぶやきのテキストを持つ唯一の列があります)ツイートのcsvで発生するどのように多くの時間を見つけようとしています。

country_DFは次のようになります。

Afghanistan AFG 
Albania ALB 
Algeria ALG 
American Samoa ASA 
Andorra AND 

私はそれぞれの国の発生がつぶやきでのpythonを使用してRDD pyspark数えるにはどうすればよいですか?

答えて

0

tweetDFをグループ化してtweet.csvで各国のカウントを取得し、次にcountryDFと結合してカウントを取得できます。

df = tweetDF.groupby("CountryName").count().join(countryDF,["CountryName"])