0
2つのcsvファイルを2つのスパークRDDにロードしました.1つは国コードを含み、もう1つはツイートデータを含みます。私は次のものを見つけようとしています:スパークの2つのrddを比較するには?
- つぶやきにいくつの国が記載されていますか?
- どの国に言及したかの合計回数を計算します。
コード:
country_lines = sc.textFile('country-data.csv')
words = country_lines.flatMap(lambda country_lines: country_lines.split(")")
country_tuples = words.map(lambda word : (word, 1))
countryDF = sqlContext.createDataFrame(country_tuples, ["country" , "code"])
tweets = sc.textFile("tweet_data.csv")
私はCountryDFで各国が(つぶやきのテキストを持つ唯一の列があります)ツイートのcsvで発生するどのように多くの時間を見つけようとしています。
country_DFは次のようになります。
Afghanistan AFG
Albania ALB
Algeria ALG
American Samoa ASA
Andorra AND
私はそれぞれの国の発生がつぶやきでのpythonを使用してRDD pyspark数えるにはどうすればよいですか?