2
に変換します。実際には、clouderaのdataricksでApache Spark Pythonの作業領域で作業しています。アイデアはcsvを読み込み、各フィールドをフォーマットすることです。リスト項目を定義済みのデータ型RDD
したがって、最初のステップは、CSVファイルを読み込むことであった。
uber_parsed = uber.map(lambda lin:lin.split(","))
print (uber_parsed.first())
結果であった:
uber = sc.textFile("dbfs:/mnt/uber/201601/pec2/uber_curated.csv")
次のステップは、値のリストに各行を変換することでした
[u'B02765', u'2015-05-08 19:05:00', u'B02764', u'262', u'Manhattan',u'Yorkville East']
しかし、次の値リストの各項目を次の形式に変換する必要があります。String、Date、String、Integer、Strin g、文字列。
[[u'B02765', u'2015-05-08 19:05:00', u'B02764', u'262', u'Manhattan', u'Yorkville East'],
[u'B02767', u'2015-05-08 19:05:00', u'B02789', u'400', u'New York', u'Yorkville East']]
誰かがそれを行う方法を知っていますか?
返信いただきありがとうございますが、このエラーが発生します。 'RDD'オブジェクトは呼び出し可能ではありません – UserCode
不要なブラケットです。今はOKでしょう。 – user7337271
素晴らしい作品です。 – UserCode