PySparkのURLからの読み込み

PySparkのURLからcsvファイルをロードしたかったのですが、これも可能ですか？ファイルをGitHubに保存します。PySparkのURLからの読み込み

ありがとうございます！

2017-01-11 sampak

pysparkには素朴な方法はありません（here参照）。あなたが入力としてURLを取り、csvファイルを出力する関数がある場合しかし、：

def read_from_URL(UR): 
    # your logic here 
    return data

をあなたはこの操作を並列化するために火花を使用することができます。

URL_list = ['http://github.com/file/location/file1.csv, ...] 
data = sc.parallelize(URL_list).map(read_from_URL)

2017-09-08 18:02:34

答えて