2017-01-11 27 views
2

PySparkのURLからcsvファイルをロードしたかったのですが、これも可能ですか? ファイルをGitHubに保存します。PySparkのURLからの読み込み

ありがとうございます!

答えて

2

pysparkには素朴な方法はありません(here参照)。あなたが入力としてURLを取り、csvファイルを出力する関数がある場合 しかし、:

def read_from_URL(UR): 
    # your logic here 
    return data 

をあなたはこの操作を並列化するために火花を使用することができます。

URL_list = ['http://github.com/file/location/file1.csv, ...] 
data = sc.parallelize(URL_list).map(read_from_URL) 
関連する問題