csvファイルをダウンロードしているPythonリクエストストリームからデータフレームをロードする方法はありますか？

私はストリーミング経由で取得するcsvファイルからデータフレームを作成したいと思います：csvファイルをダウンロードしているPythonリクエストストリームからデータフレームをロードする方法はありますか？

import requests 

url = "https://{0}:8443/gateway/default/webhdfs/v1/{1}?op=OPEN".format(host, filepath) 

r = requests.get(url, 
       auth=(username, password), 
       verify=False, 
       allow_redirects=True, 
       stream=True) 

chunk_size = 1024 
for chunk in r.iter_content(chunk_size): 
    # how to load the data

データをHTTPストリームからスパークにロードすることができますか？

データの取得にHDFS形式を使用することはできません.WebHDFSを使用する必要があります。

出典

2016-07-04 Chris Snow

受信した結果をストリーミング中に作成しようとしていますが、正しいですか？ Spark Streamingの機能を調べることもできます。 –

ファイルがインポートされた場合、データはコア・スパークを使用して解析されます。 –

チャンク境界のRDDをあらかじめ生成してから、ワーカー内部のファイルを処理するために使用できます。例：

def process(start, finish): 
    // Download file 
    // Process downloaded content in range [start, finish) 
    // Return a list of item 

partition_size = file_size/num_partition 
boundaries = [(i, i+paritition_size - 1) for i in range(0, file_size, partition_size)] 
rrd = sc.parallelize(boundaries).flatMap(process) 
df = sqlContext.createDataFrame(rrd)

出典

2016-07-04 14:40:09 Dikei

私の解決策よりもずっと良く、結果はstackoverflowになります：http://stackoverflow.com/questions/38187333/unionall-resulting-in-stackoverflow –

csvファイルをダウンロードしているPythonリクエストストリームからデータフレームをロードする方法はありますか？

答えて

関連する問題