私はストリーミング経由で取得するcsvファイルからデータフレームを作成したいと思います:csvファイルをダウンロードしているPythonリクエストストリームからデータフレームをロードする方法はありますか?
import requests
url = "https://{0}:8443/gateway/default/webhdfs/v1/{1}?op=OPEN".format(host, filepath)
r = requests.get(url,
auth=(username, password),
verify=False,
allow_redirects=True,
stream=True)
chunk_size = 1024
for chunk in r.iter_content(chunk_size):
# how to load the data
データをHTTPストリームからスパークにロードすることができますか?
データの取得にHDFS形式を使用することはできません.WebHDFSを使用する必要があります。
受信した結果をストリーミング中に作成しようとしていますが、正しいですか? Spark Streamingの機能を調べることもできます。 –
ファイルがインポートされた場合、データはコア・スパークを使用して解析されます。 –