私はスパークとデータフレームを初めて使用しています。ファイルシステムの指定されたパスからCSVを読み込むために、databricksライブラリによって提供された以下のコード部分を見つけました。sparkを使用してSpring RESTハンドラを介してアップロードされたCSVを読み取る方法は?
sqlContext.read.format("com.databricks.spark.csv")
.option("header", "true")
.load("../Downlos/2017.csv")
代わりに、ファイルシステムからの読み取りのHTTPリクエストからバイト配列を解析したCSV databricksのいずれかのAPIはありますか?
ここでは、Spark DataFramesを使用してSpring RESTハンドラを使用してアップロードされたマルチパート(CSV)ファイルを読み込みます。私は、ファイルシステムから読み込む代わりに、ファイル/バイト配列を入力としてロードできるdataframe APIを探しています。
ファイルから、特定の条件(たとえば、解析された各 行の文字列 "再生"と等しくない任意の列値)に一致する各行の列のみを選択し、それらのフィールドのみを元に戻す必要がありますデータベースに転送します。
上記のUsecaseがRDDの/ Dataframesを使用してスパークできるかどうかは誰にも示唆できますか?これについての提案は非常に役に立ちます。
あなたはこの質問にいくつかの追加の詳細を追加することができればそれは、参考になります。あなたはhttpでファイルを読み込み、次に並列化したいですか?あなたのファイルは大きすぎるので、それを並行して読みたいのですか?これらの着信HTTPリクエストは、あなたはスパークストリーミングを使用してアプリを構築しようとしていますか?なぜあなたはhttpを使用していますが、より適切なものはありませんか?ファイルをダウンロードしたいのであれば、wget経由でマウントしたり、マウントしようとしないでください。 –
ここでは、Spark DataFramesを使用してSpring RESTハンドラを使用してアップロードされたマルチパート(CSV)ファイルを読み込みます。私は、ファイルシステムから読み込む代わりにファイル/バイト配列を入力として読み込むことができるデータフレームAPIを探しています – user3478709