2017-03-04 3 views
0

物理的な場所から火花ストリームを作成するための任意の信頼できる方法がある場合、私は不思議でしたか?私は 'textFileStream'を使用していましたが、ファイルがHDFSにある場合は主に使用されているようです。あなたは、関数の定義を参照した場合には、Apacheのスパーク

答えて

2

を「Hadoopの互換ファイルシステムを監視し、入力ストリームを作成します」と言うあなたはHDFSは、物理的な場所ではないことを示唆していますか?物理的に存在するdatanodeディレクトリがあります...

file:// URIでtextFileを使用できるはずですが、クラスタ内のすべてのノードがその場所から読み取れるようにする必要があります。 Hadoopの互換性のあるファイルシステムの定義から

使用するファイルシステムの選択は、それを参照するために使用されるURIスキームに由来します。任意のファイルパス上の接頭辞hdfs:は、HDFSファイルシステムを参照することを意味します。ファイル:ローカルのファイルシステムに、S3:アマゾンS3には、ftp:FTP、SWIFT:OpenStackSwift、...など。

Hadoopの

申し訳
+0

に新しいスキーマを追加するために必要な関連するJava JARファイル、ネイティブバイナリおよび設定パラメータを通じてのHadoopとの明示的な統合を提供する他のファイルシステムは、私はUNIX/Windowsファイルシステムによって物理的な場所を意味があります私はローカルコアを持つWindowsでそれを複製しようとしていましたが、ファイルを変更してスパークジョブが実行されているときにファイルを移動するときにしか読めるような問題があるようです。 –

+1

はい、ストリーミングドキュメントは、「ファイルが原子移動やデータディレクトリにそれらの名前を変更することにより、DATADIRECTORYで作成されなければならない」と言うスパーク。つまり、既存のファイルは読み込まれません。ファイルへの追加は –

+0

@Satyabratを動作しませんこれは、あなたの質問に答えていますか? –

関連する問題