1
SparkストリーミングAPI "textFileStream"を使用して継続的に追加されるテキストファイルからストリーミングデータを読み込もうとしています。しかし、スパークストリーミングで連続データを読み取ることができません。スパークでそれを達成するには?Sparkストリーミングの単一ファイルからストリーミングデータを読み取ることができません
SparkストリーミングAPI "textFileStream"を使用して継続的に追加されるテキストファイルからストリーミングデータを読み込もうとしています。しかし、スパークストリーミングで連続データを読み取ることができません。スパークでそれを達成するには?Sparkストリーミングの単一ファイルからストリーミングデータを読み取ることができません
これは予期した動作です。 file based sourcesのために(のようなfileStream
):
- ファイルがアトミックに移動したり、データディレクトリにそれらの名前を変更することにより、DATADIRECTORYで作成する必要があります。
- 移動後、ファイルを変更してはいけません。したがって、ファイルが継続的に追加されている場合、新しいデータは読み込まれません。
読みたい場合は、連続的にはスパークを組み合わせることがまれですが、あなたが(自分のソースを作成、または別のプロセスを使用して、変更を監視していると、たとえばカフカのためにレコードをプッシュする必要があります追加追加をサポートするファイルシステムで)。