0
私は火花の中で以下のことをする方法がありません。スパークRDDデータ選択
timestamp A,B,C (\n)
A,B,C (\n)
A,B,C (\n)
...
timestamp A,B,C (\n)
A,B,C (\n)
...
私は別のエントリとして各行を扱うもちろんどのsc.textFile(<path>)
とRDDにそれを読む:私は、次の形式でデータが含まれているテキストファイルを持っています。
タイムスタンプを最初の行から区切るには、基本的にタイムスタンプ - > entry1、entry2のマップを作成します。各エントリはA、B、Cで構成されていますか? A、B、Cは常に同じタイプで、は同じ値ではありません。はそれぞれ同じ値です。
entry1とentry2とはなんですか?タイムスタンプ行のA、B、CはA、B、Cと同じ行ですか? –
'ここで、各エントリはA、B、C'で構成されているため、エントリ1とエントリ2はA、B、Cです。はい – Dimebag
A、B、Cのすべてが同じ場合は、タイムスタンプで始まる行をフィルタリングして、それらの行でマップを単純に構築できませんか? –