2016-09-27 15 views
0

私は火花の中で以下のことをする方法がありません。スパークRDDデータ選択

timestamp A,B,C (\n) 
A,B,C (\n) 
A,B,C (\n) 
... 
timestamp A,B,C (\n) 
A,B,C (\n) 
... 

私は別のエントリとして各行を扱うもちろんどのsc.textFile(<path>)とRDDにそれを読む:私は、次の形式でデータが含まれているテキストファイルを持っています。

タイムスタンプを最初の行から区切るには、基本的にタイムスタンプ - > entry1、entry2のマップを作成します。各エントリはA、B、Cで構成されていますか? A、B、Cは常に同じタイプで、は同じ値ではありません。はそれぞれ同じ値です。

+0

entry1とentry2とはなんですか?タイムスタンプ行のA、B、CはA、B、Cと同じ行ですか? –

+0

'ここで、各エントリはA、B、C'で構成されているため、エントリ1とエントリ2はA、B、Cです。はい – Dimebag

+0

A、B、Cのすべてが同じ場合は、タイムスタンプで始まる行をフィルタリングして、それらの行でマップを単純に構築できませんか? –

答えて

0

コメントで私に暗示されている唯一の/最良の方法は、wholeTextFiles()を使用することです。その後、タイムスタンプの正規表現を使用して文字列を分割し、最後に別の分割を\nに分割しました。