スパークRDDデータ選択

私は火花の中で以下のことをする方法がありません。スパークRDDデータ選択

timestamp A,B,C (\n) 
A,B,C (\n) 
A,B,C (\n) 
... 
timestamp A,B,C (\n) 
A,B,C (\n) 
...

私は別のエントリとして各行を扱うもちろんどのsc.textFile(<path>)とRDDにそれを読む：私は、次の形式でデータが含まれているテキストファイルを持っています。

タイムスタンプを最初の行から区切るには、基本的にタイムスタンプ - > entry1、entry2のマップを作成します。各エントリはA、B、Cで構成されていますか？ A、B、Cは常に同じタイプで、は同じ値ではありません。はそれぞれ同じ値です。

2016-09-27 Dimebag

entry1とentry2とはなんですか？タイムスタンプ行のA、B、CはA、B、Cと同じ行ですか？ –

'ここで、各エントリはA、B、C'で構成されているため、エントリ1とエントリ2はA、B、Cです。はい – Dimebag

A、B、Cのすべてが同じ場合は、タイムスタンプで始まる行をフィルタリングして、それらの行でマップを単純に構築できませんか？ –

コメントで私に暗示されている唯一の/最良の方法は、wholeTextFiles()を使用することです。その後、タイムスタンプの正規表現を使用して文字列を分割し、最後に別の分割を\nに分割しました。

2016-10-02 13:45:52 Dimebag

答えて