私は文字列のRDDを持っています。各行はさまざまなログに対応しています。グローバルスパークrddに書き込むマップ関数
私は適応された正規表現を適用するためにRDDの行と一致するか/大文字の1つの単一の関数で複数の正規表現を持っています。
この固有の機能を自分のRDDにマップしたいので、すべての行をすばやく処理し、処理された各行を他のグローバルrddに格納することができます。
問題は、このタスクを並列化したいので、すべての処理済み行を追加するには、グローバルRDDに同時にアクセスできる必要があります。
これを行うには別の方法があるかどうか疑問に思っていました。私は自分のスパークスキルを向上させるために探しています。たとえば、これは私がしたい何
されています:
私のようなTXT持っている:
私のregex関数は、 "ERROR"を含む行と配列が一致する例:ERROR:Hahhaha PARAM_ERROR = 8 param_err2 = httpsの
WARNING:HUHUHUHUH param_warn = tchu param_warn2を= wifi
、別の正規表現関数は終わりに例Array("Warning","tchu","wifi")
の配列で「WARNING」を含む行と一致しますが、私は処理ライン毎RDD[Array[String]]
を取得したいです。
私はそれをSparkと並列に保つにはどうしますか?
を「私は適応正規表現を適用するためにRDDの行を/ケースに一致する1つの機能で複数の正規表現を持っている」 - ことができますこの機能の_署名を含めるように投稿を編集しますか? –