私はSparkを使用してログラインを処理する必要があります。処理のステップの1つは、外部DBの特定の値をルックアップすることです。sparkからの外部データベースでのマイクロバッチルックアップ
例: ログラインに複数のキーと値のペアが含まれています。ログに存在するキーの1つが「key1」です。ルックアップコールにはこのキーを使用する必要があります。 RDDの "key1"の各値に対して、外部DBで複数のルックアップを連続して実行したくありません.RDDにある "key1"のすべての値のリストを作成し、外部DBで単一参照呼び出しを行いたい。
ようになり、各ログ行からキーを抽出する私のコードは次のとおりです。
lines.foreachRDD{rdd => rdd.map(line => extractKey(line))
// next step is lookup
// then further processing
.MAP機能は、各ログ行のために呼ばれ、私はわからないことになるが、どのように私はのリストを作成することができます外部ルックアップに使用できるキー。
おかげ
を回避します'メソッドを呼び出すと、Array [Key]またはList [Key]として返されます。 – Shankar