スパークデータフレームでフィルタ条件がどのように機能していますか？

私はhbaseに1億レコードのテーブルを持っています。特定の条件（日付順）に基づいてレコードをフィルタリングしたいと思います。例えばスパークデータフレームでフィルタ条件がどのように機能していますか？

：テーブルからすべてのレコードがメモリにロードされます後

Dataframe.filter(col(date) === todayDate)

フィルタが適用されますか私はレコードをフィルター得るのだろうか？

出典

2017-01-16 senthil kumar p

一方、使用しているデータソースによって異なるとします。データソースがすべてのプッシュダウン述部をサポートしていないことがあります。あなたの質問は、mongo、elasticsearch、hbase、cassandra、csvなどに接続できるスパークのすべてのデータソースを考慮して、あなたの質問はかなり広範囲です。 – eliasah

spbase hbaseコネクタhttpsを使用してhbaseからテーブルを読み込もうとしています。：//github.com/hortonworks-spark/shc –

あなたのユースケースがちょうどストレージから読み込まれた場合は、それをフィルタリングしてどこかに保存してください。そして、データをRDDに直接読み込む方法があると（レコードの遅延読み込み）、フィルタは読み書きでパイプライン化されます。つまり、フィルタ操作はデータ全体が読み込まれるのを待つことはありません[要するに、フィルタは変換であり、アクションではありません]。フィルターの前にアクションがある場合、フィルターはストア全体からデータを読み取った後にのみ適用されます。

出典

2017-01-16 13:07:52 code

'フィルターの前にアクションがあれば、フィルターはストア全体のデータを読み込んだ後にのみ適用されます.'アクションはRDDではなく値を返すので、フィルタの結果）; –

@T.Gawędaと同様に、あなたの答えは正確ではなく、OPの質問に本当に答えるものでもありません。 – eliasah

@T.Gawęda私は同意しますが、質問は*テーブルからのすべてのレコードがメモリにロードされた後にフィルタが適用されるか、フィルタリングされたレコードを取得する*でしょう、そのステートメントはデータ全体が読み込まれる場合を強調します。値を返すRDDごとに、私はそれに同意します。しかし、rdd.count（）とrdd.filter（...）を呼び出す場合を考えて、私の投稿は質問された質問に答えます。 – code

スパークデータフレームでフィルタ条件がどのように機能していますか？

答えて

関連する問題