DataFrameReader.load("table name")
を使用してhive
テーブルレコードをロードし、DataFrame
として返します。Spark SQL - DataFrameReaderのロードメソッドwhere
しかし、レコード全体をロードしたくないので、特定の日付(ハイブテーブルのフィールドの1つ)のレコードのみをフェッチしたかったのです。
返されたDataFrameにwhere条件を追加すると、最初にテーブル全体がロードされますか?filter
日付に基づくレコードですか?
ハイブテーブルが巨大で、日付フィールドに基づいてパーティション化されているためです。
基本的には、テーブル全体をロードせずにloadメソッドを使用してselect * from table where date='date'
を達成したいと思います。