ローカルディスクに格納されたSQLLite .dbファイルからテーブルをロードしようとしています。 PySparkでこれを行うきれいな方法はありますか?PySparkからSQLLite dbファイルからテーブルをロードするには?
現在、私はうまく機能しますが、エレガントではないソリューションを使用しています。最初に、sqlite3を使ってpandasを使ってテーブルを読みました。問題の1つは、プロセス中にスキーマ情報が渡されないこと(問題の可能性もありますが、問題ではない可能性があります)です。私はパンダを使わずにテーブルをロードする直接的な方法があるかどうか疑問に思っています。
import sqlite3
import pandas as pd
db_path = 'alocalfile.db'
query = 'SELECT * from ATableToLoad'
conn = sqlite3.connect(db_path)
a_pandas_df = pd.read_sql_query(query, conn)
a_spark_df = SQLContext.createDataFrame(a_pandas_df)
これを行うにはjdbcを使用する方法があるようですが、PySparkでどのように使用するかはわかりません。
どのようなスキーマ情報ですか?あなたはデータ型を意味しますか?そうではないsqlite *本当に*それらを持っている... –