0

で火花データフレームの列幅の設定私はJupyterノートに次のコードを持っている:Pyspark:Jupyterノート

import pandas as pd 
pd.set_option('display.max_colwidth', 80) 
my_df.select('field_1','field_2').show() 

私はfield_1field_2の完全な値を見ることができるように、列の幅を増やすことをお勧めします。私はパンダのデータフレームにpd.set_option('display.max_colwidth', 80)を使用できますが、スパークのデータフレームでは機能していないようです。

私たちがpandasデータフレームのようにスパークデータフレームの列幅を増やす方法はありますか?ありがとう!

+0

あなたは一時テーブルとしてそれを登録しようとしましたが、代わりにSQLコンテキストを使ってテーブルとして表示しましたか? – tadamhicks

答えて

2

は、私はあなたが特定の幅を設定することができるとは思わないが、これはどんなににサイズ

my_df.select('field_1','field_2').show(10, truncate = False) 
+0

私は上記のコードを使用すると、show()に予期しないキーワード引数 'truncate'があります。何か案が? – Edamame

+0

ええと、切り捨てなしで試してみてください。例えば、 'show(False)' – David

+0

私はエラーを受け取りました:Py4JError:o105.showStringの呼び出し中にエラーが発生しました。トレース:... – Edamame

1

これは何をしたいあなたを与える必要がカットされていない、あなたのデータを確実に表示されます

import pandas as pd 
pd.set_option('display.max_colwidth', 80) 
my_df.select('field_1','field_2').limit(100).toPandas() 
+0

データが大きいです、私はそれをtoPandas()に変換できません。私はpysparkのデータフレームでそれを行う必要があります – Edamame

+1

はい、show()を実行すると、すべてノートブックにも移動します。データが大きい場合は、表示するためにデータを制限する必要があります。そして、私はこれをなぜここに置くのですか.100(100)なので、最初の100レコードだけがノートブックに表示されます。あなたはそれを削除することができ、あなたはすべてのレコードを取得します。 –