Distplot
をpandas
とseaborn
を使用してプロットして、データセットの密度を理解しようとしています。データセットが10K
行、no headers
の上に持っていないと私はcol[1]
Seasborn Distplotが応答しなくなる
コード
import numpy as np
import pandas as pd
import matplotlib.pyplot as plt
import seaborn as sns
df = pd.read_csv('keyword.csv', delimiter=',', header=None, usecols=[1])
#print df
sns.distplot(df)
plt.show()
を使用しようとしています、私は、入力欄を印刷することができますようエラーなしのが、
入力
#Car,45
#photo,4
#movie,6
#life,1
#Horse,14
#Pets,20
#run,67
#picture,89
distplot
は、時間をかけて画面を計算してフリーズしています。プロセスをスピードアップするための提案。
EDIT1:私はpandas.read_csv
からnp.loadtxt
に変更しようと、今、私はエラーを取得する以下のコメントで示唆したように。
コード:
import numpy as np
from numpy import log as log
import matplotlib.pyplot as plt
import seaborn as sns
import pandas
df = np.loadtxt('keyword.csv', delimiter=',', usecols=(1), unpack=True)
sns.kdeplot(df)
sns.distplot(df)
plt.show()
エラー:
Traceback (most recent call last):
File "0_distplot_csv.py", line 7, in <module>
df = np.loadtxt('keyword.csv', delimiter=',', usecols=(1), unpack=True)
File "/usr/local/lib/python2.7/dist-packages/numpy/lib/npyio.py", line 726, in loadtxt
usecols = list(usecols)
TypeError: 'int' object is not iterable
編集2:述べたように、私はコメントセクションこれは、同じことを
sns.distplot(df[1])
から言及した提案をしてみてくださいました最初は画面は長年にわたってフリーズしています。
sns.distplot(df[1].values)
この場合、奇妙な動作が見られます。
入力が
Car,45
photo,4
movie,6
life,1
Horse,14
Pets,20
run,67
picture,89
あるときそれはプロットを行いますが、入力が
#Car,45
#photo,4
#movie,6
#life,1
#Horse,14
#Pets,20
#run,67
#picture,89
を下回っている場合には、再び同じ凍結画面全体で、何もしないでしょう。
私はcomments=None
をコメントとして読んでいる可能性があると考えました。しかし、comments
のように見えますが、pandas
では使用されていません。
は、いくつかの臨床試験とオンライン検索の多くの後、あなたに
あなたが問題を再現する最小限の作業例を作成する必要があります。 4行のデータが本当にあなたのファイルの完全な範囲であれば、 'io.StringIO'を使ってそれをあなたのスクリプトに含めます。 –
列ヘッダーを指定してもコードは機能しますが、列番号を使用する必要があるヘッダーはありません。また、データは元のデータセットから4行あります。自然界では続かない。 –
配列を渡すだけで、 –