における2-Dアレイに.datファイル格納を解析しよう:
データ例(.DATA):私は同様のフォーマットファイル解析する例有するパンダ
+ Naoki Abe
- Myriam Abramson
+ David W. Aha
+ Kamal M. Ali
- Eric Allender
そしてここであり店舗2D配列にコード用のPython例:私の理解から
df = pd.read_csv(
filepath_or_buffer='path/to/.data/file',
header=None,
sep=',')
# separate names from classes
vals = df.loc[:,:].values
names = [n[0][2:] for n in vals]
cls = [n[0][0] for n in vals]
、このPythonコードは、データがdf
変数とvals
変数に各人物に関連付けられた文字列データを抽出することを意味します。そして、vals
の文字列をnames
とcls
に分割します。 names
とのリストは、i番目の人の名前がnames[i]
であり、関連クラスがcls[i]
になるようにそれらのコンポーネントを保持する必要があります。私はエラーを得た
# read in the dataset
df = pd.read_csv(
engine='python',
filepath_or_buffer='data/Pro1/train.dat',
header=None,
sep='\t+')
# separate names from classes
vals = df.loc[:,:].values
comm = [n[0][2:] for n in vals]
rates = [n[:1][0] for n in vals]
:私は別の類似のデータセット(.DAT)を解析するために、同様の方法を使用する場合のように
はしかし、
-1 this is comment1 blah blah blah (it is a big paragraph)
-1 this is comment2 blah blah blah (it is a big paragraph)
-1 this is comment3 blah blah blah (it is a big paragraph)
はしたがって、私はあることを例を修正しましたメッセージ:TypeError: 'long' object has no attribute '__getitem__'
at comm = [n[0][2:] for n in vals]
エラーメッセージを検索したところ、intを文字列(?)に格納しようとしていたことを説明しました。私はコメントの全体の段落を格納しようとしており、文字列です。そして、この例では、名前の文字列を保存しました。私は.dat
ファイルを解析しなければならなかったので、 私が持っているもう一つの問題があり、私はそれではなく、宇宙の-1
背後TAB
で推測しています、私は私が設定され、配列の範囲が正しいかどうかを確認していない**
私の経験。:私はPythonの専門家ではないと思っています。私は間違いなくコードを読むことができますが、それを書いている途中で研究をしなければなりません。このようなデータ分析を行うためにPythonが私の唯一の選択肢です。