2017-04-06 7 views
0

私はpythonとsklearnを使って機械学習を読んできました。 私は虹彩のデータセットで練習しようとしましたが、次にUCIのウェブサイト上の他のデータセットを見つけるために続けました。pandasにテキストを含む適切な区切り文字を定義するcsv_read

"Amazon Book Reviews"と呼ばれるものが見つかりました。

ドキュメントには、各エントリが新しい行で区切られ、4つの属性のそれぞれが空白で区切られていることが示されています。

タイトル(テキスト)と説明(HTML)があるため、残念ながらデータにはスペースが含まれています。私がしようとすると当然のパンダcsv_read機能を使用する場合

それはどこの列を分離し、どちらもI.

任意のアイデアを行うことを知りませんか?初心者の機械学習(そして一般的なプログラミング)のために私は自分の深みから離れすぎていますか?

答えて

2

あなたは何か間違ったことはしていませんが、ドキュメントは実際には間違っています。データファイルで使用されるデリミタは、実際にはタブ'\t'のタブです。これをのパラメータとしてpandas.read_csvに使用できます。

あなたの分析で幸運を祈る!

+0

母私はそれを見ることができるはずだったように感じる。それを見ていただきありがとうございます。 – DataBrown

0

各エントリは改行で区切られ、4つの属性のそれぞれは、空白スペースで区切られている「」

read_csvデフォルトはあなたが作ることができる','

あるan optional sep argumentを提供これはスペースです。

関連する問題