2017-01-12 9 views
0

.csvファイルからデータを読み込もうとしています。何のアマゾンのレビューを区切って<span>タグで区切って

File "pandas\parser.pyx", line 1865, in pandas.parser.raise_parser_error (pandas\parser.c:23325) pandas.io.common.CParserError: Error tokenizing data. C error: Expected 32 fields in line 3, saw 35

任意の考え:

with open("Andy-Weir-The-Martian.csv", 'r') as csvfile: 
df_total = pd.read_csv(csvfile, sep=",") 

それは次のようなエラーがスローされます。私はこのようなデータを読み取るしようとした場合

4.0 /gp/customer-reviews/RKMO449VT48H3?ASIN=1491590173 4.7573214851 Stars "<span class=""a-size-base review-text"">I'm a hard-science science fiction fan .... (Btw, I like those stories, too, but good ones are hard to find.)<br/><br/>Somebody did their homework on this one -- and that's what stands out above all else.</span>" 

:データの例は次のようになりますこのデータをPythonに読み込むベストプラクティスですか?

+0

csvに複数のレビューがありますか?あなたがデリミタとして使用しているコメント/レビューにカンマがあります。 csvのいくつかの行を追加できますか? – depperm

+0

私は知っていますが、それは動作しません...私はスパンの部分を取り除く必要があります... –

+0

まず、csv値は 'sep ="、 "'ではなくタブまたはスペースで区切られています。 – 7stud

答えて

0

これは、ファイルCSVファイルのレイアウトが3行目で異なることを意味します.3行目は、 'error_bad_lines'オプションを使用して無視できます。また、あなたのサンプルデータにカンマが表示されていません。それはタブかもしれない?

df_total = pd.read_csv(csvfile, sep=",", error_bad_lines=False) 

error_bad_lines = Falseが使用されていると、違反行が削除されることに注意してください。悪い行を無視したくない場合は、3行目の列数が異なる理由を調べてください。