アマゾンのレビューを区切って<span>タグで区切って

.csvファイルからデータを読み込もうとしています。何のアマゾンのレビューを区切って<span>タグで区切って

File "pandas\parser.pyx", line 1865, in pandas.parser.raise_parser_error (pandas\parser.c:23325) pandas.io.common.CParserError: Error tokenizing data. C error: Expected 32 fields in line 3, saw 35

任意の考え：

with open("Andy-Weir-The-Martian.csv", 'r') as csvfile: 
df_total = pd.read_csv(csvfile, sep=",")

それは次のようなエラーがスローされます。私はこのようなデータを読み取るしようとした場合

4.0 /gp/customer-reviews/RKMO449VT48H3?ASIN=1491590173 4.7573214851 Stars "<span class=""a-size-base review-text"">I'm a hard-science science fiction fan .... (Btw, I like those stories, too, but good ones are hard to find.)<br/><br/>Somebody did their homework on this one -- and that's what stands out above all else.</span>"

：データの例は次のようになりますこのデータをPythonに読み込むベストプラクティスですか？

出典

2017-01-12 Frits Verstraten

csvに複数のレビューがありますか？あなたがデリミタとして使用しているコメント/レビューにカンマがあります。 csvのいくつかの行を追加できますか？ – depperm

私は知っていますが、それは動作しません...私はスパンの部分を取り除く必要があります... –

まず、csv値は 'sep ="、 "'ではなくタブまたはスペースで区切られています。 – 7stud

これは、ファイルCSVファイルのレイアウトが3行目で異なることを意味します.3行目は、 'error_bad_lines'オプションを使用して無視できます。また、あなたのサンプルデータにカンマが表示されていません。それはタブかもしれない？

df_total = pd.read_csv(csvfile, sep=",", error_bad_lines=False)

error_bad_lines = Falseが使用されていると、違反行が削除されることに注意してください。悪い行を無視したくない場合は、3行目の列数が異なる理由を調べてください。

出典

2017-01-12 14:15:19 Shijo

アマゾンのレビューを区切って<span>タグで区切って

答えて

関連する問題