jupyterのテキスト分類用によく知られている20のニュースグループデータセットを使用しています。 Macでファイルを開いて読み込もうとすると、デコードの段階で失敗します。バイト形式でファイルを読み込もうとしましたが、それは文字列として扱う必要があります。私はそれをエンコードしようとしましたが、エラーで失敗します。 file -I file_name
:UnicodeDecodeError: 'ascii'コーデックは、位置11597のバイト0xffをデコードできません:範囲内の序数(128)
コード
with open(file_path, 'rb') as f:
file_read=f.read()
file_read.decode("us-ascii")
エラー
UnicodeDecodeError: 'ascii' codec can't decode byte 0xff in position 11597: ordinal not in range(128)
US-ASCIIは、端末に入力したときに私が見つけたファイルのエンコーディングです。私は他のエンコーディングを試みましたが、何も動作しません。 さらに、句読点を削除してファイル内の単語を数えたいと思います。この問題を克服する方法はありますか?
str(file_read、 'US-ASCII')を使用してみましたか? –
open(file_path、 'r'、encoding = 'ascii'、errors = None)を試し、データの有効性を確認してください。 –
同じエラーメッセージ –