UnicodeDecodeError： 'ascii'コーデックは、位置11597のバイト0xffをデコードできません：範囲内の序数（128）

jupyterのテキスト分類用によく知られている20のニュースグループデータセットを使用しています。 Macでファイルを開いて読み込もうとすると、デコードの段階で失敗します。バイト形式でファイルを読み込もうとしましたが、それは文字列として扱う必要があります。私はそれをエンコードしようとしましたが、エラーで失敗します。 file -I file_name：UnicodeDecodeError： 'ascii'コーデックは、位置11597のバイト0xffをデコードできません：範囲内の序数（128）

コード

with open(file_path, 'rb') as f: 
    file_read=f.read() 
    file_read.decode("us-ascii")

エラー

UnicodeDecodeError: 'ascii' codec can't decode byte 0xff in position 11597: ordinal not in range(128)

US-ASCIIは、端末に入力したときに私が見つけたファイルのエンコーディングです。私は他のエンコーディングを試みましたが、何も動作しません。さらに、句読点を削除してファイル内の単語を数えたいと思います。この問題を克服する方法はありますか？

出典

2017-10-19 Alexandra Posoldova

str（file_read、 'US-ASCII'）を使用してみましたか？ –

open（file_path、 'r'、encoding = 'ascii'、errors = None）を試し、データの有効性を確認してください。 –

同じエラーメッセージ –

ファイルを見ないと難しいです。しかし、これはほとんどの時間、問題を解決し無視するエラーを設定

from codecs import open 
file_path = "file_name" 
with open(file_path, 'rb') as f: 
    file_read=f.read()

出典

2017-10-19 03:04:45 djinn

の作品、おかげN M.は、コードは次のようになります。一つの大きな文字列として

ref_file=open(ref_file_path, 'r', encoding='ascii', errors='ignore') 
file_read=ref_file.read()

コードをさらに治療を。エラーは0xffをデコードすることに関するものですが、UTF-16コーディングではないことに注意してください。

出典

2017-10-20 04:29:57

UnicodeDecodeError： 'ascii'コーデックは、位置11597のバイト0xffをデコードできません：範囲内の序数（128）

答えて

関連する問題