0

jupyterのテキスト分類用によく知られている20のニュースグループデータセットを使用しています。 Macでファイルを開いて読み込もうとすると、デコードの段階で失敗します。バイト形式でファイルを読み込もうとしましたが、それは文字列として扱う必要があります。私はそれをエンコードしようとしましたが、エラーで失敗します。 file -I file_nameUnicodeDecodeError: 'ascii'コーデックは、位置11597のバイト0xffをデコードできません:範囲内の序数(128)

コード

with open(file_path, 'rb') as f: 
    file_read=f.read() 
    file_read.decode("us-ascii") 

エラー

UnicodeDecodeError: 'ascii' codec can't decode byte 0xff in position 11597: ordinal not in range(128) 

US-ASCIIは、端末に入力したときに私が見つけたファイルのエンコーディングです。私は他のエンコーディングを試みましたが、何も動作しません。 さらに、句読点を削除してファイル内の単語を数えたいと思います。この問題を克服する方法はありますか?

+0

str(file_read、 'US-ASCII')を使用してみましたか? –

+0

open(file_path、 'r'、encoding = 'ascii'、errors = None)を試し、データの有効性を確認してください。 –

+0

同じエラーメッセージ –

答えて

0

ファイルを見ないと難しいです。しかし、これはほとんどの時間、問題を解決し無視するエラーを設定

from codecs import open 
file_path = "file_name" 
with open(file_path, 'rb') as f: 
    file_read=f.read() 
0

の作品、おかげN M.は、コードは次のようになります。一つの大きな文字列として

ref_file=open(ref_file_path, 'r', encoding='ascii', errors='ignore') 
file_read=ref_file.read() 

コードをさらに治療を。エラーは0xffをデコードすることに関するものですが、UTF-16コーディングではないことに注意してください。

関連する問題

 関連する問題