ここでは問題だtxtファイルから読み込む:は
私はコピーしてテキスト行のhttps://www.cboe.org/mdx/mdi/mdiproducts.aspx
サンプルからtxtファイルにこのリスト全体を貼り付け:
BFLY - The CBOE S&P 500 Iron Butterfly Index BPVIX - CBOE/CME FX British Pound Volatility Index BPVIX1 - CBOE/CME FX British Pound Volatility First Term Structure Index BPVIX2 - CBOE/CME FX British Pound Volatility Second Term Structure Index
これらの行は私のテキストファイルでは普通のように見え、utf-8エンコーディングでファイルを保存しました。
私の目標は、pythonを使用してこの長いリストのシンボルだけを取り除くことです。 BFLY、VPVIXなど、と私は、ファイルを読み込むには、次のコードを使用しています
新しいファイルに書き込むと、それを分割:
x=open('sometextfile.txt','r')
y=x.read().split()
私が見ている問題が飛び出るなじみのない文字があるということです彼らはリストをフィルタリングする私の能力に影響を与えている。例:
print(y[0])
BFLY
が、私はこれらの文字は、エンコーディングとは何かを持っていると私は成功せず、コーデックモジュールと、いくつかの異なるものを試してみましたことを推測しています。 .decode( 'utf-8')を使用すると、上記の変数xまたはyに対して使用しようとするとエラーが発生します。私は.encode( 'utf-8')を使うことができます。これは明らかに事態をさらに悪化させます。
主な問題は、リストをループして、すべて大文字ではないか、アルファ以外の文字を含むアイテムを削除しようとするときです。例:
y[0].isalpha()
False
y[0].isupper()
False
この例では、シンボルBFLYがリストから削除されてしまいます。すべてのヘルプをいただければ幸いです
q=open('someotherfile.txt','w')
q.write(y[0])
:
おかしい事は、私のような何かをした場合、これらの文字は、txtファイルに存在しないということです。このようなWebページからテキストをコピーして貼り付けるときに、なぜこれが頻繁に起こるのか、本当に理解したいと思います。
はあなたがデータファイル情報を表示するあなたの質問を編集することができます。私はそれをしたいと思いますが、編集が短すぎて –
vimを使ってファイルにコピーしました。おそらくあなたのテキストエディタはutf-8以外のファイルを保存するように設定されていますか?またはおそらくそれは引用符に変わります。 –
私は残念なことに窓のメモ帳を使用しています。メモ帳にテキストをコピーすると、これらの文字の存在を示すものは表示されません。たぶん私はメモ帳+ +で保存しようとします。 –