私は異なる言語の単語でファイルを持っています。私はすべてのファイルで同じ構造を持つようにPythonプログラミング言語を使用してそれらを解析したいと思います。 現在、ファイルは目標がFW、それらのすべてがPythonで国際的な単語でファイルを解析する方法
** word
私はすでにいくつかのコードは、FR、一つのファイルからの読み込み、および新しいものへの書き込みをしているように書かれていことです
1. word1
24. word2
- word3
word4
** word5
のような行を含みますこのように
for line in fr:
match = re.search(r'^\*\* .*', line)
if match:
fw.write(line)
私には2つの質問があります。
最初の質問です。どのように正規表現を書いて、それはアルファ文字から始まる行を探して、アルファ文字の前にあるすべてを削除するでしょうか?
私はこの
fw.write(re.sub(r'(^([^a-zA-Z].*)([a-zA-Z])*.*)', "** \1", line))
のように試してみましたが、それは動作しません。
2番目の質問です。文字列がアルファベットで始まるかどうかを確認する方法。私は試しました
print line[0].isalpha()
返すか?それを最初にUnicodeにする必要がありますか?
ありがとうございます。
2つの質問:どの言語を処理しますか?ファイルはどのようにエンコードされていますか? – georg
@ thg435、それはタイトルとタグで言及されていますが、Python言語です。エンコーディングタイプをどのように見つけることができますか?それはasciiのように見えます。 – yart
あなたは「__different languages__の単語」と言っています - これはどれですか?ファイルにöまたはßまたはæのようなものが含まれていますか? – georg