私はPythonとプログラミングには初めてです。私は大きなテキストファイルのチャンクで読み取る必要がある、形式は、次のようになります。私はform
、lemma
とpostag
情報が必要
<word id="8" form="hibernis" lemma="hibernus1" postag="n-p---nb-" head-"7" relation="ADV"/>
。例えば上記のために私はhibernis
、hibernus1
およびn-p---nb-
が必要です。
フォームに達するまで読むようにPythonに指示するには、引用符が"
に達するまで前方に読むようにしてから、引用符"hibernis"
の間の情報を読んでください。本当にこれで苦労します。
これまでのところ、句読点を削除し、文章を分割し、必要な情報をリストから取り除くことを試みました。しかし、全体のファイルを処理するためにPythonを取得するのに問題がある場合、私はこの作業を1行でしか行えません。私のコードは以下の通りです:
f=open('blank.txt','r')
quotes=f.read()
noquotes=quotes.replace('"','')
f.close()
rf=open('blank.txt','w')
rf.write(noquotes)
rf.close()
f=open('blank.txt','r')
finished = False
postag=[]
while not finished:
line=f.readline()
words=line.split()
postag.append(words[4])
postag.append(words[6])
postag.append(words[8])
finished=True
は、任意のフィードバック/批判をお願い申し上げ
おかげ
ありがとうretracile。ちょうどあなたのコードとその正確に私が必要としたものを試しました。本当に助けに感謝します。最初にreモジュールを試してみましたが、re.match( "|(f | 1)orm(。*)"行の場合は for f: の場合): 印刷>> rfformat、行、 –
しかし、愚かにそのメソッドをあきらめて、リストメソッドに行った。 私はreモジュールを研究し、あなたのコードが何をしているのかを確認するつもりです –
ありがとう、ありがとうございました –