.pdf
からスクレイプされたテキストを処理するためにPythonを使用しようとしています。Python - テキスト処理
これを行う方法の1つは、特定のアイテムを見つけて、同じ行、前の行または後続の行のいずれかを印刷することです。
私はこの点まで私を得たいくつかのチュートリアルを見て回ってきましたが、私は前進する方法を理解することができません。
以下のコードは、 "find"関数を使って現在の行から情報を見つけて印刷しますが、それを使って前後の行も印刷する必要があります。
廃棄されたテキストは次のようになります。
・スミス、ジョン・
パー終了12/12/12
ファイル:
私が使用しているコードは次のとおりです:
def main():
file = open("Register.txt","r")
lines = file.readlines()
file.close
for line in lines:
line = line.strip()
countPerEnd = 0
countFile = 0
if line.find("Per End")!=-1:
countPerEnd = countPerEnd + 1
if line.find("File:")!=-1:
countFile = countFile + 1
print ("Per End: ", countPerEnd)
print ("File: ", countFile)
main()
私は見つけた行だけを印刷することができますが、この場合は「file:」の後の名前と番号のような他の項目を細かくする必要があります。
"Per End"と "file:"という文字列以外の文字列でもかまいませんので、常に同じになります。
結果がどこに出力されたかを確認するために結果を印刷しました。
出力は次のようになります。エンドパー :12/12/12
と「エンドパー」発見に基づいて、私は必要な出力: ・スミス、ジョン・
ご質問は明確ではありません....あなたが投稿したテキストは、入力されたか、何を実行した後にあなたが得ますあなたが作成した関数ですか?あなたは何をしたいですか?このテキストから 'Smith、John'、' 12/12/12'と '12345'の値を抽出しますか? –
私は希望の結果が何であるかを加えました。私はそれがカップルのものをクリアすることを願っています。 –