私は文字列(通常はツイート)から値の束を抽出するための小さなツールを書いています。文字列内の通貨値はどのようにして見つけられますか?
文字列は、通貨記号(£、$、€など)とハッシュタグ(#foo #bar)のプレフィックスが付いた単語と数字で構成できます。私はappEngineで動作していてtweepyを使ってつぶやきを持ってきます。
は、私は値を見つける必要があり、現在のコードは以下の通りです:
tagex = re.compile(r'#.*')
curex = re.compile(ur'[£].*')
for x in api.user_timeline(since_id = t.lastimport):
tags = re.findall(tagex, x.text)
amount = re.findall(curex, x.text)[0]
logging.info("Text: " + x.text)
logging.info("Tags: " + str(tags))
logging.info("Amount: " + amount)
x.textは「タクシーロンドン£6.50 #projectfooの#clientmeeting」
tagexは、ハッシュタグの罰金を見つけ例えばある
、私は現在私が得る量を抽出するためにキュレックスを得ることができません: 金額:£6.50 #projectfoo #clientmeeting。
金額を浮動小数点にするために通貨記号を分離する必要がありますが、後でそれをかなりシンプルにする必要があります。
あなたの質問は? – SilentGhost