私は大部分の文字、数字、およびほとんどの通常の句読記号を保持するためにテキストを消去しようとしています。たとえば、私は時には "単語"や "単語"を持っているので、これらの複数の簡単な引用符を取り除きたいと思う。どこPythonでトリプルクォートとダブルシンプルクォートをフィルタリングする方法は?
res1=tqre.sub(self.quoteExtract,text)
res2=dqre.sub(self.quoteExtract,res1)
:次に
import re
tqre=re.compile('\'\'\'[^\']*\'\'\'') #for triple quotes
dqre=re.compile('\'\'[^\']*\'\'') #for "double" quotes
各試合を取り除く: は、これまでのところ私は2つの正規表現を使用することを選択したことは、トリプル引用のためによく働くように見えます
def quoteExtract(self,match):
return match.group().strip("'")
、しかし、私は多くの二重単純な引用符を通過している、彼らはキャッチされていないようだ。彼らは本当にシンプルな引用符ではなく、別の見た目の看板であるからですか?それらを扱う別の方法がありますか?
例:* ''Esquisse d'une grammaire comparée de l'arménien classique'', 1903.
に正規表現が見つかりません。
は、あなたが '」のような入力を持っているでしょう'こんにちは' '世界' 'foo' ''? – MooingRawr
引用符の中に非 '文字だけが一致しているので、それをキャッチしていませんが、 'd'une'などには1つしかありません。 –
私は何かが足りないかもしれませんが、二重引用符で囲まれていますか?このように: '' '' [^ '] *' '' "'? – cdarke