私は、テキストのブロックから一般的な単語(結合詞、副詞、代名詞など)を削除しようとしています。私は正規表現を使用していますが、なんらかの理由で、フィルタにある一般的な単語のいくつかがフィルタにかけられていません。RegEx一般的な単語のフィルタ
言葉のいくつかの例がフィルタリングされていない: "haventは"、 "なぜ"、 "すべきである"
任意のアイデアはなぜですか?
splitResult = s.split()
p = re.compile(
"""^(&|also|a|about|again|all|after|are(nt)?|arent|as|an(y)?|at|
bcuz|before|be(low)?|between|bring|but|by|and|can(not)?|close(d)?|could(nt)?|
cuz|do(nt)?|down|decide(d)?|decision|on(to)?|or|of|our|over|out|have(nt)?|he(re)?|
her|his|other(s)?|even|got(ten)?|for|from|get(s)?|got(ten)?|has(nt)?|havent|he(s)?|
him|his|if|in|to|in(to)?|is(nt)?||make|me|once|play(ed)?|role|say(s)?|seen|she(s)?|
should(nt)?|stop(ped)?|time|my|no(t)?|must(nt)?|now|you(re)?|your|want|want(ed)?|
watch(ed)?|way|we(re)?|will|with||i|a|is(nt)?|just|would(nt)?|before|that|the(re)?|
their|them|they|this|turn|when|at|how|it(s)?|which|who|after|then|if|how|because|know(s)?|
yet|[A-Za-z]{1,2}|http(s)?://.*|www\..*)$""",re.I)
for word in splitResult:
m = p.findall(word)
if not m:
word = "".join(c for c in word if c not in ("?", ".", "!", '"', ",","'","(",")"))
wordsList.insert(ctr,word)
私が見る、これは自然言語処理のためのより適切な仕事だと思いますたとえば、http://stackoverflow.com/questions/9953619/technique-to-remove-common-wordsand-their-plural-versions-from-a-stringを参照してください。 – alecxe
これを[Regex101](https://regex101.com/r/wR0dJ2/1)に入れて、*説明*セクションにエラーが表示されます(強調表示されていませんが)。基本的にあなたは 'is(nt)?|| make'を持っています。これは'(nt)?|| make'で '' || i''と '' | i''でなければなりません。この問題は解決しませんが、あなたのRegExを更新することをお勧めします – Druzion
私は問題を見つけることができませんでした。私はちょうどよりクリーンな出力のためにキャプチャを非キャプチャにしました:see [1]デモ](http://ideone.com/mnC7nr)。共通のエンディングを持つキーワードをグループ化することで、このパターンをより効率的なものにすることができます。 –