私は新聞のコーパスを生のテキストファイルとして持っており、私はその記事から推論を引き出すことができます。ほとんどの論説は、 "EDITORIAL"という言葉の3番目のインスタンスの後に始まり、すべての大文字で始まり、フッター "sfbg"で終わります。regex- CategorizedPlaintextCorpusReaderを使用して単語のn番目のインスタンスを検索する
私の考えは、これらの論説を抽出するためにpythonの正規表現を使用することです。私はCategorizedPlaintextCorpusReaderを使用しています。
自分でCategorizedPlaintextCorpusReaderのメソッドのリストを探してみましたが、空になってしまいました。
'(。*?EDITORIAL){3}(。*?)は、あなたがしてください手の込んだでし – sweaver2112
をsfbg'?私はまだ一般的にプログラミングするのがかなり新しいですし、私の構文が崩れているわけではありません。 –