正規表現と関連がある問題とPythonのCategorizedPlaintextCorpusReader
という問題があります。NLTKとPythonでカスタムカテゴリコーパスを作成する
私はカスタムの分類コーパスを作成し、Naive-Bayesクラシファイアをトレーニングしたいと考えています。私の問題は次のとおりです。「pos」と「neg」の2つのカテゴリが必要です。正のファイルはすべて1つのディレクトリのmain_dir/pos/*.txt
にあり、負のファイルは別のディレクトリmain_dir/neg/*.txt
にあります。
CategorizedPlaintextCorpusReader
を使用して、posディレクトリ内のすべてのポジティブファイルをロードしてラベル付けし、ネガティブポジションに対して同じ処理を行うにはどうすればよいですか?
NB:設定はMovie_reviews
コーパス(~nltk_data\corpora\movie_reviews
)とまったく同じです。
http://stackoverflow.com/questions/29275614/using-my-own-corpus-instead-of-movie-reviews-corpus-for-classification-in-nltk – alvas