2016-11-10 6 views
-1

同じフォルダ内にcats.txtというファイルとカテゴリが多数表示されています。私はこれのための分類タグ付き読者を作成したいと思う。 enter image description hereタグ付きコーパスリーダーの作成方法

これは私のファイルの見た目です。

nltkでさまざまな方法を試してみましたが、カテゴリ化されたタグ付きコーパスリーダーの作成に失敗しました。私のcats.txtの中にファイル名とカテゴリ名をスペースで区切って、各ファイル名に複数のカテゴリがあります。例えば


mail_1_adapterアダプタ警告
mail_1_alert
messagebody_24862499他人
等...

あなたは私に私が私のコーパスを作成しての私たちを作ることができ、より良い方法を示してくださいすることができそれ。

答えて

2

ファイル形式は問題ありません。どのように正確にあなたのリーダーを作成しようとしました、それは動作しませんでしたか?あなたはコードを表示しないので、間違っていることは分かりません。あなたは、ファイルcats.txtからカテゴリを読み込むべきであることをあなたの読者に伝える必要があります。このように:

from nltk.corpus.reader import CategorizedTaggedCorpusReader 
reader = CategorizedTaggedCorpusReader(<path>, r"^[^.]*$", cat_file="cats.txt") 

あなたのカテゴリはcats.txtファイルコーパスの一部ではないので、私はドットを含まないすべてのものをマッチする正規表現^[^.]*$を使用。これでファイルが正しく記述されない場合は、必要に応じてすべてのコーパスファイルを含めるように定義を変更しますが、cats.txtは除外してください。

+0

corpus_root = 'C:/ユーザ/ nkumarn/PycharmProjects/taggedcorpus /' ___________________________________ リーダ= CategorizedTaggedCorpusReader(corpus_root、R、cat_file = R '* \ファイル。' '* \ TXT。') この私がやったことです。それは動作しませんでした –

+1

まあ、それはうまくいきませんでした。 'cat_file'は正規表現ではなく、ファイル名(パス付き)でなければなりません。そしてあなたは本当に 'r '。* \。File''をファイルパターンとして書いていましたか?次回は、あなたの質問にあなたのコードとエラーを含めてください。そのような怠惰な質問を書くのをやめてください。これは私があなたに改善を勧めた最初の質問ではありません。 – alexis

+0

ええ、私はそれをありがとう....私は間違いなく私の質問の基準を向上させます。アドバイスをありがとう。 –

関連する問題