2017-06-26 5 views
0

私は関連するタグ情報を持つ数千もの文書を持っています。しかし、私もタグなしで多くの文書があります。文書に対する教師付きのタグの提案

私は、文書WITHタグで訓練し、訓練された分類器をUNTAGGED文書に適用したいと思います。分類器はUNTAGGED文書ごとに最も適切なタグを提示する。

私は非常に多くの研究を行いましたが、タグ分類を文書化するためのSUPERVISED実装はないようです。

私はNLTK、gensim、word2vecなどのライブラリがこの問題に役立つことを知っています。

私はPythonでプロジェクトをコーディングします。

ご協力いただければ幸いです。あなたは、より複雑な方法のためではなく、最低限の作業モデルを選ぶかもしれない実際のユースケースに応じて、

+1

教師付き文書タグ付けは、通常「マルチクラスラベル付け」と呼ばれますが、特に珍しいことではありません。多くの方法で、単一ラベリングと同じですが、Nベストの結果を選択します。作成されたデータのscikitの例はこちらをご覧ください:http://scikit-learn.org/stable/auto_examples/plot_multilabel.html – polm23

答えて

1

ん:

1)文書のPrepocessing:トークン化、語彙を構築(NLTKは、このためのツールを持っている)

2)文書ごとにbag-of-wordsエンコードを実行します。

3)出力用のワンショットエンコーディングで機械学習モデルを学習します。 sklearnランダムフォレスト、ロジスティック回帰、SVMから始めましょう。

+0

ありがとう、私は最小の作業モデルを持っています。 SVM学習モデルを用いた文書テキストの弓表現。さらにそれを取る上の任意のアドバイス?より多くの前処理(ステミングなど)。私は、WMDを使用してタグ付きドキュメントをクラスタ化した後、このモデルをタグなしドキュメントに適用して、最も類似した種類のタグドキュメントを見つけ出し、タグを付けようと考えていました。 – pwhc

+0

ここから実際のユースケースに依存し始めます。しかし基本的に私の答えは3つの部分に分かれています。 1)前処理2)符号化3)トレーニングモデル。実際の使用状況とデータに応じて、優先順位が異なります。例えば。 100ミリリットルのドキュメントを持っているが、テスト時にモデルをより良くするためにニューラルネットワークの計算作業を心配する必要はありません。データがほとんどない場合は、より良い前処理/エンコーディングを探したいかもしれません。 –

0

私は現在、何か似たようなことに取り組んでいます。@ Joonatan Samuelが慎重な前処理と検討をお勧めしていること以外にも を提案しています。

  1. 文書に複数のタグが必要な場合は、複数のモデル(タグごとに1つのモデル)を訓練することができます。各モデル(タグ)に十分なケースがあるかどうか検討する必要があります
  2. タグがたくさんある場合は、上記のようなドキュメントタグの問題が発生する可能性があります。
  3. 最も一般的なタグ予測に固執すると、すべてのタグを予測しようとしません。
関連する問題