私は関連するタグ情報を持つ数千もの文書を持っています。しかし、私もタグなしで多くの文書があります。文書に対する教師付きのタグの提案
私は、文書WITHタグで訓練し、訓練された分類器をUNTAGGED文書に適用したいと思います。分類器はUNTAGGED文書ごとに最も適切なタグを提示する。
私は非常に多くの研究を行いましたが、タグ分類を文書化するためのSUPERVISED実装はないようです。
私はNLTK、gensim、word2vecなどのライブラリがこの問題に役立つことを知っています。
私はPythonでプロジェクトをコーディングします。
ご協力いただければ幸いです。あなたは、より複雑な方法のためではなく、最低限の作業モデルを選ぶかもしれない実際のユースケースに応じて、
教師付き文書タグ付けは、通常「マルチクラスラベル付け」と呼ばれますが、特に珍しいことではありません。多くの方法で、単一ラベリングと同じですが、Nベストの結果を選択します。作成されたデータのscikitの例はこちらをご覧ください:http://scikit-learn.org/stable/auto_examples/plot_multilabel.html – polm23