2016-07-20 12 views
0

私は、製品の説明に基づいてキーワード/キーフレーズの提案をするように求めているプロジェクトに取り組んでいます。キーワードの提案アルゴリズム

私が現在持っているもの:製品の説明、製品のカテゴリ(5月またはそれ以外の場合があります)。

私が欲しいもの:マシン生成キーワード/説明に基づいたキーフレーズ。

私が行った研究:(NLPベースのアプローチ)この問題は、2つの別々のアプローチに分解することができます。語幹トークン化、除去など(前処理)をストップワード

  • 浅いNLP(部会解析)とのみNP & JJフレーズを保持 - :ちょうど現在の記述にまとめた
  • 方法:過去のデータを使用していない

    これは、データベースに存在する説明を使用しない方法です。

    私が探していたのは、MLアルゴリズムを使用し、過去の商品説明データを使用するより優れたアプローチです。

    私はデータセット全体に浅い解析を適用し、N個以上の製品で遭遇するキーワードを与えようと考えていました。

    便利なアルゴリズムやアプローチはありますか? データはどのように使用できますか?これはあなたにいくつかの重要な単語与え、用語頻度やTF-IDF:

  • +0

    学習に使用できるキーワードがすでに設定された大量の製品がありますか? –

    +0

    はい、商品説明の「一部」に関連するキーワードがあります。 –

    答えて

    0

    することなどの基本的なモデルを見てみてくださいそして、(互いに関連しているグループにクラスタのテキストの場合)テキストクラスタリングを検索https://en.wikipedia.org/wiki/Tf%E2%80%93idf、 をし、 トピックの検出は、その後、あなたが(また、あなたが文書のカテゴリを検討することができます)各クラスタのキーワードを見つけると、最も関連性の高い言葉を見つけることを試みること

    (これはドキュメントに関連した著名な単語やトピックを見つけることができます)に近づきます別の言葉

    私はいくつかの/またはwを読むことをお勧めしますこの本の穴の章:http://nlp.stanford.edu/IR-book/https://en.wikipedia.org/wiki/Tf%E2%80%93idf

    +0

    文書(説明)の類似性(基本的にTF-IDFに基づいています)を行うことはできますか?同様の文書のリストの中で、ほとんどの文書に見られるキーワードを提案しますか? –

    関連する問題