2017-08-08 12 views
-5

抽出ベースの自動要約のアルゴリズムとは何ですか?グーグルでたくさんの、それに関連する何かを見つけることができませんでした。私はPython上でalgoを実装したい自動集計:抽出ベース

答えて

2

抽出ベースの要約のアルゴリズムは1つではありません。いくつかの異なるアルゴリズムを選択できます。あなたはあなたの特定のニーズに合ったものを選ぶべきです。

は、ベースの要約を抽出するには、2つのアプローチがあります。

  • 教師付き学習 - あなたはそれらのキーワードと一緒に文書の例のプログラム多くを与えます。プログラムは、キーワードを構成するものを学習します。今回は新しい文書を作成します。今度はキーワードなしで、トレーニング段階で学んだ内容に基づいてこの文書のキーワードを抽出します。膨大な数の教師なし学習があります。いくつか例を挙げると、ニューラルネットワーク、意思決定ツリー、ランダムフォレスト、およびサポートベクターマシンがあります。

  • 教師なし学習 - あなたはプログラムに文書を与え、過去の経験に頼ることなくキーワードのリストを作成します。抽出に基づく要約の一般的な教師なしアルゴリズムは、TextRankである。

0

最初に、論文や研究の発見方法についてもっと学ぶべきだと思います。あなたがGoogleによって何も見つけていないのなら、絶対に不可能です。いずれの場合も、抽出に基づくテキストsummarziationのいくつかは、次のとおりです。

  1. 簡単に単語の出現頻度に基づく方法に
  2. ベイズ法
  3. グラフベースの方法を実装するために例えばTextRank/LexRankは良いスタートです。要約
  4. ニューラルネットワークベースのシステム
  5. ため
  6. クラスタリング
  7. ファジィシステム私は、これらのメソッドをグーグルで提案し、あなたが得るものを見るの最適化アルゴリズム
    に基づく方法を見てきました。これらには多くのバリエーションがあり、私は実際にどの方法が最善であるかは分かりません。適切な前処理ツールも見つけてください。
    幸運。
関連する問題