自動集計：抽出ベース

-5

抽出ベースの自動要約のアルゴリズムとは何ですか？グーグルでたくさんの、それに関連する何かを見つけることができませんでした。私はPython上でalgoを実装したい自動集計：抽出ベース

抽出ベースの要約のアルゴリズムは1つではありません。いくつかの異なるアルゴリズムを選択できます。あなたはあなたの特定のニーズに合ったものを選ぶべきです。

は、ベースの要約を抽出するには、2つのアプローチがあります。

教師付き学習 - あなたはそれらのキーワードと一緒に文書の例のプログラム多くを与えます。プログラムは、キーワードを構成するものを学習します。今回は新しい文書を作成します。今度はキーワードなしで、トレーニング段階で学んだ内容に基づいてこの文書のキーワードを抽出します。膨大な数の教師なし学習があります。いくつか例を挙げると、ニューラルネットワーク、意思決定ツリー、ランダムフォレスト、およびサポートベクターマシンがあります。
教師なし学習 - あなたはプログラムに文書を与え、過去の経験に頼ることなくキーワードのリストを作成します。抽出に基づく要約の一般的な教師なしアルゴリズムは、TextRankである。

2017-08-08 15:31:56

最初に、論文や研究の発見方法についてもっと学ぶべきだと思います。あなたがGoogleによって何も見つけていないのなら、絶対に不可能です。いずれの場合も、抽出に基づくテキストsummarziationのいくつかは、次のとおりです。

簡単に単語の出現頻度に基づく方法に
ベイズ法
グラフベースの方法を実装するために例えばTextRank/LexRankは良いスタートです。要約
ニューラルネットワークベースのシステム
ため
クラスタリング
ファジィシステム私は、これらのメソッドをグーグルで提案し、あなたが得るものを見るの最適化アルゴリズム
に基づく方法を見てきました。これらには多くのバリエーションがあり、私は実際にどの方法が最善であるかは分かりません。適切な前処理ツールも見つけてください。
幸運。

2017-10-03 16:04:27 Guardian

答えて