私は、特定の記事から関連するタグを抽出するためのJavaベースのツールを探しています。 私は基本的には、特定の記事が関連する主要な主題と用語が何であるかを特定するツールを必要とします。 ありがとうございます。記事から関連するキーワード/タグを抽出するためのJavaツール
2
A
答えて
1
HtmlUnitを使用すると、記事のHTMLを解析し、検索したいドキュメントの部分をクエリできます。次に、独自のデザインの単純なアルゴリズムを適用して、タグ/キーワードを決定することができます。
たとえば、split()
のように空白のテキストを入力し、各単語が何回出現するかをカウントします。 "and"、 "the"、 "if"などのようなものを無視して最も多く出現する単語がキーワードの候補になります。
3
チェック次のキーワード/トピック抽出ソフトウェア/ツール:
- Kea - キーワード抽出
- Tmt - スタンフォードトピック検出ツールキット(Excelとの統合、Scalaで書かれたスクリプトが)、それはサポートしています半自動トピック検出モード(ユーザーのフィードバック付き)
- maui
あなたがあなた自身のトピック検出システムを開発したい場合、あなたが作業LDAサンプルへLDA implementation in mallet(リンクで見てみる必要があり、マレットホームページの一つは、最新malletバージョンでは動作しません。 )。
関連する問題
- 1. Xpathでウェブページから記事のテキストを抽出する
- 2. disqusを使用して記事からコメントを抽出する
- 3. 関連するCSSを抽出するためのJavaScriptライブラリ
- 4. 記事から段落を抽出する|正規表現
- 5. ビットマップフォントイメージからグリフデータを抽出するツール
- 6. 記事URLからテキストを引き出すためのWeb API?
- 7. ログファイルからJavaスタックトレースを抽出するツール
- 8. コメントリストから関連するコメントのみを抽出する
- 9. FBインスタントアーティクル関連記事セクション
- 10. オーチャードCMS - 関連記事ウィジェット
- 11. 異なるレイアウトのウェブサイトから記事コンテンツを抽出する方法
- 12. 各記事を関連情報に関連付ける
- 13. ガチョウでヒンディー語のWebページから記事を抽出するには?
- 14. メインコンテンツ(最高のテキスト密度)を抽出するニュース記事からWebページ
- 15. 文から日付関連の文字列を抽出する
- 16. 基本クラスを抽出するためのツール?
- 17. Shopifyの関連記事を表示
- 18. キーワードに関連する記事を取得する
- 19. ニュース記事からh2およびh3タイトルを抽出する方法
- 20. Wikipedia記事の紹介部分をPythonで抽出する
- 21. .obj 3dファイルから関連情報を抽出する
- 22. 求人広告から関連キーワードを抽出する
- 23. イベントテーブルから関連レコードを抽出する自己結合?
- 24. 画像からカメラ関連情報を抽出する方法
- 25. 領収書から関連情報を抽出する方法
- 26. 与えられた式から記号を抽出する
- 27. wpの関連記事のショートコード
- 28. 同じ子カテゴリーからの関連記事 - ワードプレス
- 29. オーチャードCMSの関連ブログ記事は?
- 30. WordPress(taxonomy)の関連記事カテゴリ
ありがとうございますが、私はトークン化の部分に興味があります。私はステミングとそれがどのように機能するのかを知っています。しかし、私はすでに一般的なケースでそれを行うアルゴリズムを探しています。 – tomermes