私は、コアJavaのプロジェクトを開発する必要があります。このプロジェクトでは、ユーザーから約100行のテキストを取得します。ここで、テキスト全体をクラスタに分割して、それぞれのクラスタがキーワードに関連するとします。Javaのテキストクラスタリングプログラム
"Javaはオブジェクト指向言語です。モジュール化のためのクラスを使用しています。bla bla bla .. 。
C++は、オブジェクト指向言語である。ここではOOPSの概念についてかくかくしかじか...
何か...」
さて、私はプログラムへの入力として、このテキスト全体を与えれば、私は、プログラムがキーワードの名前を持つディレクトリを作成し、それ自身でキーワードを選択することも望みます。私はこのテキストのキーワードがJava、Modularisation、C++、OOPSであることを期待しています。このプログラムの後半では、私は異なるテキストを扱うことになるので、このプログラムは、どの単語がキーワードであり、どの単語がそうでないかを理解するのに十分な知能を持たせなければなりません。それで、どんなテキストでも動作できるようになります。
私はたくさんの場所を調べて、多くの人に尋ね、多くのチュートリアルで大部分が数値データをクラスタリングしていることを知りました。しかし、誰もテキストクラスタリングを取り扱っていることはめったにありません。私はアルゴリズムやこの作業を行う方法を探しています。機械学習の面積のアルゴリズムは数値データを必要とするので、あなただけのチュートリアルを見つけている理由
おかげ