Javaでテキスト解析を行うAPIがあるかどうかを知りたい。テキスト内のすべての単語、別々の単語、式などを抽出できるもの何かが数字、日付、年、名前、通貨などであるかどうかを知らせるものJavaでのテキスト分析/マイニング用のAPIはありますか?
テキスト解析を開始しています今すぐ、私はキックオフのためのAPIが必要です。私はウェブクローラーを作ったので、ダウンロードしたデータを分析するための何かが必要になりました。ページ内の単語数、類似した単語、データ型、テキストに関連する他のリソースを数える方法が必要です。
Javaでのテキスト解析用のAPIはありますか?
EDIT:テキストマイニング、テキストをマイニングしたい。これを提供するJavaのAPI。
このスレッドにいくつかの素晴らしい答えがありました。http://stackoverflow.com/questions/3778388/java-text-analysis-libraries – crowne
ダウンロードしたページから映画情報を抽出したいと思います。タイトル、俳優、年、ディレクターなどのようなもの –
@Renato DinhaniConceiçãoダウンロードしたページはすべて共通のhtml構造ですか? (テンプレート化されたWebページ?) – stemm