information-retrieval

-1熱

1答えて

Zipfの法則を使用してステムテキストのリストの辞書サイズを計算するにはどうしますか？

0熱

1答えて

こんにちは皆、と日食に私はテリアのクイックスタートチュートリアルコーパスを経て、その後、私は以下のコードを実行します。 import java.util.Arrays; import org.terrier.indexing.Collection; import org.terrier.indexing.SimpleFileCollection; import org.terrier.st

2熱

1答えて

深いNLPパイプラインwith Whoosh

NLPとIRプログラムの新機能です。深いNLPパイプラインを実装しようとしています。つまり、Lemmatizing、Dependency Parsing機能を文章の索引付けに追加しようとしています。以下は私のスキーマと検索者です。 my_analyzer = RegexTokenizer()| StopFilter()| LowercaseFilter() | StemFilter() | Lem

0熱

1答えて

Zipfの法則を使用して辞書サイズを見積もる

Zipfs法を使用してコレクションの辞書サイズ（一意の単語の数）を計算するにはどうすればよいですか？

0熱

1答えて

WikiPediaの単語頻度記事

記事全体を保存せずに処理すると、ウィキペディア記事の特定の単語の頻度をどのように得ることができますか？たとえば、この記事では「インド」という言葉がどのように表示されるのでしょうか。https://simple.wikipedia.org/wiki/India

0熱

1答えて

数値またはカテゴリ分割？

私はデシジョンツリー分類器を構築していますが、この方法で情報量を計算しました。これは愚かな質問かもしれませんが、私はこのメソッドの分割が数値かカテゴリ属性の場合は不思議ですか？スレッシュホールド（中央値）が数字のスプリットに使用されていると思ったので混乱しますが、このメソッドは文字列値を使用します。何か助けていただければ幸いです。ここではコードです： public static doub

-3熱

1答えて

solrの検索精度をテストする方法

こんにちは私はSolr情報の再学習システムで新しく、Solrにテキストファイルを追加して、他の言語のSolrの精度を見るためにファイルから単語を検索したい方法がわからない私は検索のためのUIがあることがわかりますが、それを使用する方法もデータのインポートハンドラがありますが、それはXML、CSVまたはJSONでなければならないと私はテキストファイルが欲しいだけでなく、単語や文を検索する方法を知っ

0熱

1答えて

トップkクエリーがk制約を満たすのに十分な文書を見つけられないとどうなりますか？

私はNDCGを使用してトップkの範囲のクエリを評価しています。空間領域とクエリキーワードを指定すると、トップkの範囲クエリは、クエリキーワードに関連するテキストである、指定された領域のk個のドキュメントを返す必要があります。私のシナリオでは、範囲クエリは通常、返すドキュメントを1つしか見つけません。しかし、私は、同じキーワードで、指定された領域にもっと多くのオブジェクトを見つけることができる別の

1熱

1答えて

構造化されていないテキストから正確な情報を抽出する方法

構造化されていないテキストから情報を抽出したい。例えば、私のテキストは、「39の下のコントロールアメリカニューヨーク温度」である私が欲しい情報が（「コントロール」、「アメリカニューヨーク」は、「温度」、「下」、「39」）です。アクション情報を表す「control」と、アクション対象を表す「NewYork」と、指標となる「temperature」と、範囲を表す「39未満」とが含まれる。ただし