information-retrieval

0熱

1答えて

ブール検索モデルのクエリでは、異なる演算子を使用して結合された語句で構成されています。一見すると、共起は最も明白な選択ですが、クエリの長さが伸びると悪いことが起こりました。結合を使用しているときに結合と精度を使用したときには、リコールが大幅に低下しました（たとえば、stanford OR university）。今のところ、私たちは検索システム（およびブール検索モデル）を使用しています。また

7熱

1答えて

部分的な単語の文書検索

部分的な用語を検索できる文書検索エンジン（Xapian、Whoosh、Lucene、Solr、Sphinxなど）を探しています。例えば検索エンジンは「ブリトニー」または「英国」または一般的に単語マッチングR *brit* 接線方向を含む任意の文書のいずれかを含む文書を返すべき用語「ブリット」を探して、私はほとんどのエンジンに気づきました部分的用語ではなく完全な用語に基づくTF-IDF（用語頻度

0熱

2答えて

フルテキストパーソナライズ検索製品

パーソナライズされたを検索するには、どのようなフルテキスト検索技術がありますか？たとえば、ウェブメールプロバイダの連絡先検索では、フルテキストですが、個人の連絡先のみを検索し、連絡先全体は検索しません。そこには無数のフルテキスト検索パッケージがありますが、ほとんどのフルテキスト検索パッケージをどのように使用してすべてのユーザーがドキュメントユニバースの小さなサブセットしか見ることができないのか

3熱

1答えて

内部に別のdivを持たないdiv要素を選択するにはどうすればよいですか？

私はJavaとJsoupを使ってHTMLページを解析していますが、その中に別のdivが含まれていないすべてのdivを取得して、そこに含まれるテキストを印刷したいとします。たとえば、divにテーブルが含まれていて、テーブルcostがdivの場合、私はそれを望んでいません。私はそれの中に他のdivはありません（別のタグは大丈夫です）、最下位レベルのdivだけが欲しいです。どうすればよいですか？ P

2熱

1答えて

データストアを照会するときのエラーメッセージ

私はJava、Eclipse、Google App Engine、Datastoreを初めて使用しています。仕事とプロフェッショナルな開発の両方のための新しいテクノロジーを自分で教えるために私の最初のアプリを書いています。私はキーに基づいて作成したデータストアからデータを正常に保存して取得するJavaアプリケーションを持っています。私は今、メタコードなどのための私のデータストア内の他の情報に基づ

9熱

2答えて

画像で検索できるAPIはありますか？

私にはイメージがあり、それが何であるかを調べるために検索したいと思います。どのAPIも利用できますか？

2熱

1答えて

確率分布を計算する

私は単純な（愚かかもしれない）質問があります。私は2つの文書でKullback-Leiblerの相違を計算したいと思います。それは各文書の確率分布を必要とする。私はどのように各文書の確率を計算するのか分かりません。素人の例を使って簡単に答えていただければ幸いです。 1 - cross validated answers are good 2 - simply validated answers

2熱

2答えて

LuceneのJaccard類似点

Luceneでnグラム以上のJaccard類似性を使ってクエリとドキュメントの類似性を計算する必要があります。 Jaccardの類似性はIRの非常に一般的な尺度であるため、私はLuceneの実装を見つけることを期待しましたが、できませんでした。このような実装を知っている人はいますか？

10熱

4答えて

PythonでWhooshを使ったファジーストリングの検索

私はMongoDBに大規模な銀行データベースを構築しました。私はこの情報を簡単に取り、whooshでインデックスを作成することができます。たとえば、私は銀行名の「Eagle Bank & Trust Co of Missouri」と「Eagle Bank and Trust Company of Missouri」を照合することができます。次のコードは、簡単なファジーなと動作しますが、上記の試合を

4熱

1答えて

検索エンジン指標についてどうすればよいですか？

私は弾性検索を使用しており、インデックスが何であるかを正確に理解していません。たとえば、私が3つのモデル（バックパック、靴、手袋）を持っている場合、各モデルを独自のインデックスに入れたり、各モデルの属性をインデックス化しますか？つまり、靴のレース、インデックス間で検索するのが遅いかどうかを理解しようとしています。たとえば、私のモデルの各属性にインデックスを付け、20のインデックスがあるとすると、