information-retrieval

    5

    1答えて

    テキストから単語をセグメント化する必要があります。ハイフンなしの単語はハイフンなしで書かれ、アポストロフィーワードはアポストロフィなしで書かれることがあります。同じ単語(例:色、色)、または単語間にスペースを入れて書かれた別のスペルの問題(例:最大、最大、空白、空白)も同様の問題があります。これらのバリアントを1つの表現としてグループ化し、それをセット/ハッシュマップまたは他の場所に挿入する必要が

    3

    2答えて

    私は自分のサイトの検索オプションを作りたいと思っています。楽しみにして、少なくとも自分で作ろうと決心しました(失敗した場合は、常にGoogleカスタム検索があります)。 問題は、私はこのモンスターに近づく方法を知らない!ここでの要件は以下のとおりです。 ないすべてのキーワードが検索に必要となります 共通(「ビッグ幸せな世界」のための1つの検索では、それはまた、「ビッグ世界」「など幸せな世界」で検索

    1

    3答えて

    意味のない英語のコンポーネントを識別するのに役立つアルゴリズムやライブラリがあるのでしょうか?例:非常に深刻文法エラー?もしそうなら、あなたはそれがどのように機能するか説明することができますか?それは私が実際にそれを実装したり、自分のプロジェクトに使ったりしたいからです。 ここでは、ランダムな例です:文で :「私はハローなどのページので、ドアを閉めました。」 人間は、[so etc page he

    2

    2答えて

    私はPythonを使用して逆索引を作成しています。 私に提供できるパフォーマンスに関して疑問があります。 Pythonは、JavaまたはCとほとんど同じくらいインデックス付けが速いですか? また、私は、モジュール/実装が存在するかどうかを知りたいと思います(それらは何ですか、いくつかのリンクはどうですか?)?Java/Cで開発されたものと比べて、 私はサイコと一緒に使って、彼のPythonをCの2

    0

    1答えて

    私は、文書をランク付けするためのTF-IDFを計算するためにC#でプログラムを書いた。 次のXMLを使用して、ドキュメント内に単語の頻度を格納しました。私はこの構造を使用したことで大きく批判されました。私はタグ内の単語のテキストを使用していますが、私のように効率的で、より少ないスペースを消費します。また、XDocumentを使って簡単にツリー構造を検索することもできます。あなたはなぜ私がひどく批判

    2

    2答えて

    距離行列(ユークリッド)を使用する場合、データセット(ほとんどの次元で複数のゼロ値)でスパース性が検索効率または精度にどのように影響するかをお尋ねします。私はANNとFLANNでこのような疎なデータセットをテストしましたが、密なデータセットと比較して、最も近い近隣を検索するのは非常に長い時間でした。なぜこれはそうですか?

    0

    3答えて

    私はResumesを含む約2GBのサイズの巨大なXMLファイルを持っています。このファイルには何千もの履歴書があり、正しくタグ付けされています。今私はそれを照会するためにXPATHを使用しています。だから、XPATHの代わりにLuceneを使用することをお勧めしますか?

    4

    1答えて

    私は全文検索エンジンのアーキテクチャを設計しています。その1つは、応答時間の少ない大規模なデータセット間でのクエリの処理です。私が理解できる1つのことは、逆索引をパーティションに分割することです。これには、用語ベースのパーティションとドキュメントベースのパーティションという2つの戦略があります。しかし、大きなデータセットの中で倒立型検索を高速化する他の方法があるかどうかを本当に知りたいですか?

    11

    2答えて

    私はさまざまなSolrクエリのパフォーマンスを比較しようとしています。公正なテストを行うために、私はクエリ間でキャッシュをクリアしたい。 これはどのように行われますか?もちろん、サーバーを再起動することができますが、より早い方法があれば私は興味がありました。

    10

    1答えて

    PDFファイルから強調表示されたテキストと注釈をプログラムで抽出する方法はありますか?どの言語も歓迎します。私はPython、JavaおよびPHPでいくつかのライブラリを見つけましたが、どれもその仕事をしていません。 可能かどうかわかりません。私は、ある種のプログラムがこの種の情報を保持するために余分なファイルを作成していることも知っています(もしKindleが別のファイルを生成して間違っていない