information-retrieval

0熱

1答えて

私はサイトのトピックを見つけて、delicious.comで終わることを求めているが、それはそれほど有益ではない。それを見つけるための他の方法はない？私はメタタグや説明については言及していませんが、サイトのカテゴリーは...どんなアイデア？

1熱

2答えて

データ入力のプロセスを自動化する方法

連絡先情報を収集して自分のサイトに入力するために100の奇妙なWebサイトを訪問する必要がある状況があります。私が知りたいのは、プログラムやクローラを書くことができれば、それを正しく置くならば、この情報をすべて得ることができるかどうかです。私は、情報が非構造化HTMLで利用可能になると推測しています。そして、構造化するために解析する必要があります。誰もこれを行うのに似た経験をしていますか？また、使

0熱

1答えて

Wikipedia削除ログのダウンロード

私のプロジェクトにはウィキペディアの削除ログが必要です。私は一度に5000個のエントリをダウンロードすることができ、ここで http://en.wikipedia.org/w/index.php?title=Special:Log&type=delete&user=&page=&year=&month=-1&tagfilter=&hide_review_log=1 削除ログを見つけることができ

6熱

2答えて

Luceneで新鮮な文書を追加する

Luceneは新鮮な文書を強調する手段を提供していますか？たとえば、Luceneドキュメントに日付フィールドが含まれているとします。ユーザーがクエリを変更しなくても、最新のドキュメントをより高いスコアで提示することは可能ですか？スコアリングアルゴリズムを完全にキャンセルするので、粗い「日付による並べ替え」ソリューションに頼らないでください。

3熱

1答えて

IDFを使用しない場合はどこですか？

Inverse Document Frequencyが情報検索に役立たない場合はどうなりますか？

1熱

4答えて

テキストから適切な名前を抽出するためのソフトウェアとテクニックは何ですか？

私は適切な名前（人の名前など）を抽出するためのテキストベースの文書（100,000+）のコーパスがあります。この目標を達成するのに役立つテクニックやソフトウェアをお勧めしますか？私は、低レベルのテキスト解析には特に興味がありません。認識やランキングのようなより高度なものと同じくらいです。

2熱

3答えて

質問Luceneとの回答

おもちゃのプロジェクトでは、私はLuceneと自動質問応答システムを実装したいと思います。私はそれを実装するための妥当な方法を見つけようとしています。基本的な操作は次のとおりです。 1）ユーザーが質問を入力します。 2）システムは質問内のキーワードを識別します。 3）キーワードが大規模なナレッジベースで検索され、一致する文が回答として表示されます。私の知識ベース（すなわち、コーパス）は構造化され

1熱

2答えて

IDFはいくつかの文書でどう違うのですか？

私は情報検索システムを作るのにLETORを使っています。彼らはTFとIDFを使用します。 TFはクエリに依存すると確信しています。 IDFは文書に依存しないため、クエリのすべての文書にはの同じIDF値があることに注意してください。しかし、IDFは機能リストの一部なので意味がありません。各文書のIDFはどのように計算されますか？

0熱

2答えて

PHP：配列取得（CSV）とインテリジェントな返信

皆さん。私は初めてのポスターですが、私はこのサイトを何度も閲覧しました。私はコーディング上の問題を抱えています。私は解決方法を正確には分かりません。最初に私は何をする必要があるのか、どのような情報があるのかを説明し、誰かが私に正しい方向に微笑を抱かせることを願っています。私が持っているものは、ゾーン名、郵便番号、都市名という情報を持つスプレッドシート（CSV）です。 1つのゾーンには

1熱

1答えて

matlabの2つの画像間の類似度を計算するための閾値の選択

各画像データベース特徴と照会画像特徴との間の距離（D）を計算し、表示する（n類似画像をユーザに）。私は、次のアプローチを使用しよう：私は2つの閾値(T1, T2)を選択してください。最初の例では、（）より大きい（L1）の変数内のすべての距離（D2）を保持し、別の変数、たとえば（L2）より小さいすべての距離をより小さく保ちます。。次に、私は類似度を次のように計算します。 S(i) = L2 *