information-retrieval

0熱

1答えて

2つの単語間の意味的関連性を計算するツールが必要です。このプロセスを採用するツールまたはコードソースについて考えてください。私は単語の類似性（http://maraca.d.umn.edu/cgi-bin/similarity/similarity.cgi）を試していますが、いくつかの欠けている言葉があります、私は概念の言葉でより豊かなものが必要です。

0熱

1答えて

JavaScriptの/ jQueryで使用するための一時的なデータを格納する最良の方法は

私は今何年もコーディングしてきたし、javascriptやjQuery（私はjQueryが好き）の新しいものではない。それを使ってコーディングするのが良い。しかし、私が最近考えているのは、私が頭を少し傷つけているということです。これが私がこれを知っている最も効率的な方法だと私は思っています。それ以来このメソッドを実行しています。しかし、私はいつもより良い方法があると思っていました。だから、最後に、

0熱

1答えて

テキストの単語が頻繁に繰り返されていないときに、テキスト分類のための特徴ベクトルを準備する方法は？

電子メールのセットでテキスト分類を実行する必要があります。しかし、私のテキストのすべての単語は薄く疎である、すなわちすべての文書に関して各単語の頻度は非常に少ない。言葉はあまり頻繁に繰り返されていません。分類器を訓練するために、私は文書用語行列を頻度として重みが適切でないと思う。私が使用する必要がある他のどのような方法を提案してください。おかげ

5熱

1答えて

テキストからWikiDataエンティティを効率的に抽出します。

私は100から4000語の範囲のテキストをたくさん持っています。テキストは、句読点や文法で書かれた作品としてフォーマットされています。すべてが英語です。問題は簡単です：どのように特定のテキストからすべてのWikiDataエンティティを抽出するのですか？エンティティは、すべての名詞として定義されます。すなわち、これまでのところ、私は次のことを試してみた人、組織、場所や椅子のようなものの名前、ジャ

2熱

2答えて

Apache LuceneはStopAnalyzerとStopFilterを使用してもストップワードをフィルタリングしません

キーワードを取得するApache Lucene 5.5/6.0に基づくモジュールがあります。 1つのこと以外はすべて正常に動作しています - Luceneはストップワードをフィルタリングしません。私は2つの異なるアプローチでストップワードフィルタリングを有効にしようとしました。アプローチ＃1： tokenStream = new StopFilter(new ASCIIFoldingFilte

0熱

3答えて

apache nutchを使って外部リンクをクロールするのを防ぐ方法は？

Nutchの特定のドメインのみをクロールしたい。それはこのFAQ link 問題に言われたように、このために私は真にdb.ignore.external.linksを設定し、シード・リストのリンクのみをクロールするNutchのスタートです。たとえば、 "nutch.apache.org"をseed.txtに入れると、同じURL（nutch.apache.org）のみが検索されます。結果は、深さ2

0熱

1答えて

データ構造は、カウントベースの分布モデルを構築するときの長さ5までの長さになります。

テキストから分布モデル（カウントベース）を構築しています。基本的には、各ngram（単語のシーケンス）ごとに、私はカウントを格納しなければなりません。私はカウントに合理的に素早くアクセスする必要があります。 n = 5の場合、技術的に可能なすべての5グラムは（10^4）^ 5ですが、これはあまりにも高い10k語の控えめな見積もりを想定しています。しかし、これらのn-gramの多くの組み合わせはテキ

6熱

1答えて

Solr/luceneインデックスへの暗号化の追加

現在、Solrを使用して、一部の機密レコードで検索サービスを実行しています。のSolr/Luceneのは、権限のない人がシステムのセキュリティをバイパスすることにより、それらへのアクセスを持つことができないように、これらのインデックスファイルを暗号化する必要があるディスク上にプレーンテキストで機密情報の転置インデックスを格納することにより、高速検索を提供していたよう。 Apache JIRA A

1熱

1答えて

Luceneの類似点を使用して同じ結果を得る

私たちはJavaでLuceneを使用して文書を検索し、関連性があるかどうかを調べています。言葉 BM25ポーターのステマーと VSM類似性とポーターのステマーなしストップワード標準ステマとVSMの類似性と言葉 VSM類似性を停止し、停止します。私たちは、6種類の方法で検索していますポーターステマとの類似性と停止の言葉ポーターのステマーとBM25の類似性と標準ステマーとなし、ストップワード BM

2熱

1答えて

ガラゴの検索エンジンでLDAを使用

私は文書検索のためにGalagoを使い始めました。 LDAを使用していくつかのドキュメント（最初に検索されたドキュメント）をクラスタ化したい私はGalagoを使用して自分のコードに統合できるJavaベースの実装を使用することを好みます。 LDAのオープンソース実装が自分の目的に適しているかどうかを教えていただければ幸いです。ありがとうございました！