information-retrieval

    0

    1答えて

    2つの単語間の意味的関連性を計算するツールが必要です。このプロセスを採用するツールまたはコードソースについて考えてください。私は単語の類似性(http://maraca.d.umn.edu/cgi-bin/similarity/similarity.cgi)を試していますが、いくつかの欠けている言葉があります、私は概念の言葉でより豊かなものが必要です。

    0

    1答えて

    私は今何年もコーディングしてきたし、javascriptやjQuery(私はjQueryが好き)の新しいものではない。それを使ってコーディングするのが良い。しかし、私が最近考えているのは、私が頭を少し傷つけているということです。これが私がこれを知っている最も効率的な方法だと私は思っています。それ以来このメソッドを実行しています。しかし、私はいつもより良い方法があると思っていました。だから、最後に、

    0

    1答えて

    電子メールのセットでテキスト分類を実行する必要があります。しかし、私のテキストのすべての単語は薄く疎である、すなわちすべての文書に関して各単語の頻度は非常に少ない。言葉はあまり頻繁に繰り返されていません。分類器を訓練するために、私は文書用語行列を頻度として重みが適切でないと思う。私が使用する必要がある他のどのような方法を提案してください。 おかげ

    5

    1答えて

    私は100から4000語の範囲のテキストをたくさん持っています。テキストは、句読点や文法で書かれた作品としてフォーマットされています。すべてが英語です。 問題は簡単です:どのように特定のテキストからすべてのWikiDataエンティティを抽出するのですか? エンティティは、すべての名詞として定義されます。すなわち、これまでのところ、私は次のことを試してみた人、組織、場所や椅子のようなものの名前、ジャ

    2

    2答えて

    キーワードを取得するApache Lucene 5.5/6.0に基づくモジュールがあります。 1つのこと以外はすべて正常に動作しています - Luceneはストップワードをフィルタリングしません。 私は2つの異なるアプローチでストップワードフィルタリングを有効にしようとしました。 アプローチ#1: tokenStream = new StopFilter(new ASCIIFoldingFilte

    0

    3答えて

    Nutchの特定のドメインのみをクロールしたい。それはこのFAQ link 問題に言われたように、このために私は真にdb.ignore.external.linksを設定し、シード・リストのリンクのみをクロールするNutchのスタートです。たとえば、 "nutch.apache.org"をseed.txtに入れると、同じURL(nutch.apache.org)のみが検索されます。 結果は、深さ2

    0

    1答えて

    テキストから分布モデル(カウントベース)を構築しています。基本的には、各ngram(単語のシーケンス)ごとに、私はカウントを格納しなければなりません。私はカウントに合理的に素早くアクセスする必要があります。 n = 5の場合、技術的に可能なすべての5グラムは(10^4)^ 5ですが、これはあまりにも高い10k語の控えめな見積もりを想定しています。しかし、これらのn-gramの多くの組み合わせはテキ

    6

    1答えて

    現在、Solrを使用して、一部の機密レコードで検索サービスを実行しています。 のSolr/Luceneのは、権限のない人がシステムのセキュリティをバイパスすることにより、それらへのアクセスを持つことができないように、これらのインデックスファイルを暗号化する必要があるディスク上にプレーンテキストで機密情報の転置インデックスを格納することにより、高速検索を提供していたよう。 Apache JIRA A

    1

    1答えて

    私たちはJavaでLuceneを使用して文書を検索し、関連性があるかどうかを調べています。言葉 BM25ポーターのステマーと VSM類似性とポーターのステマーなしストップワード 標準ステマとVSMの類似性と言葉 VSM類似性を停止し、停止します。私たちは、6種類の方法で検索していますポーターステマとの類似性と停止の言葉 ポーターのステマーとBM25の類似性と標準ステマーとなし、ストップワード BM

    2

    1答えて

    私は文書検索のためにGalagoを使い始めました。 LDAを使用していくつかのドキュメント(最初に検索されたドキュメント)をクラスタ化したい私はGalagoを使用して自分のコードに統合できるJavaベースの実装を使用することを好みます。 LDAのオープンソース実装が自分の目的に適しているかどうかを教えていただければ幸いです。 ありがとうございました!