lsa

0熱

1答えて

私は、用語に基づいて私の文書のtf-idfを計算しました。次に、用語の次元数を減らすためにLSAを適用しました。 'similarity_dist'には負の値が含まれます（下の表を参照）。余弦距離を0-1の範囲で計算するにはどうすればよいですか？ cosine_distanceの範囲であろう故に cosine_distance = 1 - cosine_similarity ：として tf_v

-3熱

2答えて

ループで正しく続行しない

私はPython 2.7を持っています。これは私のコードです。実行すると、このエラーが発生します： 'continue'が正しくループしていません。「continue」はループ内にあるはずですが、私はifの中で使っています。 from numpy import zeros from scipy.linalg import svd from math import log from nump

0熱

1答えて

elasticsearchインデックス用のLSAの実装

私は、elasticsearchで索引付けされたドキュメントのLatent Semantic Analysisを実装するために、ここ数日間過ごしました。最初のステップは、用語 - 文書行列を構築することです。私は入力としてインデックスを取るスタンフォードnlpライブラリを使用すると思う意味lowercasing、ストップワードを削除し、多分stemmingと行列を生成するか、それはちょうどela

0熱

1答えて

LSAから類似性を得るには

私は潜在意味解析に取り組んでいます.2つのドキュメントから類似性を得ようとしています。私は、Pythonの潜在意味解析の私のコードを実行し、私はそれを実行したときに私が取得： Here are the singular values [ 0.7376057 0.4596623 0.25422212] Here are the first 3 columns of the U matrix [

0熱

1答えて

Scala [Seq [string]を[String]に変換しますか？（lemmatizationの後のTF-IDF）

私はscalaとspecificaly text minning（lemmatization、TF-IDF行列とLSA）を学ぼうとします。私はいくつかのテキストをlemmatizeして分類（LSA）したいと思っています。私はclouderaに火花を使用します。だから私はstanfordCore NLPのfonction使用：その後 def plainTextToLemmas(text: Str

-4熱

1答えて

ユーザー入力と一致するリストの要素のみを取り出す方法は？

私はユーザーからの入力を受けなければならず、そのグループの単語だけが入力文字列が出現した場所に戻ってくるはずです。たとえば、人を検索すると、人が出現する単語のグループだけを出力として取得する必要があります。ここは私のサンプル出力です：ここで [(0, '0.897*"allah" + 0.120*"indeed" + 0.117*"lord" + 0.110*"said" + 0.101*"pe

0熱

1答えて

文書の類似性に対する異なるアプローチ（LDA、LSA、余弦）

私は短い文書（それぞれ1または2段落）を用意しました。私は文書の類似性のために3つの異なるアプローチを使用しました： - tfidfマトリックスのシンプルコサイン類似性 - LDAモデルを全コーパスに適用し、LDAモデルを使用して各文書のベクトルを作成した後、コサイン類似性を適用しました。 - コーパス全体にLSAを適用し、LSAモデルを使用して各文書のベクトルを作成した後、コサイン類似度を適用し

1熱

1答えて

R LSA LSAFUNエンコンディングの問題

LSAfunのgenericSummary関数を使用します。ここにドイツのサンプルテキストがあります。 library("LSAfun") text = " Gegen die Firma wurde während der letzten Woche ein Zwangsvollstreckungsverfahren eingeleitet. Darüber witzeln die Konku

0熱

1答えて

単語を潜在意味解析（LSA）ベクトルに変換する

Pythonとscikit-learnを使用して文書から単語をLSAベクトルに変換する方法の提案はありますか？私はこれらのサイトとhereを見つけました。文書全体をlsaベクトルに変換する方法を解読しましたが、個々の単語自体を変換することに興味があります。最後の結果は、すべての文章からすべてのベクトル（各単語を表す）を合計し、続いて連続する文を比較して意味的類似性を評価することです。

0熱

1答えて

TruncatedSVDドキュメント

私はKaggle 競争のためにLSAを実行するために sklearn.decomposition.TruncatedSVDを使用する予定をScikit-学び、それゆえ私は方法がわからないんだけど、私はSVDとLSAの背後にある数学を知っているが、私は scikit学習者のユーザーガイドで混乱しています実際に適用するには TruncatedSVDこの操作の後、 U_k * transpose(S