lsa

    0

    1答えて

    私は、用語に基づいて私の文書のtf-idfを計算しました。次に、用語の次元数を減らすためにLSAを適用しました。 'similarity_dist'には負の値が含まれます(下の表を参照)。余弦距離を0-1の範囲で計算するにはどうすればよいですか? cosine_distanceの範囲であろう故に cosine_distance = 1 - cosine_similarity :として tf_v

    -3

    2答えて

    私はPython 2.7を持っています。これは私のコードです。実行すると、このエラーが発生します: 'continue'が正しくループしていません。 「continue」はループ内にあるはずですが、私はifの中で使っています。 from numpy import zeros from scipy.linalg import svd from math import log from nump

    0

    1答えて

    私は、elasticsearchで索引付けされたドキュメントのLatent Semantic Analysisを実装するために、ここ数日間過ごしました。 最初のステップは、用語 - 文書行列を構築することです。私は入力としてインデックスを取るスタンフォードnlpライブラリを使用すると思う意味lowercasing、ストップワードを削除し、多分stemmingと行列を生成するか、それはちょうどela

    0

    1答えて

    私は潜在意味解析に取り組んでいます.2つのドキュメントから類似性を得ようとしています。私は、Pythonの潜在意味解析の私のコードを実行し、私はそれを実行したときに私が取得: Here are the singular values [ 0.7376057 0.4596623 0.25422212] Here are the first 3 columns of the U matrix [

    0

    1答えて

    私はscalaとspecificaly text minning(lemmatization、TF-IDF行列とLSA)を学ぼうとします。 私はいくつかのテキストをlemmatizeして分類(LSA)したいと思っています。私はclouderaに火花を使用します。 だから私はstanfordCore NLPのfonction使用:その後 def plainTextToLemmas(text: Str

    -4

    1答えて

    私はユーザーからの入力を受けなければならず、そのグループの単語だけが入力文字列が出現した場所に戻ってくるはずです。たとえば、人を検索すると、人が出現する単語のグループだけを出力として取得する必要があります。ここ は私のサンプル出力です:ここで [(0, '0.897*"allah" + 0.120*"indeed" + 0.117*"lord" + 0.110*"said" + 0.101*"pe

    0

    1答えて

    私は短い文書(それぞれ1または2段落)を用意しました。私は文書の類似性のために3つの異なるアプローチを使用しました: - tfidfマトリックスのシンプルコサイン類似性 - LDAモデルを全コーパスに適用し、LDAモデルを使用して各文書のベクトルを作成した後、コサイン類似性を適用しました。 - コーパス全体にLSAを適用し、LSAモデルを使用して各文書のベクトルを作成した後、コサイン類似度を適用し

    1

    1答えて

    LSAfunのgenericSummary関数を使用します。ここにドイツのサンプルテキストがあります。 library("LSAfun") text = " Gegen die Firma wurde während der letzten Woche ein Zwangsvollstreckungsverfahren eingeleitet. Darüber witzeln die Konku

    0

    1答えて

    Pythonとscikit-learnを使用して文書から単語をLSAベクトルに変換する方法の提案はありますか?私はこれらのサイトとhereを見つけました。文書全体をlsaベクトルに変換する方法を解読しましたが、個々の単語自体を変換することに興味があります。 最後の結果は、すべての文章からすべてのベクトル(各単語を表す)を合計し、続いて連続する文を比較して意味的類似性を評価することです。

    0

    1答えて

    私はKaggle 競争のためにLSAを実行するために sklearn.decomposition.TruncatedSVDを使用する予定 をScikit-学び、それゆえ私は方法がわからないんだけど、私はSVDとLSAの背後にある数学を知っているが、私は scikit学習者のユーザーガイドで混乱しています実際に適用するには TruncatedSVDこの操作の後 、 U_k * transpose(S