tf-idf

0熱

1答えて

こんにちは、私は最初に以下の実験、私はと呼ばれるベクトラ作成作っています：その後、私は次のリストをベクトル化 tfidf_vectorizer = TfidfVectorizer(min_df=10,ngram_range=(1,3),analyzer='word',max_features=500) ：：次のようにコメントの tfidf = tfidf_vectorizer.fit_tran

0熱

1答えて

tf：idfテキスト解析r

とfallowコード私はcsv（200.000 docs）にあるすべてのドキュメントについて、各用語のtfidfを見つけようとしています。そして、それを含む列csvを1つ作成します。それぞれの項はtfidfで非減少である。私は少しサンプルを試して、私はそれが動作すると思います。大きなcsv Rstudioのために置くallways crasing ..任意のアイデア？ #read text con

0熱

1答えて

次のtfidfモデルで最も代表的な機能を得るにはどうすればいいですか？

こんにちは、私は次のリストを持っている： listComments = ["comment1","comment2","comment3",...,"commentN"] 私は次のように私のコメントからモデルを取得するためにTFIDFのベクトライザーを作成：今 tfidf_vectorizer = TfidfVectorizer(min_df=10,ngram_range=(1,3),anal

3熱

1答えて

TF-IDFとコサインの類似点の代替方法（さまざまな形式のドキュメントを比較）

私は、ユーザーの職業スキルを取り入れ、それらのスキルに基づいて最も理想的なキャリアを提案する、小さな個人プロジェクトに取り組んできました。私はこれを達成するために求人リストのデータベースを使用します。現時点では、次のようにコードが動作する： 1）上場 2に記載されているスキルを抽出するために、リストの各ジョブのテキストを処理）、各キャリア（例えば「データアナリスト」）については、コンバイン一つの文

0熱

1答えて

K-は、tf-idf行列の初期中心を定義することを意味します。

私は記事をクラスタリングするためにk-meansを使用しています。今私はより合理的な結果を得るために初期センターを定義したいと思います。私のPythonコード： tfidf_matrix = tfidf_vectorizer.fit_transform(articles) X = np.array([[-19.67480000, -8.546], [22.010807000,-1

0熱

1答えて

単語を潜在意味解析（LSA）ベクトルに変換する

Pythonとscikit-learnを使用して文書から単語をLSAベクトルに変換する方法の提案はありますか？私はこれらのサイトとhereを見つけました。文書全体をlsaベクトルに変換する方法を解読しましたが、個々の単語自体を変換することに興味があります。最後の結果は、すべての文章からすべてのベクトル（各単語を表す）を合計し、続いて連続する文を比較して意味的類似性を評価することです。

-2熱

1答えて

テキスト内の文章間の意味的な一貫性の発見

これらのリンクlink1とlink2のコードに基づいてプログラムを書くと、aの意味的類似性が自動的に計算されます。連続した文章とb。センテンスは、1つの介在フレーズ、ドキュメント全体（1000文）で区切ります。提供されたコードはすでにトークン化されており、意味的類似性を見つけることができますが、テキスト全体（「a、b」）にわたる連続した「介入」文の意味の類似性を計算し私は何度も何度も同じことをし

0熱

1答えて

TfidfVectorizer使用のためのデータ準備（scikitlearn）

sklearnのTfIdfVectorizerを使用しようとしています。私の入力はおそらくTfIdfVectorizerのニーズに合っていないため、私は問題を抱えています。私はロードしてリストに追加したJSONをたくさん持っていますが、私はこれをTfIdfVectorizerの使用のためのコーパスにしたいと考えています。コード： import json import pandas from

3熱

1答えて

文書内の文の意味の類似性を見つける

私はこのlink which is nicely colour codedからいくつかのエラーを修正するために4つのマイナーな変更を加えてコードをまとめました。私はまた2つの以前のフォーラムからいくつかのコードを使用しました。コードでは、テキスト全体にわたる連続する文の間の意味的類似性を計算し、次にこのようにして得られたすべての類似性値を表示します。「黄色ドア。」、「赤ハンマー」0.65 「森

0熱

1答えて

クエリとドキュメントの類似度を向上させる方法python TFIDF、BM25 precision、recall

クエリとドキュメントの両方についてTF-IDFを計算し、COS距離を使用して結果のランク付けを行い、同様のトップ50文書を取得しようとしました。同様に、BM25スコアを計算し、最も高いBM25スコアを1位としてランク付けし、同様の上位50のドキュメントを取得します。しかし、TF-IDFおよびBM25の両方について、結果は良好ではない。（データセットがラベルであるテストデータセットのサイズが1