tf-idf

    0

    1答えて

    こんにちは、私は最初に以下の実験、私はと呼ばれるベクトラ作成作っています:その後、私は次のリストをベクトル化 tfidf_vectorizer = TfidfVectorizer(min_df=10,ngram_range=(1,3),analyzer='word',max_features=500) ::次のようにコメントの tfidf = tfidf_vectorizer.fit_tran

    0

    1答えて

    とfallowコード私はcsv(200.000 docs)にあるすべてのドキュメントについて、各用語のtfidfを見つけようとしています。そして、それを含む列csvを1つ作成します。それぞれの項はtfidfで非減少である。私は少しサンプルを試して、私はそれが動作すると思います。大きなcsv Rstudioのために置くallways crasing ..任意のアイデア? #read text con

    0

    1答えて

    こんにちは、私は次のリストを持っている: listComments = ["comment1","comment2","comment3",...,"commentN"] 私は次のように私のコメントからモデルを取得するためにTFIDFのベクトライザーを作成:今 tfidf_vectorizer = TfidfVectorizer(min_df=10,ngram_range=(1,3),anal

    3

    1答えて

    私は、ユーザーの職業スキルを取り入れ、それらのスキルに基づいて最も理想的なキャリアを提案する、小さな個人プロジェクトに取り組んできました。私はこれを達成するために求人リストのデータベースを使用します。現時点では、次のようにコードが動作する: 1)上場 2に記載されているスキルを抽出するために、リストの各ジョブのテキストを処理)、各キャリア(例えば「データアナリスト」)については、コンバイン一つの文

    0

    1答えて

    私は記事をクラスタリングするためにk-meansを使用しています。今私はより合理的な結果を得るために初期センターを定義したいと思います。 私のPythonコード: tfidf_matrix = tfidf_vectorizer.fit_transform(articles) X = np.array([[-19.67480000, -8.546], [22.010807000,-1

    0

    1答えて

    Pythonとscikit-learnを使用して文書から単語をLSAベクトルに変換する方法の提案はありますか?私はこれらのサイトとhereを見つけました。文書全体をlsaベクトルに変換する方法を解読しましたが、個々の単語自体を変換することに興味があります。 最後の結果は、すべての文章からすべてのベクトル(各単語を表す)を合計し、続いて連続する文を比較して意味的類似性を評価することです。

    -2

    1答えて

    これらのリンクlink1とlink2のコードに基づいてプログラムを書くと、aの意味的類似性が自動的に計算されます。連続した文章とb。センテンスは、1つの介在フレーズ、ドキュメント全体(1000文)で区切ります。 提供されたコードはすでにトークン化されており、意味的類似性を見つけることができますが、テキスト全体(「a、b」)にわたる連続した「介入」文の意味の類似性を計算し私は何度も何度も同じことをし

    0

    1答えて

    sklearnのTfIdfVectorizerを使用しようとしています。私の入力はおそらくTfIdfVectorizerのニーズに合っていないため、私は問題を抱えています。私はロードしてリストに追加したJSONをたくさん持っていますが、私はこれをTfIdfVectorizerの使用のためのコーパスにしたいと考えています。 コード: import json import pandas from

    3

    1答えて

    私はこのlink which is nicely colour codedからいくつかのエラーを修正するために4つのマイナーな変更を加えてコードをまとめました。私はまた2つの以前のフォーラムからいくつかのコードを使用しました。 コードでは、テキスト全体にわたる連続する文の間の意味的類似性を計算し、次にこのようにして得られたすべての類似性値を表示します。 「黄色ドア。」、「赤ハンマー」0.65 「森

    0

    1答えて

    クエリとドキュメントの両方についてTF-IDFを計算し、COS距離を使用して結果のランク付けを行い、同様のトップ50文書を取得しようとしました。 同様に、BM25スコアを計算し、最も高いBM25スコアを1位としてランク付けし、同様の上位50のドキュメントを取得します。 しかし、TF-IDFおよびBM25の両方について、結果は良好ではない。 (データセットがラベルであるテストデータセットのサイズが1