text-classification

    0

    1答えて

    を使用してテキストのために私が使用していますが、私は予測する新しい文書のための私は、テキスト「説明」と スクリプト以下の「クラス」の過去のデータを使用して新しい文書のクラスを予測したかったですより正確な精度を得ることができない場合、どのアルゴリズムを使用して精度を上げることができるかを知る手助けができます。ご意見をお聞かせください。 library(plyr) library(tm) libr

    0

    1答えて

    テキストマイニングに基づいて予測モデルを作成しようとしています。私は自分のモデルにいくつの機能を設定すべきか混乱しています。私は分析の中で1000の文書を持っています(したがってコーパスは約700になります)。コーパス内の用語の数は約2 000であるので、文書の数を超える(P >> N)。非常に多くの機能を持っていることには意味がありますか? HashingTFメソッドの機能の数は、コーパス内の用

    -1

    1答えて

    私たちのプロジェクトでは、分類メッセージにStochastic Gradient Descent(CountVectorizer、TfidfTransformer後)を使用しました。顧客がMLで新しいので、モデルがメッセージをあるカテゴリに関連付ける理由を理解したい。あなたはもちろん、数学なしで説明のための提案をお願いしますか?

    0

    1答えて

    私は今sklearnを使ってテキスト分類をしています。 最初のステップとして、私は明らかにVectorizer(CountVectorizerまたはTfIdfVectorizer)を使用する必要があります。私が取り組んでいきたい問題は、私の文書ではしばしば同じ単語の単数形と複数形があるということです。ベクトル化を実行するとき、私は単数形と複数形をマージし、それらを同じテキスト機能として扱いたいと思

    0

    1答えて

    この記事の内容:http://nadbordrozd.github.io/blog/2016/05/20/text-classification-with-word2vec/私は、テキスト分類タスクでGloVeの事前に訓練されたベクトルでgensim word2vecモデルを実装しようとしています。しかし、私はテキストデータでもFeatureSelectionをやりたいと思います。私はパイプライン

    0

    2答えて

    MLの最初のステップ、具体的にはテキストセンチメント分析のための分類子を使用しています。私のアプローチは、通常の80%列車のデータセットと20%のテストを行うことです。訓練されたモデルを持ち、新しい機能が現れたときに生産環境で進める最善の方法は何ですか(最初のデータセットにはテキストの新しい単語はありません)。

    0

    1答えて

    私はLDAを単純なドキュメントの集合に使用しています。トピックを抽出し、抽出したトピックをフィーチャーとして使用して自分のモデルを評価することが私の目標です。 私は、評価者として多項式SVMを使用することに決めました。その良いかどうかわからない? import itertools from gensim.models import ldamodel from nltk.tokenize imp

    1

    1答えて

    私はdoc2vecアルゴリズムから作成したfloatのベクトルとそのラベルを持っています。私は単純な分類子でそれらを使用するとき、それは正常に動作し、予想される精度を与えます。コードの作業は以下の通りです: from sklearn.svm import LinearSVC import pandas as pd import numpy as np train_vecs #ndarray

    0

    1答えて

    製品タイトルのマルチクラス分類子を作成して11のカテゴリーに分類するタスクがあります。私はscikitのLinearSVCを分類に使用しています。ストップワードを削除し、lemmatizationにPOSタグを使用し、TFIDFベクタライザでバイグラムを使用することで、最初に製品タイトルを前処理しました。 ここでは、機能選択の方法としてchi2を使用して、これらの重要な機能を削除してからトレーニン

    -1

    1答えて

    Kerasライブラリを使用してセンチメント分類用のDLモデルを作成しました。関数model.predict()を使用して文のスコアを予測すると、確率スコアが得られます。私はバイナリクラスを決定する際に.5をしきい値として設定する必要があるかどうかを知りたいですか?