text-classification

    0

    1答えて

    テキストをカテゴリに分類しようとしています。私は9つのカテゴリを持っていますが、私が持っている与えられた文章は、より多くのカテゴリに分類することができます。私の目的は、文章を取り、各文章の業界を見つけることです。私の訓練セットには「ポルノ」カテゴリがなく、「財務」に分類されたポルノ資料を持つ文章がありません。 文章をクラスに分類できるかどうか、またそのテキストを分類できない印刷だけではない場合は、

    0

    1答えて

    私は少しのMLを勉強しています。 k個の隣人を使ってテキスト分類をしたいとします。私はtfidf vectorizerを使用して、各Cellに対してtf-idf値が格納されたMatrix term-documentを作成します。 今、飛行機に点をプロットするにはどうしたらいいですか?私はx1-y1を意味します、y1はドキュメント1の予測クラスですが、x? 文書X1の各用語は、ベクトルの要素ですか?

    3

    1答えて

    中にKerasトークナイザをリロード私はここのチュートリアルに従っ:(https://blog.keras.io/using-pre-trained-word-embeddings-in-a-keras-model.html) をしかし、私はh5pyによって生成されたモデルを保存することができるようにコードを変更しました。したがって、トレーニングスクリプトを実行した後、私はmodel.h5を私のデ

    0

    2答えて

    私は関連するタグ情報を持つ数千もの文書を持っています。しかし、私もタグなしで多くの文書があります。 私は、文書WITHタグで訓練し、訓練された分類器をUNTAGGED文書に適用したいと思います。分類器はUNTAGGED文書ごとに最も適切なタグを提示する。 私は非常に多くの研究を行いましたが、タグ分類を文書化するためのSUPERVISED実装はないようです。 私はNLTK、gensim、word2v

    0

    1答えて

    まず、私は機械学習(ML)の初心者です。私はどのように肯定または否定の単語のセットができることを検出するプロジェクトに取り組んでいますので、可能性が含まれているデータベースを作成しました否定単語。その結果、MLがどのように行われ、全体的なスコアがどのように肯定的または否定的であるかを予測することができます。 私の質問は、の正のの単語をの負のという単語だけで分類することが可能ですか?それが可能かどう

    0

    2答えて

    NLP/Machine Learingを使用してテレビや映画ファイルにトークン/タグを付ける方法があるかどうかは分かりました。 すでにこれを行う多くの正規表現アプローチがあることは知っていますが、NLP /機械学習でもこれを行うことはできませんか? 例: The.Heart.Guy.S01E07.Die.Belastungsprobe.German.DL.720p.HDTV.x264-GDR よう

    1

    1答えて

    私はNLPを勉強しており、NLTKとテキスト分類のためのscikit-learnを使用することを学んでいます。そこで、NLTKのmovie_reviewコーパスにUnigramの存在をフィーチャーとして実装しました。今、私は、彼らが複数の機能を使用していた研究論文を実装しようとしています:私は唯一のこれまで1つの特徴機能を実装しているので、私は今問題を抱えています 1. N-Gram Featur

    0

    2答えて

    私がしようとしているのは、Microsoftなどの会社名を入力して、コンピュータソフトウェア業界にあることを予測できるようにすることです。私はおよそ15万の名前と60以上の産業を持っています。名前の中には英語の会社名がないものもあります。 私は、会社名のみに基づいてGensimを使用してWord2Vecモデルをトレーニングし、SKlearnのロジスティック回帰にそれを与える前に単語ベクトルを平均化

    2

    1答えて

    事前定義されたクラスのセット(例:clojureのマップ)に従って銀行取引の束にラベルを付ける必要があります。私は素朴なベイズアプローチを試みましたが、時にはそれが私に間違ったラベルを与えてしまいます。 私の研究によれば、マルチクラス分類のためにチューニングされたリニアSVMのような監視付きMLアルゴリズムを使用する必要があります。問題は、私は本当にMLについて何も知らないのです。 2番目の問題は

    1

    1答えて

    「トレーニング発話」と「エンドユーザーの入力発言」の両方に対して、次のテキスト前処理タスクを実行することをお勧めしますか? 「ルート」の同義語に置き換えてください。例えば。 の通常/標準のを「ルート」の同義語の正規表現に置き換えます。これはLUISフレーズリストに似ていますが、自分のアプリの内部リストを定義できます。これは10個のフレーズリストに限定されていません。 ステミング:屈曲した(または時