stemming

    0

    2答えて

    キーワードIPLでsolrを検索すると、IPLと#IPLの両方を含む結果が必要です。これを達成するには? インデックスとクエリで、このようにWordDelimFactoryを試しましたが、うまくいきませんでした。 。 私は文字列を "string"と "#string"に分割する必要があると思いますが、それを行う方法はわかりません。

    5

    1答えて

    私はElasticSerachを使用しています。英語の基本的なステミングを設定したいと思います。だから基本的に、戦闘機は戦いを返します。 私は少しこれを実装する方法が混乱しています。私はアナライザ、トークナイザ、フィルタを読み込み、ElasticSearchで使用できる複数のステミングアルゴリズムがあります。スノーボール、ステマー、ポーター・ステム、シノニム・フィルターのどの組み合わせを使うべきか

    0

    1答えて

    電子メールのセットでテキスト分類を実行する必要があります。しかし、私のテキストのすべての単語は薄く疎である、すなわちすべての文書に関して各単語の頻度は非常に少ない。言葉はあまり頻繁に繰り返されていません。分類器を訓練するために、私は文書用語行列を頻度として重みが適切でないと思う。私が使用する必要がある他のどのような方法を提案してください。 おかげ

    1

    1答えて

    これに似た質問[1] porter stemming algorithm implementation question?が展開されましたが、 feedないfeにfeedステムを行い、なぜ私の質問がある Step1b `(m>0) EED -> EE feed -> feed agreed -> agree (*v*) ED -> plastered

    2

    1答えて

    "say say make made"というファイルを含む 'check_text.txt'があります。私はそれを形づくって "make make make say"と言うことをしたいと思います。私はstemDocumentをtmパッケージに入れようとしましたが、以下のように "make made made say"と言うだけです。過去の緊張した言葉に形づくをする方法はありますか?現実の自然言語処

    3

    2答えて

    stopwordsを削除した後にstemを削除しようとしているテキストファイルがありますが、実行しても何も変わっていないようです。私のファイルはdata0です。ここで 私のコードです: ## Removing stopwords and tokenizing by words (split each word) from nltk.corpus import stopwords from nl

    5

    1答えて

    スタンフォードPOSタガーとNERを使用してキーワード抽出プログラムを作成しようとしています。キーワード抽出のために、私は固有名詞だけに興味があります。ここでは基本的なアプローチは、各単語 幹ストップワード を外しアルファベット 以外のものを除去することにより、クリーンアップのデータを あるPOSタグが名詞である場合は、各単語 のPOSタグを決定NERに送付する NERは、その単語が人物、組織また

    1

    2答えて

    私はNLTKでステムマーとリーマイタイザーの束を試してきましたが、私は何もしません。私は、 "放射線科医"、 "放射線科医"、 "心臓病学者"、 "心臓病学"などのような言葉をたくさん持っています... * ologistは* ologyと同じバケツに行きます。私はPorterStemmer、SnowballStemmer、WordNetのLemmatizerをPythonで試しましたが、何も同じ

    2

    1答えて

    私は現時点でRのQuantedaパッケージを使用しています。内容語が互いに近くにある傾向を素早く見積もるために、ステム付き単語のnグラムを計算したいと思います。私が試してみると: twitter.files <- textfile(files) twitter.docs <- corpus(twitter.files) twitter.semantic <- twitter.docs %>%

    6

    1答えて

    用語の頻度(TF)と逆文書頻度(IDF)は、ストップワードの削除とステミングの影響を受けますか? ありがとうございます!