n-gram

    0

    1答えて

    私はテキスト分類のフィーチャエンジニアリングに取り組んでいます。私は機能を選択する上でのポイントで立ち往生しています。大部分の文学は、テキストをトークン化し、それらを機能(ストップワード、句読点を削除)として使用しますが、その後、(肺がん)やフレーズのような複数ワードの単語を逃します。したがって、問題はどのようにngramの順序を決定し、それらを機能として扱うかです。

    2

    2答えて

    私は文字列の配列を持っており、それらをクラスターにソートする必要があるとしましょう。 クラスタ1:私は現在、nグラム、例えば使用して分析をしています パイプパイプについて、ラスベガスで 作品を固定 パイプを固定する固定を クラスタ2: クラシック音楽 クラシック音楽が 素晴らしいですなぜクラシック音楽は何 など 私は、これらの2つの文字列を持っているのは、この配列内ましょうテキスト(その他): 彼

    0

    1答えて

    英語のコーパス上でNgram言語モデル(unigramとbigram)を訓練し、離散コーパスからの文の確率を計算しようとしています。 例えば、訓練コーパスは3文で構成されています 1:私は、午前、サム 2:サム、私は、 3午前:I N = 14(コーパスの長さ) ユニグラムのために、私は確率で終わる: のPr( "I")=#( "I")/ N = 3月14日、PR( "AM")= 2/14、PR(

    0

    1答えて

    私はtext2vecパッケージをRに入れてコーパスから用語の共起行列(またはTCM)を計算しようとしています(これは良い並列バックエンドを持っているためです)。私はthis tutorialを追跡しましたが、いくつかのおもちゃの例を調べているうちに、create_tcm関数は、用語の共起値に何らかのスケーリングや重み付けをしていることに気付きました。私はそれが内部的にスキップグラムを使用することを

    0

    1答えて

    私のアプリケーションで検索機能が必要です。 私はそれを達成するためにトライグラムを使用しましたが、うまくいきました。 問題は次のとおりです。 トライグラムは、単語の3文字グループのシーケンスを作成しています。 私は単一のオブジェクトで3つ以上の文字が必要です。例については : select show_trgm('abcpqrs'); これが返されます:{" a"," ab","abc","bc

    0

    1答えて

    私はしばらくの間、Elasticsearchを使用しているが、私は、この特定の問題を解決アナライザを見つけるように見えることはできません。 私は次のテキストを含む文書を持っている: "The Harry Potter and the Sorcerer Stone is a great book". ユーザーが「ハリー・ポッターシリーズ」場合(スペースなし)、その文書を検索結果として表示できる必

    1

    1答えて

    私は3 milionの要約を持っており、私はそれらから4-gramを抽出したいと思います。私は言語モデルを構築したいので、これらの4グラムの頻度を見つける必要があります。 私の問題は、これらの4グラムすべてをメモリで抽出できないことです。どのようにしてこれらの4グラムのすべての周波数を推定できるシステムを実装できますか?

    0

    1答えて

    ファジーで文字列に含まれるクエリを実行するにはどうすればよいですか? のは、私は次のドキュメントがあるとしましょう: { ... "name":"william shakespeare" ... } 私は次のクエリのための文書を受け取りたい: 「ウィリアム」(すべてのウィリアムズを返します)を 」ウィリアムシェイク "(ウィリアムシェイク" "を含むドキュメントのみを返します。Wiliam sa

    1

    3答えて

    私はbigramsとunigramsを扱っています。 私のバイグラムはタプルのカウンタであり、私のユニグラムは私がfollwing for b,countB in bigrams.most_common() key=b[0] # this is guaranteed to be a key for my unigrams uniCount=uni[key] を実行しよう

    0

    3答えて

    私はngramsが必要です。私はnltk.utils.ngramsを使ってngramsを得ることができますが、実際にはngrams関数はジェネレータオブジェクトを返します。私はいつもそれを繰り返すことができ、ngramsをリストに格納することができます。しかし、これらのngramを繰り返し実行することなく、リスト内でこれらのngramを取得するための、より直接的な方法がありますか?