n-gram

0熱

1答えて

MySQLの文字列（パスワード）の列を与えられ、値がNであると仮定して、各nグラムの頻度をカウントするSQLの方法を探しています（長さの部分文字列n）。私が持っている他の環境では、コードがMySQLの内部に保存されていることが重要です。その結果、メモリがオーバーフローします。私がその間見出さザのみ作動アプローチは、13個の文字のうち、9グラムのために（このように、union、次いでgroup

0熱

3答えて

計算nGramsはNLTK

を使用して文のリストのリストを越えIは、それぞれ内部リストは、単語にトークン化された文であるリストのリストを持っています： numSentences = len(sentences) nGrams = [] for i in range(0, numSentences): nGrams.append(list(ngrams(sentences, 2))) これは、リスト全体では

0熱

1答えて

Python：テキスト会話で[nグラムで]単語のリストを見つける最速の方法

単語リストのすべての単語が会話で見つかった回数を探しています。各単語の個々の頻度を考慮するのではなく、合計数だけを考慮する。単語リストは、この手順は非常に重い処理し、大規模なデータセットの場合に実行するのに長い時間がかかるしているuptill 3 from nltk.util import ngrams find = ['car', 'motor cycle', 'heavy traffic v

0熱

1答えて

DTMからngramを作成すると、あまりにも多くのメモリが必要になる

Ngramsを使用するテキスト予測モデルを作成しています。 DTMに変換するテキスト文書（ツイート）があります。 DTMは7.3Mbです。次のコードを使用してNgramに変換します。 createNgramTable <- function(x) { m <- matrix(nrow = x$ncol, ncol = 2) m[,1] <- x$dimnames$Terms

2熱

2答えて

PostgreSQLのテキストの本文から長さ1,2、および3のすべてのnグラムを抽出する最速の方法は何ですか？

私はたくさんの本文を持っていますが、それぞれのユニグラム、バイグラム、トリグラム（文字ではなく単語）をすべて抽出し、カウントとngramの長さを別のテーブルに挿入したいと思います。今は、ORDINALITYを使用して正規表現分割されたテキストの本文をアンネストしてから、バイグラムとトリグラムに複数のサブクエリを使用することを考えていますが、順序が必要です。しかし、この種の位置情報は通常インデック

0熱

1答えて

Pythonでquadgamsを使用した単語予測

私は現在、文の次の単語を予測するためにPythonで四角形を使用しています。このためには、確率を格納するためにネストされた辞書を使用しています。 Here is the link for the code しかし、この実装では最悪の場合O（n）が必要です。それで、O（logn）以下のルックアップを取る他のデータ構造を使ってこれを実装する他の方法はありますか？

0熱

1答えて

NGramTokenize（lapply issue）の使用中にエラーが発生しました

rWekaパッケージのNGramTokenizerを使用しています。私はすべてが正しくインストールされていると信じています。私は、次のコードを実行している：私は受信 Bigram_Tokenizer <- function(x) NGramTokenizer(x, Weka_control(min = 2, max = 2)) tdm <- TermDocumentMatrix(corpus,

0熱

1答えて

連結された単語のSolrインデックスの検索

私は2つの同様の使用例で苦労しています。ここに私のインデックスから文書例です： { "id":"E850AC8D844010AFA76203B390DD3135", "brand_txt_en":"Tom Ford", "catch_all":["Tom Ford", "FT 5163", "Tom Ford", "F

0熱

1答えて

マルチラベル分類にn-gramを使用するには？

私は、英語でコミュニケーションする方法に基づいて、その人の国籍を特定するプロジェクトに取り組んでいます。私は10の国籍を持っています& 1000ファイル、各国籍ごとに100。私は、私のアプローチを検証するために、機能としてN-gramを使用しています。& が与えられたため、すべてのファイルをピックアップ：（行として）ラベルとして&国籍を特徴として私のデータ構造は、私のステップである（列などの文字n

0熱

1答えて

N-グラムの分析は、Pythonでここ

は私のサンプルデータは、次のようになります。今度は、以下のコードを使用してインプレッションを集計する方法を理解しました。私はこれらのクエリに関連した平均的な印象を表示するために別の列を必要とする。ここ：よう def n_grams(txt): grams = list() words = txt.split(' ') for i in range(len(words)): for