n-gram

0熱

1答えて

Elasticsearchアナライザを見つけることができませんでしたが、それはここでエラー

せずにインデックスが作成されますが、私のインデックスの設定JSON、私がテストしたときに http://localhost:9200/myIndex/_analyze?text=「アナライザのテスト」&アナライザ= nGram_analyzer である私は、次の例外を取得しています。私はオートコンプリート機能に取り組んでいます { "error": { "root_cause"

2熱

2答えて

リスト内のPythonカウントタプル数が発生する

このタプルリストで各タプルが何回発生するかを数える方法はありますか？私はcountメソッドを試しましたが、動作しません。これはリストである： ['hello', 'how', 'are', 'you', 'doing', 'today', 'are', 'you', 'okay'] これらのリストに基づいてタプルです： ('hello', 'how') ('how', 'are') (

0熱

2答えて

数のすべての可能な2グラム

のは、私はこのようなcsvファイル（実際に私は可能100+異なるサービス以上のものを持っている）があるとしましょう： user_id, services user_1, "s1,s2,s1,s4,s2,s3,s2" user_2, "s2,s3,s2,s1,s4" を、私は最終的に持っているしたいと思いますこの、可能であればほとんどのpythonとパンダを使用して： user_id, c1

1熱

2答えて

Vowpal Wabbit - 選択した名前空間の名前

サンプルがあります。 text1_Namespace1：テキスト text2_Namespace2：テキスト2 は、私は新しい機能を作りたいNamespace1は、nグラムを使用して、選択テキスト2 缶VWに他の相互作用を作成していないテキスト1のみから特定のNamespace1に対してngramsを生成しますか？ vw -hとして

0熱

1答えて

NGRAMベースの言語検出ウィリアムB. CavnarとジョンM. Trenkle

私はhttps://github.com/z0mbiehunt3r/ngrambased-textcategorizer/blob/master/ngramfreq.py import operator import string import glob import os.path from nltk.util import ngrams #file which contains t

0熱

1答えて

Solrの前後のEdgeNGram

EdgeNGramFilterFactoryを使用して前後のエッジNGramを生成したいと考えています。フロントのために私は <filter class="solr.EdgeNGramFilterFactory" maxGramSize="20" minGramSize="4"/> を使用していますが、バックのために、私は <filter class="solr.ReverseStringFi

0熱

1答えて

"Web Scraping with Python"という本で提案されたコードに関数を組み込む方法

"Web Scraping with Python"を読んでいます。第8章では、著者は以下のコードを示すngramsの例を経る： from urllib.request import urlopen from bs4 import BeautifulSoup import re import string import operator def cleanInput(input):

1熱

1答えて

R-bigramトークナイザの文書用語行列が動作しない

私はコーパスに対してunigramsとbigramsの2つの文書 - 項行列を作ろうとしています。しかし、バイグラム・マトリックスは現在、ユニグラム・マトリックスとまったく同じです。私はなぜその理由がわかりません。コード： docs<-Corpus(DirSource("data", recursive=TRUE)) # Get the document term matrices Big