tokenize

4熱

1答えて

regexpを使っていくつかの文字列をトークン化する方法に関する質問がたくさんあります。しかし、正規表現のパターン自体をトークン化するには、私はその件名にいくつかの投稿があると確信していますが、見つけられません。例： ^\w$ -> ['^', '\w', '&'] [3-7]* -> ['[3-7]*'] \w+\s\w+ -> ['\w+', '\s', '\w+

2熱

2答えて

pythonで末尾の句読点を維持するnltk.word_tokenize

句読点を削除する方法について説明していますが、何も見つけられないようです。私が行う場合： from nltk import word_tokenize test_str = "Some Co Inc. Other Co L.P." word_tokenize(test_str) Out[1]: ['Some', 'Co', 'Inc.', 'Other', 'Co', 'L.P', '.'

0熱

1答えて

Neo4jからElastic検索に複製されたデータをどのようにトークン化しますか？

私のNeo4jグラフでは、特定の種類のノードだけをユーザーが検索できるようにする必要があります。このノードはラベル「シノニム」と1つのプロパティ「エイリアス」のみを持ちます。グラフを弾性検索に複製するGraphAware Neo4j Elasticsearch Integration (Neo4j Module)を使用しています。つまり、弾性検索インデックスを作成します。私は、この作品 CALL

3熱

1答えて

'IDENTIFIER'ルールはANTLR Lexer文法でキーワードも消費します

Antlr 3.5の文法でJava解析を行っている間に、 'IDENTIFIER'ルールはANTLR Lexer文法でキーワードをほとんど消費しません。 ' - > IDENTIFIER VAR_VALUE' はまた、望ましくない"この"キーワードを、消費し、次にルール public final int inch = this.getValue(); ：私は行を解析しようとするとレクサー文法は

0熱

2答えて

Javaのレコードのスキーマを確認してください

私はテキストファイルを持っています。ファイルの各行は、| n |で区切られた 'n'個の列を持つレコードを表します。（パイプ）文字。列の値はint型、string型、date型、timestamp型などです。空の文字列と空白も列の値として使用できます。私は列値のカウントのみを検証しており、データ型の検証は不要です。 5列ごとのサンプル有効なレコード： 1234|xyz|abc|2016-04

0熱

1答えて

LibreOffice Writerでフォントとフォントスタイルでドキュメントをトークン化/解析/検索して置き換える方法は？

Writerで書かれたバイリンガル辞書を更新する必要があります。メインワード（太字1）外国等価音訳（フォント1、イタリック）外国の同等（太字2）音声の部分（フォント1、イタリック）文書の各行は、上記の部分の後ろにスペースまたは句読点で区切られたメインワードです。ファイルごとに1行ずつ歩いていくプロセスを自動化し、スペースと句読点を無視して各パート間に区切り文字を配置する必要があります。

4熱

1答えて

PythonのNltkフレンチトークナイザが動作しない

なぜpythonに付属しているフレンチトークナイザが私にとってうまくいかないのですか？何か間違っていますか？私は import nltk content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramm

0熱

1答えて

XSLT-1.0：カンマ区切りの値を要素値に変換します。

XMLファイルを取得してXSLTで変換しようとしています。このように表示されるように、私は、変換を実行すると、私は結果をしたいと思い <root> <TAG>10, 1, 3, 123, 4001, 34, 200, 105, 54, 0, 0, 0</TAG> </root> ： XMLは、私はこのようなルックスを変換しようとしていますしかし <Field1>10</Field1

0熱

1答えて

Solrの前後のEdgeNGram

EdgeNGramFilterFactoryを使用して前後のエッジNGramを生成したいと考えています。フロントのために私は <filter class="solr.EdgeNGramFilterFactory" maxGramSize="20" minGramSize="4"/> を使用していますが、バックのために、私は <filter class="solr.ReverseStringFi

1熱

1答えて

CakePHPのText :: tokenizeユーティリティを誤って使用していますか？

検索クエリをトークン化しようとしていますが、Text::Tokenizeの機能はexample on Cake's websiteと非常によく似ていますが、"にはすぐに-が付いています。 $query = 'question "help needed" -"garbage" contents of query'; $tokens = Text::tokenize($query, ' ', '"'