tokenize

    4

    1答えて

    regexpを使っていくつかの文字列をトークン化する方法に関する質問がたくさんあります。 しかし、正規表現のパターン自体をトークン化するには、私はその件名にいくつかの投稿があると確信していますが、見つけられません。 例: ^\w$ -> ['^', '\w', '&'] [3-7]* -> ['[3-7]*'] \w+\s\w+ -> ['\w+', '\s', '\w+

    2

    2答えて

    句読点を削除する方法について説明していますが、何も見つけられないようです。 私が行う場合: from nltk import word_tokenize test_str = "Some Co Inc. Other Co L.P." word_tokenize(test_str) Out[1]: ['Some', 'Co', 'Inc.', 'Other', 'Co', 'L.P', '.'

    0

    1答えて

    私のNeo4jグラフでは、特定の種類のノードだけをユーザーが検索できるようにする必要があります。このノードはラベル「シノニム」と1つのプロパティ「エイリアス」のみを持ちます。 グラフを弾性検索に複製するGraphAware Neo4j Elasticsearch Integration (Neo4j Module)を使用しています。つまり、弾性検索インデックスを作成します。私は、この作品 CALL

    3

    1答えて

    Antlr 3.5の文法でJava解析を行っている間に、 'IDENTIFIER'ルールはANTLR Lexer文法でキーワードをほとんど消費しません。 ' - > IDENTIFIER VAR_VALUE' はまた、望ましくない"この"キーワードを、消費し、次にルール public final int inch = this.getValue(); :私は行を解析しようとするとレクサー文法は

    0

    2答えて

    私はテキストファイルを持っています。ファイルの各行は、| n |で区切られた 'n'個の列を持つレコードを表します。 (パイプ)文字。列の値はint型、string型、date型、timestamp型などです。空の文字列と空白も列の値として使用できます。 私は列値のカウントのみを検証しており、データ型の検証は不要です。 5列ごとの サンプル有効なレコード: 1234|xyz|abc|2016-04

    0

    1答えて

    Writerで書かれたバイリンガル辞書を更新する必要があります。 メインワード(太字1) 外国等価音訳(フォント1、イタリック) 外国の同等(太字2)音声の 部分(フォント1、イタリック) 文書の各行は、上記の部分の後ろにスペースまたは句読点で区切られたメインワードです。 ファイルごとに1行ずつ歩いていくプロセスを自動化し、スペースと句読点を無視して各パート間に区切り文字を配置する必要があります。

    4

    1答えて

    なぜpythonに付属しているフレンチトークナイザが私にとってうまくいかないのですか? 何か間違っていますか? 私は import nltk content_french = ["Les astronomes amateurs jouent également un rôle important en recherche; les plus sérieux participant couramm

    0

    1答えて

    XMLファイルを取得してXSLTで変換しようとしています。このように表示されるように、私は、変換を実行すると、私は結果をしたいと思い <root> <TAG>10, 1, 3, 123, 4001, 34, 200, 105, 54, 0, 0, 0</TAG> </root> : XMLは、私はこのようなルックスを変換しようとしていますしかし <Field1>10</Field1

    0

    1答えて

    EdgeNGramFilterFactoryを使用して前後のエッジNGramを生成したいと考えています。フロントのために私は <filter class="solr.EdgeNGramFilterFactory" maxGramSize="20" minGramSize="4"/> を使用していますが、バックのために、私は <filter class="solr.ReverseStringFi

    1

    1答えて

    検索クエリをトークン化しようとしていますが、Text::Tokenizeの機能はexample on Cake's websiteと非常によく似ていますが、"にはすぐに-が付いています。 $query = 'question "help needed" -"garbage" contents of query'; $tokens = Text::tokenize($query, ' ', '"'