tokenize

    0

    1答えて

    私はこのテキストを持っていますが、私はこれが大好きです!質問する?私は ['I','love', 'this', 'but', 'I', 'have', 'a', 'question', 'to'] を取得しています。この正規表現を使用する場合は、現在私は、この正規表現を書いたものではないと私は正規表現について何も知らない token_pattern = re.compile(r"(?u)\b

    0

    1答えて

    無効な空白を含むXMLインスタンスの検証を拒否する作業用xsdがあります(詳細は以下を参照してください)。改行(#xD)、改行(#xA)、タブ(#x20)文字、または2つ以上の隣接するスペース文字のシーケンス)を使用することができます。 サンプルXSD: <?xml version="1.0" encoding="UTF-8"?> <xs:schema xmlns:xs="http://www.

    1

    2答えて

    数字を認識する単純なレクサーを書きます。数字はで、数字は空白を無視します。 私はjparsec V3.0を使用して、次のコードを書か: final Parser<String> words = Patterns.isChar(CharPredicates.IS_ALPHA).many1().toScanner("word").source(); final Parser<String> nums

    0

    1答えて

    私はLuceneインデックスの1つに問題があります。私は基本的なブール検索を実行しようとしていますが、検索は他のインデックスでも機能しますが、私のproductsインデックスでは、私はエラーが出ています: "フィールド 'Description'には文書よりも条件があります。トークン化されたフィールド。 は、ここに私のクエリを使用してコードです: var luceneIndexDataContex

    2

    2答えて

    私は式の文字列をトークンに分割しようとしています。 Iveは良い出発点を見つけました」([A-Za-z] + | [0-9。] + | [& => < \ |!] + | \ S) ' しかし、これは負の数に問題があります。 turns: '5--4=sin(2+3)' into: ['5','-','-','4','=','sin','(','2','+','3',')'] want: ['

    0

    1答えて

    必要な長さに基づいて文字列を分割する簡単な方法はありますか?例えば、私は、文字列があります。 <Data>AAAAABBBBB1111122222RRRRR<Data> をし、私はこのような出力を移入します: AAAAA BBBBB 11111 22222 RRRRR ありがとうございました。

    2

    1答えて

    こんにちは私の定義済みのリスト(接頭辞)に含まれるすべてのトークンを削除しようとしています。以下は私のコードですが、トークンを削除していません。 prefixes = ('#', '@') tokens = [u'order', u'online', u'today', u'ebay', u'store', u'#hamandcheesecroissant', u'#whoopwhoop', u

    -1

    1答えて

    (これが正しい場所であるかどうかは不明ですが、そうでない場合は他のフォーラムを指摘してください)。 私は欧州に拠点を置いています。私は、銀行のセキュアな支払いサービスの一環として、彼の銀行が提供するトークンシステムを使用するクライアントのための請求システムを設定しました。 (言い換えれば、これはPaypal、Braintree、Stripeのような大きなアメリカのサービスではありません...)。

    0

    1答えて

    私はC#に基づいて独自のスクリプト言語を作成したいので、私はtokenizeを使い始めようとしています。 今のところ、私はちょっと丸ごと再生しており、正規表現を少し深く学んでいます。だから、私は正規表現にはかなり新しいです。 例えば、私は foreach(str x:test.GetItems()) と一致し、groupvalues str、xを取得したい、test.GetItems() 私の