tokenize

    2

    1答えて

    StringTokenizer tokenizer = new StringTokenizer(s, " ,.:;?![]'"); デリミタ(この場合はすべての句読点)を取得する方法はありますか? たとえば、「これはテストですが、それもテストですか?」 トークン化の結果に2つのトークンも含まれていますか? これは可能ですか?

    0

    2答えて

    大きなテキストファイルから文章を抽出するには、nltk.sent_tokenize()を使用する必要があります。ファイルのサイズは1MBから400MBまで様々です。そのため、メモリの制限のためにファイルを完全にロードすることはできません。nltk.sent_tokenize()を使用してファイルを1行ずつ読み込むことはできません。 このタスクを実行するにはどうすればよいですか?

    1

    1答えて

    次のエラーが発生しました。 if form in exceptions: TypeError: unhashable type: 'list' 以下は私のコードです。 from nltk.tokenize import word_tokenize from nltk.stem.wordnet import WordNetLemmatizer sentence = 'missed you'

    1

    1答えて

    私はStreamTokenizerの使い方を理解しようとしています。 wordCharsとordinaryCharsの違いを理解できません。この2つの方法の違いは何ですか? 「普通」とはどういう意味ですか?

    -2

    2答えて

    を引用私は、次のJavaScriptを持っている:私は上記のような文字列をトークン化しようとしている let strTest = ` "The issue": "L'oggetto ", "issue": "oggetto", "issue": 'oggetto "novo" ', `; 。 私の正規表現の試み: let regExp = /["'](.

    0

    1答えて

    の可変量の入力をトークン化するにはどうすれば、例えば、ユーザの入力をトークン化しようとしていますload sml.txt。それは2つのトークンを持っているので loadコマンドが正常に動作しますが、私はdisplayのような単一ワードの入力を使用しようとすると、それがクラッシュし、私にセグメンテーションフォルトを与えます。私は、2番目のトークンがNULLであると仮定しますが、この問題を回避する方法

    0

    1答えて

    私は、apache sparkとmongodbを使用して文書に単語の辞書を作成するための要件を実装する作業を行っています。 私のシナリオでは、各文書にいくつかのテキスト型フィールドと文書の所有者のフィールドがあるmongoコレクションがあります。 私はコレクションドキュメントのテキストコンテンツを解析し、単語をドキュメントフィールドと所有者フィールドにマッピングする辞書を作成します。基本的には、の

    0

    1答えて

    管理対象のElasticsearchサービスを使用したい問題がありますが、特に必要なプラグインがありません。プラグインはピンインプラグインで、カスタムトークナイザを提供します。私はElasticsearchに挿入する前に前処理ステップでこのトークンを複製することを考えました。 私は出力 { "tokens": [ { "token": "ldh", "s

    0

    1答えて

    私は、pythonを使用してカスタムステム単語の単語トークン化抄録を検索しようとしています。次のコードは、ほとんど私が欲しいものです。つまり、stem_wordsの値のいずれかがword_tokenized_abstractに1回以上表示されますか? if(any(word in stem_words for word in word_tokenized_abstract)): do s

    1

    1答えて

    この単純関数は、渡された文字列トークンがtrueかどうかを調べるためのものです。それはコンパイルされませんし、私は「ISO C++は、[-fpermissive]ポインタと整数との間の比較を禁止」と言う予期しないエラーが発生しますが、私は理解していないが、私は比較ではないよということです ​​ 整数へのポインタ、私は文字列と文字列を比較していますか?だから私はこのエラーを取得し、私はそれを修正する