Rには自分のトークナイザを使ってテキストをベクターに変換できる方法はありますか?上記のコード
vectorizer = TfidfVectorizer(tokenizer=getTokens) X = vectorizer.fit_transform(corpus)
PythonとgetTokensで書かれている私のカスタムのトークナイザは、とにかくです私はR. で同じことを行うことができるように、私はR library(text2vec)
でライブラリもあるように言及したいと思いますいくつかありますが、私は取得していないRカスタムトークンを適用する方法 トークン=単語テキストをベクトルに変換するRでカスタムトークナイザを使用しますか?
0
A
答えて
1
「トークンはトークンにテキストを分割するプロセスです。トークンを使って言葉を参照すると仮定します。これは例えばRを用いて行うことができる。低レベルでstrsplit。例:
> example <- "This is an example. This is an example"
> unlist(strsplit(example, split = " "))
[1] "This" "is" "an" "example." "This" "is" "an" "example"
文字列が表示されているように、文字列は自動的に複数の文字列を含むベクターに変換されます。今は単純なスペースで分割しても特殊なケースはうまく処理されません。だから、より良い考慮すべき一つ以上の英数字以外の文字の正規表現を使用して:
> unlist(strsplit(example, split = "[^[:alnum:]]+"))
[1] "This" "is" "an" "example" "This" "is" "an" "example"
あなたはalnum代わりに空白別名"\\s+"
を使用することができます句読点を保持したい場合。
トークンを単語(例:文章または文字)と異なるものにしたい場合は、次のようにします。あなたは特別な場合を扱うことができるquantedaのtokenizerを使うことができます。ピリオドは新しい文章を示しません。
> example <- "This is an example. This is an example Dr. Knowitall"
> quanteda::tokens(example, what = "sentence")
tokens from 1 document.
text1 :
[1] "This is an example." "This is an example Dr. Knowitall"
独自のトークナイザが付属するその他のパッケージがいくつかあります。例えば、パッケージトークナイザは、それを提供します。
関連する問題
- 1. ベクトルをベクトルに変換するコードをベクトルに変換する
- 2. Rベクトルを1要素の文字列ベクトルに変換します
- 3. オブジェクトをJavaに変換するベクトルをベクトルに変換する
- 4. NetlogoリストをRベクトルに変換
- 5. R data.frame列をベクトルに変換するRに適した方法は?
- 6. ExcelシートをJxlを使用してベクトルに変換する
- 7. ベクトル<Mat>をベクトル<float>に変換しますか?
- 8. 変換\ rのテキスト)Pythonで
- 9. Rのコマンドライン引数を整数ベクトルに変換する
- 10. DNA配列をR/Wekaの数値ベクトルに変換する
- 11. リストを名前付きベクトルに変換するR
- 12. Rでの適用を使用して行列をペアリストに変換します。
- 13. ベクトルでdata.frameを変換することは可能ですか?R
- 14. R XMLを使用してXMLをJSONに変換する
- 15. Rを使用してJSONをExcelに変換する
- 16. ベクトルの要素をベクトルで置換するR
- 17. スピーチをテキストに変換し、テキストをスピーチに変換する
- 18. テキストの配列をベクトルに変換する
- 19. テキストをHPGL(プロッタ)ベクトル座標に変換する
- 20. JavascriptまたはPHPを使用してイメージをテキストに変換しますか?
- 21. Rの行名に含まれるベクトルの値を使用しますか?
- 22. Rを使用してファイルをPDFに変換(印刷)しますか?
- 23. 短縮形の月を使用してRに変換する
- 24. テキストをテキストに変換中にテキストボックスのテキストを変換する
- 25. ByteStringでテキストをテキストに変換しますか?
- 26. PDFをjavaを使用してテキストに変換する
- 27. javascriptを使用してテキストを画像に変換する
- 28. JavaScriptを使用してテキストをピクセル座標に変換する
- 29. pdftoolsを使用してpdfのテキストをバッチに変換する
- 30. R:ベクトル要素を行単位で結合するベクトル行を文字列に変換する
基本的には、UR1検出でこのことを使用したいと思っています。ベクター形式のUrlを作成してスコアを予測しなければなりません。また、Rで同じ機能を作成してください。大助け。@ jonGrub –
あなたの質問にこれを追加し、トークン化したいいくつかのURLの例を挙げてください。あなたが見ることができるように、それは主に分割オプションに書き込むものに依存します。例えば、URLがコンマで区切られている場合、これを関数に入れることができます。 – JonGrub
githubのリンク:https://github.com/keshavm021/Using-Machine-Learning-in-R-Detecting-Malicious-Urls/blob/master/keshav.Rあなたは何が起こっているのか理解しています。大いに助けてください。@ jongrub –