私は基本的にオブジェクトを作成し、tokenize()サブルーチンを呼び出し、テキストの山を渡して、トークンのリストを返すことができるthisのポートであるPerlモジュールを探しています。その効果の何か。それが存在しなければ私はそれを行うだろうが、車輪を再発明する意味はない、そう? :) TIA。Penn Treebank Tokenizerの実装はPerlにありますか?
答えて
私は完全一致を見つけることができなかったが、Lingua::EN::Taggerの1、Lingua::Treebank、Text::StemTagPOS、Lingua::Stem::SnowballまたはTreex::EN問題を扱うことができますか?
ありがとうございます。私はトークン化を実行するいくつかのPerlモジュールを見つけましたが、彼らは特に彼らがTreebankのポートであるとは言わないので、彼らがそれを追跡しているかどうかは分かりません。あなたが提案したモジュールは、実際にはTreebank形式のデータを扱うか、文章を取ってそれをトークンのように分割するのではなく、語幹をステミングすること(例: "スキー"と "スキー" 「〜」、「〜」、「〜」、「〜」、「〜」、「〜」、「〜」、「〜」、 、 ":"以前はあまり明確ではないことを申し訳ありません。 – dmn
トークン化の「上位のPerl」セクションを読んでいるかもしれませんが、これは非常に簡単に書くことができます。この本は無料でオンラインです。 –
クール、私はそれをチェックします!ええ、私はこれを書いている気がします。すでに実用上はPerlのように見えるかなり短いsedスクリプトですが、それでも大したことではありません。 :) – dmn
- 1. Penn Treebankタグ付きNLP POS注釈ツール
- 2. penn treebankのトレーニングLSTMのperplexityを計算する
- 3. CoreNLPコードでは、Penn Treebank品詞シンボル自体が実際に表現されていますか?
- 4. PerlのExpectの自動実装はありますか?
- 5. Perlソースコードでは、ソートルーチンの実装はどこにありますか?
- 6. SqlGeometryBuilderの実装はありますか?
- 7. 私はpython/nltkの中で完全なpenn treebankデータセットを使うことができます
- 8. TreebankのPythonデータ構造
- 9. タブの実装 - 私のアプローチに問題はありますか?
- 10. アクションバーの実装に役立つものはありますか?
- 11. オープンソースのメモリディスクバッファの実装はjavaにありますか?
- 12. wxPythonには、FlowLayoutManager/FlowSizer/WrapSizerのネイティブ実装がありますか?
- 13. tf.image.resize_bicubicの実装はどこにありますか?
- 14. URIテンプレート:javascriptにrfc-6570の実装はありますか?
- 15. Typescriptノードモジュールの実装はどこにありますか
- 16. C#にはクライアント側のデータベース実装がありますか
- 17. Luceneのワイルドカード実装はどこにありますか?
- 18. corbaの実装はどこにありますか
- 19. Java EL 3.0の実装はどこにありますか
- 20. .NETライブラリにスパース配列の実装はありますか?
- 21. RのGlicko-2実装はどこにありますか?
- 22. epollの実装にはrfcがありますか?
- 23. ISO SchematronバリデータのJava実装はどこにありますか?
- 24. タブビューにFirebaseListAdapterを実装する方法はありますか?
- 25. IValidatableObjectをポータブルクラスライブラリプロジェクトに実装する方法はありますか?
- 26. 実行時にPerlに実際の派生クラスがありますか?
- 27. Python 2.7 Regex Tokenizer実装が動作しない
- 28. refreshTokenエンドポイント実装はどこにありますか?
- 29. Ngram Tokenizer on field、問い合わせではありません
- 30. ポータブルPerlはありますか?
壊れたリンク:https://web.archive.org/web/20151201051654/http://www.cis.upenn.edu/~treebank/tokenizer.sed – alvas
'sed'を' perl'に移植するのは簡単でしょう; P – alvas