2012-03-01 14 views
3

私は基本的にオブジェクトを作成し、tokenize()サブルーチンを呼び出し、テキストの山を渡して、トークンのリストを返すことができるthisのポートであるPerlモジュールを探しています。その効果の何か。それが存在しなければ私はそれを行うだろうが、車輪を再発明する意味はない、そう? :) TIA。Penn Treebank Tokenizerの実装はPerlにありますか?

+0

壊れたリンク:https://web.archive.org/web/20151201051654/http://www.cis.upenn.edu/~treebank/tokenizer.sed – alvas

+1

'sed'を' perl'に移植するのは簡単でしょう; P – alvas

答えて

3

私は完全一致を見つけることができなかったが、Lingua::EN::Taggerの1、Lingua::TreebankText::StemTagPOSLingua::Stem::SnowballまたはTreex::EN問題を扱うことができますか?

+0

ありがとうございます。私はトークン化を実行するいくつかのPerlモジュールを見つけましたが、彼らは特に彼らがTreebankのポートであるとは言わないので、彼らがそれを追跡しているかどうかは分かりません。あなたが提案したモジュールは、実際にはTreebank形式のデータを扱うか、文章を取ってそれをトークンのように分割するのではなく、語幹をステミングすること(例: "スキー"と "スキー" 「〜」、「〜」、「〜」、「〜」、「〜」、「〜」、「〜」、「〜」、 、 ":"以前はあまり明確ではないことを申し訳ありません。 – dmn

+2

トークン化の「上位のPerl」セクションを読んでいるかもしれませんが、これは非常に簡単に書くことができます。この本は無料でオンラインです。 –

+0

クール、私はそれをチェックします!ええ、私はこれを書いている気がします。すでに実用上はPerlのように見えるかなり短いsedスクリプトですが、それでも大したことではありません。 :) – dmn

関連する問題