2011-11-14 4 views
4

私は良いライブラリやSMSテキスト正規化の分野で行われているいくつかのプロジェクトを探しています。私はthisのような良い研究プロジェクトを見つけました。SMSテキストの正規化

私はプログラミング言語としてJavaを使用しています。

一言で言えばコンセプトは「は今家に帰るために彼に言う」「彼はホームNWを行く2 TEL」のようなSMSベースのテキストを処理し、通常の英語テキストに変換することです。

答えて

4

なぜ、このようなサイトから辞書をダウンロードするだけでいいですか:http://smsdictionary.co.uk/abbreviationsと置き換えて文字列を使用しますか?

+0

これは間違いなく最も簡単な方法です。 – st0le

+0

それは良く見え、私は自分自身でいくつかのテキストコーパスを見つけました。 "** gnite **"や "** tomo **"のような基本SMSテキスト(http://smsdictionary.co.uk/index.html?p=t)を変換しようとしましたが失敗しますテキストを変換します。 –

3

辞書の置き換えでは、翻訳の文脈が失われるため、切り捨てられません。例えばあなたは '2'を 'to'、 'too'または 'two'に翻訳しますか?

コーパスを入手し、Moses(http://www.statmt.org/moses/)またはPhrasal(http://nlp.stanford.edu/software/phrasal/)を使用して、統計モデルを自分でトレーニングすることができます。 )。

スタンフォードの著者(http://www-nlp.stanford.edu/sms/translate.php)として、私はそのようなサービスのためにRESTベースのAPIを提供すると確信できましたが、それのための需要を知っている...

+0

答えをありがとう。 正直言って、私は同じもののためのRESTベースのAPIサービスを見たいと思うし、なぜ他の人がそれを必要としないのだろうと思っていません。その共通の問題です。 –