2011-01-21 4 views
0

私は何をしたいのか理解していただければ幸いです。英語は私の母国語ではなく、私は自動翻訳者を不信に思っています。私はできるだけ説明するように努めます。データ構造内のテキストの解析と保存

長いテキストを分析することを考えていました。たとえば、段落に分割された文字列があるとします。

Loremのイプサムの悲しみは、AMET consecteturのadipiscingのELIT座ります。 Nulla vitae elit libero、pharetra augue。 Lorem ipsum dolle amet、consectetur adipiscing elit。発芽玄米には穀粒が含まれています。

Duis mollis、EST非commodoのluctus、のNiSi ERATのporttitorのligula、egetのlaciniaのodioのSEMのNEC ELIT。 Aenean eu leo quam。 Pellentesque ornare sem lacinia quam venenatis vestibulum。 Cras justo odio、dapibus ac facilisis、egestas eget quam。 Lorem ipsum dolle amet、consectetur adipiscing elit。 Curabitur blandit tempus porttitor。マケナは、マグナ以外には何の変化もなかった。

私は2つの段落の長さや場所を非常に迅速に見つけることができるように、この文字列を配列などに格納したいと考えています。たとえば、(擬似コード):

Array => { 

    paragraphs => { 

     "Lorem ipsum dolor sit amet, [...] fermentum.", 
     ... 

    } 

} 

これに名前があるかどうかはわかりません。私は、このタイプの仕事をどうやって行うのかについて多くの理論があると思います。大量のテキストを処理するときのパフォーマンスに注意を払うプラクティスには本当に関心があります。私は勉強して慎重に読むことが必要です。

ご協力いただければ幸いです。事前のおかげで、

+0

使用したい特定のプログラミング言語はありますか? – Gerrat

+0

Objective-Cまたはpythonは問題ありません。 – Donovan

答えて

0

-Alberto
はおそらく、ApacheのUIMAに読み込まは、それがテキスト分析は、それの主要成分である、すべての非構造化情報を分析することについてです。

関連する問題