2011-12-08 3 views
0

これはどこから始めるのかわからないので、うまくいけば皆さんは私の質問をクリアすることができます。私は電子メールが特定の単語/パターンのために検索され、構造化された方法で格納されるプロジェクトを持っています。 Trip itで行われる何か。彼らはDataMapperのがtripit.com [で] が計画宛のインバウンド電子メールメッセージを取り、あなたがあなたのメールに表示さ 半構造形式からそれらを変換するための責任があるDataMapperの構造化されていないソースから構造化データを生成する電子メールスクラブ用のオープンソースプロジェクトですか?

を開発し

The article states非常に 構造化XML文書に変換します。

を述べたコメントは、私はGoogleで検索しますが、これを自分で構築するために探しているなら、 ラッパーとラッパーの誘導について少し読むこと便利

かもしれませんがありますラッパーの誘導について読んでいましたが、それは定義があまりにも広すぎて、そのような問題を解決する方法を理解するのを助けませんでした。

似たようなことがあるオープンソースプロジェクトがありますか?

+0

本、ツール、ソフトウェアライブラリ、チュートリアル、その他のオフサイトリソースを推薦する、または見つけることを求める質問は、オピニオンレスポンスやスパムを引き付ける傾向があるため、** Stack Overflow **のトピックです。代わりに、問題を説明し、それを解決するためにこれまでに何が行われているかを記述します。 –

答えて

1

これを達成するためにいくつかの方法と可能なことがあります。

最初の部分は、メールの内容にアクセスすることですが、ここでは答えません。基本的には、あなたは電子メールのテキストにアクセスできると仮定します。もしそうでなければ、camel(http://camel.apache.org/mail.html)のような電子メールボックスにjavaを接続できるライブラリがあります。

これでメールが届いています。

便利なことは、郵便番号(http://alias-i.com/lingpipe/)にエンティティ認識機能があり、独自の用語を入力できることです。具体的には、抽出チュートリアルと辞書抽出ツール(http://alias-i.com/lingpipe/demos/tutorial/ne/read-me.html)の一部を見てください。舌パイプ辞書抽出ツール(http://alias-i.com/lingpipe/docs/api/com/aliasi/dict/ExactDictionaryChunker.html)の中に興味のある用語をインポートして、ラベルを電子メールに関連付けるだけです。

あなたはまた、次の質問役に立つかもしれません:本当にDictionary-Based Named Entity Recognition with zero edit distance: LingPipe, Lucene or what?

1

非常に幅広い質問を、私は始めるために十分であるかもしれない、あなたにいくつかの一般的なアイデアを与えることを試みることができます。基本的には、テキストをスキャンして特定のチャンクに意味を適用することを検討しているような、精巧な解析問題について話しているようです。正確に何を探しているかによって、いくつかの正規表現の中から、電話番号、電子メールアドレス、日付のようなものが一致しているはずのかなり標準的な構造を持っていることがわかります。他のデータポイントは、いくつかの指標語から恩恵を受ける可能性があります。「departing from」というフレーズは、後続するものがアドレスであることを示す場合があります。自然言語処理コミュニティには、テキスト処理用に用意された大きなツールセットも用意されています。品詞タグやセマンティックアナライザのようなものをチェックしてください。

これらの技術を身に付けておくと、基本的な反復開発プロセスに従うことができます。予想される出力構造の各データポイントに対して、キャプチャ方法の簡単なルールを定義します。次に、テストデータのバッチ上でアプリケーションを実行し、どのサンプルがそのデータをキャプチャしていないかを確認します。サンプルを見て、それらのサンプルをキャッチするためにあなたのルールを改訂してください。エクストラクタが許容可能な精度に達するまで繰り返します。

問題の詳細によっては、そのプロセスの多くを自動化できる機械学習テクニックがあるかもしれません。

関連する問題