2012-04-27 12 views
0

現在の時代には、すべての情報が豊富に用意されています。情報が巨大でデジタル化されていないこともあります。あなたにリアルタイムで要点の情報を提供するために、多数の同様のマニュアルから特定の情報を見つけるためにどのような論理的な構成を開発しますか?ユーザーはすべての文書を読む必要はありません。 最初にドキュメントを同様の構造に変換していますか?助言がありますか?
編集:
私はこれが何らかのテキスト検索の問題であることを知っています。 は疑問が少し焦点となるように、私は例を提示してみましょう:
MANUAL1:(カリフォルニア州用)文書を検索するロジック

Table of content 
... 

Precautions: 
1.) The operator must use synthetic gloves to handle chemicals 
... 

MANUAL2:(Minesotta用)

Table of content 
... 
Precautions: 
1.) Use polymer gloves while being in any contact with hazardous chemicals 
... 

今プログラムのユーザーは単に「有害化学物質の取り扱い」に関する質問を行い、プログラムは上記の2つのオプションを

はどうもありがとうございまし有害な化学物質とのいかなる接触しながら

  1. CA)オペレータは、化学物質を処理するために
  2. MN)を使用するポリマー手袋を合成手袋を使用する必要があります。

+0

主要な文書管理システム(例:[IBM FileNet](http://www-01.ibm.com/software/data/content-management/))を見て、それらの機能を確認しましたか? –

答えて

1

暗黙のうちに、少なくとも5つのレベルの "リストラ"があります。

  1. カリフォルニアのマニュアル集はどのように整理すればよいですか? (文書のコーパス)
  2. プレーンテキストファイルからテキストを抽出するにはどうすればよいですか? HTML? PDF? Word文書ですか? (物理フォーマットを文書化する)
  3. 章、セクション、見出し、小見出し、キャプション、表をどのように認識できますか? (ドキュメントレベルのセマンティクス)
  4. プレーンテキストを解析して意味を抽出するにはどうすればよいですか? (文章レベルのセマンティクス)
  5. シノニムとパート全体の関係をどのように扱うのですか? (オントロジ)

「あなたと連絡をとっている」に「処理」と関係があることを認識すると、文章レベルのセマンティクスとオントロジー分析が行われます。

大量のデータから意味を抽出する方法と、オントロジーへのいくつかの新しいアプローチについては、IBM's Watson projectをご覧ください。

あなたのアプローチがこれらの質問にどのように具体的であるか一般化されていますか?それは、部分的に、コーパスがどのように有界であるかに依存します。 Google検索で「化学物質」と表示されている文書や、カリフォルニアEPAの公開文書だけを扱っていますか?

+0

ありがとう@ David。私が指摘した方向に沿って考えています。いい説明。私はカリフォルニアEPA_などから公的に入手可能な文書を探しています。 –

関連する問題