1

私がしたいのは、生の自然なテキストを解析し、日付を表すすべてのフレーズを見つけることです。私は、マークアップされた日付へのすべての参照で、かなり大きなコーパスを持って自然なテキストで日付を参照する方法はありますか?

I met him <date>yesterday</date>. 
Roger Zelazny was born <date>in 1937</date> 
He'll have a hell of a hangover <date>tomorrow morning</date> 

私はちょうどそれらを見つけ、日付のフレーズを解釈する必要はありません。日付であるという事実は無関係です(実生活では日付でさえありませんが、詳細であなたを退屈させたくありません)。基本的には可能な限り価値のあるセットです。値そのものの文法は、文脈自由であると近似することができますが、手作業で構築するのは非常に複雑であり、ますます複雑になるにつれて、偽陽性を避けることがますます難しくなります。

これは長いショットであるため、すぐに使用できるソリューションが存在するとは思っていませんが、私は潜在的にどのような技術や研究を使用できますか?

+0

質問を参照してくださいhttp://stackoverflow.com/questions/9294926/how-does-apple-find-dates-times-and-addresses-inails。これは、名前付きエンティティ抽出と呼ばれ、情報抽出のサブタスクとして使用されます。 @reseterはリンクを提供しました。機械学習だけでなく、文法ベースのアプローチもうまくいきます。 –

+0

https://duckling.wit.ai/ – sdream

+0

@sdreamをご覧くださいありがとうございます、これも有望そうです、私はそれを試してみるつもりです。 – biziclop

答えて

6

学界および業界で使用されている一般的なアプローチの1つは、条件付きランダムフィールドに基づいています。基本的には、それは特別な確率モデルです。マークアップされたデータを最初に訓練してから、与えられたテキスト内の特定のタイプのエンティティにラベルを付けることができます。

あなたも、スタンフォード自然言語処理グループからのシステムのいずれかを試すことができます:Stanford Named Entity Recognizer

あなたは、ツールをダウンロードするいくつかのモードがあります注意したら、最後のいずれかが必要:

付属

スタンフォードNERはCoNLLのために訓練された4クラスのモデルであり、 MUCのために訓練された7クラスモデルと、これらのクラスセットの交差の両方について データセットで訓練された3クラスモデルである。

3クラス場所、人、組織

4クラス場所、人、組織、その他

7クラスの時間、場所、組織、人、金、パーセント、日付

更新。実際にそのツールonline hereを試すことができます。 muc.7class.distsim.crf.ser.gzクラシファイアを選択し、日付付きのテキストを試してください。 「昨日」は認識していないようですが、たとえば「20世紀」を認識しています。結局のところ、これはCRF訓練の問題です。


Stanford NER screenshot

+0

ありがとう、これは非常に有望に見えます。 – biziclop

4

心の症例報告書に保つので、それを自分でやってすることは容易ではない、人間の注釈付きデータを訓練し、必要とするかなり遅いです。現在の学術研究とよく似ているわけではないが、実際に人々が頻繁にそれを行う方法の別の例については、thisへの回答を読んでください。

+0

すべてのアルゴリズムは人間の注釈付きデータが必要です...コンピュータが自分自身を分類できれば、それらのアルゴリズムは必要ありません=) –

+0

しかし、異なる藻類は訓練のパフォーマンスと適用性に関して異なる特性を持っています、データフォーマットとエラーレート、そのため+1を考慮することをお勧めします。 –

+0

これは間違いなく私が試してみたいことですが、幸いにも何千もの注釈付きファイルがありますので、多くのデータを扱うことができます。誤り率は、異なる方法の間で決まる可能性が高い。 – biziclop

関連する問題