特定のタイプの情報を抽出するための情報抽出のコーパスを構築していますが、そのエンティティに注釈を付ける最も良い方法を決定しようとしています。私は、IEERコーパスがSGMLタグ要素ENAMEX
,NUMEX
、およびTIMEX
タグを使用していることを発見しました(ここで説明されています:http://itl.nist.gov/iaui/894.02/related_projects/muc/proceedings/ne_task.html)。この文書は1997年に書かれたので、私はこのSGMLベースの手法を使うのは古くなっていると推測しています。 OWL、RDF、またはXMLを使用します。情報抽出コーパスに注釈を付けるための業界標準が最近ありますか?通常、情報抽出コーパスに注釈を付けるために使用されるマークアップ言語
1
A
答えて
2
フィールドには標準化が不十分だと言えますが、単一のフォーマットである必要があるかどうかは不明です。私のアドバイスは、オプションを見て、あなたのデータとエンコーディングしている情報に最も適したオプションを選択することです。
bratは、言語リソースに注釈を付けるという新しい古典です。独自のスタンドオフ注釈標準を持っています。 Anaforaツールもあります。これには独自のXMLベースの標準もあります。 UIMAベースのツールは、通常、CAS標準を使用します(ただし、不正なドキュメント)。ネイティブGATE XML formatも見てください。
名前付きエンティティタイプのように、エンコードする情報が単純な場合は、CoNLLなどの表形式にすることもできます。
要件に合致しないものがあれば、それらに適合するものを実装するだけです。
0
NLTKブック(chapter 07, paragraph: Representing Chunks: Tags vs Trees)は述べている:
最も普及しているファイルの表現がIOBタグを使用しています。
及び説明に進む:
[...]各トークンは、3つの特別なチャンクタグの1つ、I(内側)、O(外部)、またはB(開始)でタグ付けされています。 [...] BタグとIタグにはチャンクタイプの接尾辞が付いています。 B-NP、I-NP
We PRP B-NP saw VBD O the DT B-NP little JJ I-NP yellow JJ I-NP dog NN I-NP
ウィキペディアはIOB format上のページがあります。
スタンフォードNLP apparentlyもサポートしています。
spaCyは少し異なるBILUO formatを使用します。
関連する問題
- 1. 任意のHTMLマークアップに注釈を付ける/マークする
- 2. コーパスに注釈を付けるときにsynaxnetの出力を解釈する方法
- 3. 情報抽出を始めるには?
- 4. XmlJavaTypeAdapterでどのパッケージ情報に注釈を付けるのですか?
- 5. Java:ユーザーコメントに使用するマークアップ言語
- 6. 重複情報を抽出するための抽出
- 7. 継承されたクラスフィールドに注釈を付ける
- 8. VLANの注釈情報
- 9. xml-schemaでappinfoに注釈を付けるための規約?
- 10. pydevを使用しているときに、コンテキスト情報を与えるために、型名でパラメータに注釈を付けることはできますか?
- 11. IMarkerに関連付けられた注釈を見つける
- 12. 特定の注釈で注釈付けされ、別の注釈で注釈付けされていない豆のスキャンを除外する方法は?
- 13. Google Chart APIを使用してバーに注釈を付ける
- 14. カスタムオブジェクトにgreenDAOを使用して注釈を付ける
- 15. MKMapViewにオフラインモードで注釈を付ける
- 16. refコールバックに注釈を付ける
- 17. ボケチャートプロットに注釈を付ける
- 18. Delphiでメソッドに注釈を付ける?
- 19. キャンバスにテキストで注釈を付ける
- 20. .NET Frameworkがクラスからデータ注釈情報を抽出するために使用するクラスは何ですか?
- 21. PDFの注釈を抽出する
- 22. 特定の製品の注文情報をマゼンタに格納するために使用されるテーブル
- 23. Javaクラスに自動的に注釈を付けるためのプログラム/スクリプト
- 24. ClaimsPrincipalPermissionを使用してADFS 2.0によって返されたクレームでクラスに注釈を付ける
- 25. ファイルから情報を抽出するためのBashスクリプト
- 26. 情報を変更して抽出するためのbashスクリプト
- 27. Java:コンパイル時に別の注釈の近くに注釈を付ける
- 28. 注釈付きフィールドから注釈値を受け取る
- 29. マークアップ言語を使用する理由特にwikiエンジンで
- 30. フィルタリングされた関連オブジェクトのカウントでクエリセットに注釈を付ける
私はXML –