-1

データセットがあり、名前付きエンティティ認識用にタグを付ける必要があります。私のデータセットはペルシア語です。 次のような表現をどのようにタグ付けする必要があるかを知りたいとします。タグ付けとトレーニングNERデータセット

***آقایمهدیکاظمی= Mr Mehdi Kazemi/Mr will Smith。 >>>(タイトルの付いた名前)私はすべてを人物としてタグ付けするか、最初の名前と姓だけにタグを付ける必要がありますか? (私も "Mr"とタグを付けるべきです)

Mr >> b_per ||氏>> O

Mehdi >> i_per || Mehdi >> b_per

Kazemi >> i_per || Kazemi >> i_per

***鼻水病院>> Noor hospital >>>名前のついた病院や名前と病院の両方に名前付きエンティティとしてタグを付ける必要がありますか?

***エッフェル塔/それが呼び出されたペルシャ語で防衛省(Iは、例えば、私たちDODを意味する)>>>: وزارتدفاع(vezarateのDEFA) は、私が唯一の防衛にタグを付ける必要がありますか?またはすべて一緒に?

名前付きエンティティの前にエンティティクラスを使用しているので、学校、映画、都市、国などにはもっと多くの例があります。

このデータセットにタグを付けるのを手伝っていただければ幸いです。

答えて

0

私は、CoNLL 2003トレーニングデータからいくつかの例を挙げておきます:

"Mr."その人の一部としてタグ付けされていないので、タイトルは無視されます。

"コロンビアプレスビテリアン病院は"(LOC、LOC、LOC)

"ニューヨークの病院"(O、LOC、LOC、O)

"商務部が" ある(ORGとしてタグ付けされます、ORG、ORG)

は、私はあなたがスタンフォードNLPとBIOフォーマットに向かっていると信じて、 "エッフェル塔" は(LOC、LOC)

+0

私はそれを得たと思います。ありがとうございました。 – Hedieh

-1

されるべきだと思います。しかし、他のオプションも考慮したい場合は、http://www.afcp-parole.org/etape/docs/etape-06022012-quaero-en.pdfのような構造化されたエンティティを見ることができます。

これらはエンティティをツリーとして記述することができ、情報抽出の細かい分析を提供します。注釈を付けるのは面倒ですが、索引付けだけでなく、意味の目的で注釈を使用する場合はおそらく関連します。

0

一般的に、出力を表示する方法としてタグ付けします。例えば、タイトルが含まれているかどうかは、あなた次第です。ただし、Core NLPでは重複しているエンティティにタグを付けることはないため、病院のように患者の名前を指定した場合には決定を下す必要があります。

+0

答えをありがとう。 – Hedieh

関連する問題