2016-04-01 12 views
0

私はトルコ語の名前付きエンティティ認識である私の現在の卒業プロジェクトに取り組んでいます。認識名は人名と場所で作業するときにトルコ語を捉える必要があります(タクシム/イスタンブールのヒルトンホテルなど、さまざまな言語の場所があることもあります)。私のデータセットに「Hotel」を追加する必要があります。ホテル、レストランまたはモール。しかし、それが組織名タグに来たとき。私はバンド、製品、会社名の良いデータセットを見つける必要がある、しかし、スタンフォード大学のNLPツールでは、このデータセットNamed Entity Recognition(Ner) - 組織名データベース

を見つけたり、収集する方法を見つけ出すカント:http://nlp.stanford.edu:8080/ner/process

私はFacebookの、ナイキを入力すると、アディダスなどもその組織を見つけることができます。その組織名Datasetを持つ方法はありますか?

答えて

2

これらの組織名のデータリソースに興味がある場合は、あなたはそれがオンラインでのみアクセスをダウンロードすることができないように

  • DBpedia
  • YAGO
  • BabelNetとして使用可能な知識ベースのKB単位のいずれかを使用することができます。
  • FreeBase

それらのすべてが、これらの組織の名前などを持って、あなただけの自分のタイプを使用している組織を抽出するためにいくつかの努力が必要になります。たとえば、YAGOには、可能なエンティティとその種類のダウンロード可能なファイルがあります。それをフィルタリングしてから、hasMeaningデータを使用してすべての可能な名前を取得することができます。

YagoとBabelNetは、NERまたはNamed Entity DisambiguationシステムAIDAとBabelfyに使用されています。

AIDAは、可能なエンティティ名の堅牢なデータセットを提供し、NERに使用できます。

+0

親愛なるモハメドの返事に感謝します。とても役に立ちました。私はyagoを使うつもりです。なぜなら、それは素晴らしいセットを持っており、私はそれらをeasliyで管理することができるからです。再度、感謝します。 –

+0

あなたは歓迎です...あなたがYagoを使用しようとしているなら、これらの可能な名前のセットをチェックしてください。それはあなたの仕事にとってより強力になります。 –

1

wikipediaからそれらを収集してみてください。その大きなソース。 特定の種類のエンティティの情報をwikiダンプから収集するパーサを記述できます。ウィキペディアには、人、場所、組織を分類する階層構造があります。

+0

返事ありがとうございますが、ウィキペディア(vikipedi)のトルコ組織は非常に小さいです。 https://en.wikipedia.org/wiki/List_of_companies_of_Turkey。また、それらを解析して名前だけを収集する方法はわかりません。あなたの仕事を中断しなければ、どうして本当に知りたいのです。あなたは私にヒントを与えることができます。あなたがダンプを見れば、もう一度 –

+1

ありがとう、その巨大なXMLファイル。各ページは、特にスキーマのxmlタグです。各xmlページレベルノードの最初の2行のテキストを読むと、通常は次のようになります。XYZは、ABCを行う組織または簡単に解釈できるテキストです。組織リストを作成する必要がある場合は、英語のダンプも見ることができます。 https://en.wikipedia.org/wiki/Wikipedia:Database_download – roopalgarg

+0

これがあなたの質問に答えたと思えば、それを親切に回答としてマークすることができますか? – roopalgarg

関連する問題