私が使っている語彙:非常に大きなラベルの付いていないNLPデータセットにFreebaseを使用してラベルを付けるにはどうすればよいですか?
名詞句 - 特定の人物、場所、またはアイデアを指す短い句。異なる名詞句の例としては、「Barack Obama」、「Obama」、「Water Bottle」、「Yellowstone National Park」、「Google Chromeウェブブラウザ」などがある。
category - どの名詞句がそれに属しているかを定義する意味概念どの人がそうしないのか。例として、「政治家」、「世帯の品目」、「食品」、「人」、「スポーツチーム」などがあります。したがって、「バラク・オバマ」は「政治家」と「人」に属しますが、 「食品」または「スポーツチーム」に属していない
私は数百万の名詞句で構成された、非常にレーキされていないラベル付きNLPデータセットを持っています。私はこれらの名詞句にラベルを付けるためにFreebaseを使いたいと思います。 Freebaseの型を自分のカテゴリにマッピングしています。私がしなければならないことは、私が持っているすべての単一のFreebaseタイプのすべての例をダウンロードすることです。
私が直面する問題は、このタイプのクエリをどのように構造化するかを理解する必要があることです。高レベルでは、質問はFreebaseに「トピックXXのすべての例は何ですか?」と尋ねる必要があります。 Freebaseは「ここではトピックXXのすべての例のリスト」と答えなければなりません。誰かが私にこのクエリの構文を与えることができれば非常に感謝します。それはPythonで行うことができるならば、それは素晴らしいだろう:)(例えば、人のために、)
@deliprao
http://cs.jhu.edu/~delip/entity_linking.pdf
トムありがとうございました!私はデータダンプを使用して終了しました。しかし、Pythonコードは、Freebaseからインスタンスを取得する方法を知りたがっているので、非常に便利です。私は曖昧さ除去に関するあなたのコメントにも感謝します。現在、私の研究グループの博士課程の学生は、機械学習の観点からこの曖昧さの問題に焦点を当てています。彼がFreebaseを使って現在のアプローチを増やすことができるかどうかは興味深いでしょう。 – Malcolm