2016-07-30 8 views
3

私は、フリー・ベースをトレーニング・データとして使用して、ワードをベクトルとして表す機械学習モデルをいくつかトレーニングしています。 APIは廃止されて以来、私は5億以上の異なるエンティティ(件名/オブジェクト)を含む31億トリプルのリストになっているraw freebaseダンプを扱っています。この数を減らしたいと思います。推奨されていないフリーベースからすべての実体名を見つける

私は、単にMIDを含むトリプルだけが残るように、主題の名前を単に示すすべてのトリプルを削除したいと思います。しかし、私はエンティティの '名前'を定義する複数の可能な述語を見つけました。

I)common.notable_for.display_name
II)type.object.name
III)/ RDFスキーマ#ラベル

私は3つの質問があります:a)のいずれかの違いが関係にある

を上記の述語?
b)エンティティの名前も記述する追加の述語がありますか?
c)名前が定義されているトリプルは別として、名前はMIDの代わりに他のトリプルにも現れますか?

ありがとうございました!

答えて

1

あなただけのトピックの名前を保持するスキーマプロパティですtype.object.nameに集中する必要があります。

/rdf-schema#labelは、遊離塩基のスキーマの一部ではない、等化です。

common.notable_for.display_nameの説明は次のとおりです: "顕著なオブジェクトのローカライズされた/ジェンダーの適切な表示名"、それはCVT(複合値タイプ)内のプロパティでもあり、異なるタイプの情報を保持します。トピックでは、このプロパティは必要ありませんので、それが最も「重要」。私が覚えている限りでは、「ラリー・ペイジは」。「起業家」だったwhat't、持っています。TON type.object.nameに集中しています。

関連する問題