2013-07-20 14 views
8

私は現在大きなデータを含む大きなプロジェクトを計画しています。TriplestoreにFreebaseをインポート

私はすでに、検索を使用し、すべての結果は、私が見ることができるように、それはBaseKBまたはFreebase to RDF

のようなサードパーティのツールの使用せずに任意のtriplestoreにFreebaseのをインポートすることはできませんことを教え、ダンプがすでにRDFとして提供されています私の4store triplestoreにダンプをインポートし、SPARQL経由でデータにアクセスしたいのであればどこに問題がありますか?

+0

トリプルストアにインポートしましたか?はいの場合は、プロセスを完了するまでにどれくらいの時間がかかり、使用したマシン構成は何ですか。私はまた、データをインポートする予定です。だから私に詳細を教えてください。 ありがとう – vinod

答えて

3

1)あなたのRDF /タートルパーサが更新してください。 (ラップトップ2の最新バージョンは 'ns:common.topic.notable_for.example'のように '。'を認識できます。

2)ダンプは、インポートする前にクリーンアップする必要があります。私はこのザ・スクリプトを使用:http://people.apache.org/~andy/Freebase20121223/(フィックスイット)

3)タートル仕様はURIのみのためにこれらの文字を許可します。

::= '<' ([^#x00-#x20<>\"{}|^`\] | UCHAR)* '>' 

だから、ライン80でフィックスイット・スクリプトに次の行を追加することは非常に重要です。

その結果、
$X =~ s/\\>/%3E/g ; 
$X =~ s/\\.//g ; 

# Add this Line 
$X =~ [\x00-\x20\<\>\"\{\}\|\^\`] ; 

$obj = "<".$X.">" ; 

、このような無効な構文:

<http://www.wikipedia.org/object?key={invalid_braces}> 

になります
<http://www.wikipedia.org/object?key=invalid_braces> 
2

あなたはおそらく、少なくとも2、そうでない場合は3からの検索結果を取得し、異なるデータセットされています

  1. 古いクワッド形式は
  2. をダンプし、早期RDFは、(おそらく)現在のRDFを
  3. をダンプダンプ

#1のフォーマットは、必要な変換です。初期のRDFダンプ(#2)は構文的に無効であったため、ほとんどのツールにはインポートされませんでした。 RDFダンプは時間とともに改善されています。前処理なしではまったくインポートされないことが本当であるかどうかはわかりませんが、冗長性を除去するために前処理して、あなたのために最適なフォーマットに正規化すれば、アプリケーションなど

現在のダンプをインポートしようとしましたか?あなたの結果は何でしたか?

+0

お返事ありがとうございます。今日、私はルートサーバーを注文し、4store、DL Freebase Dumpをインストールし、ファイルごとに10.000.000トリプルで分割しました。 インポート中に「URIファイル:/// root/freebase/xaa:8ラプターエラー - 構文エラー」というエラーが表示されます。 Freebase RDFのTurtleの構文に共通する問題はありますか? – smith64fx

+0

最初の行は "構文エラー"を引き起こします:ns:american_football.football_historical_roster_position.number ns:type.property.expected_type ns:type.int。 – smith64fx

+1

私はそれを修正しました... Raptor2をアップデートした後、今すぐこの素晴らしい修正の助けを借りて動作します:http://people.apache.org/~andy/Freebase20121223/ – smith64fx

1

フリーベースタートルダンプの問題はこれです、彼らはw3cタートルの仕様に準拠していません。

1)http://www.w3.org/TR/turtle/#sec-grammar, 文字 '。'に従う。しかし、トリプルの最後にしか現れません。 しかし、フリーズダンプにはたくさんの '。'があります。トリプルの終わりの前に。 私はどこかで "/"がuriの外側で許可されていないと読んでいます。だから、 代わりに '。'を使用することを選択しました。

最新raptor2ライブラリは(「」)この問題を回避することができますが、ない古い

2)私は方法は 『空白ノード』を発すると思うも、例えばのための有効な ではありません行141567 ns:m.01000m1 ns:common.topic.notable_for。誰もがFreebaseはダンプのインポートの問題を持つために

+0

1)アップデートRaptor2 – smith64fx

関連する問題