2017-11-04 8 views
0

最近、リンクされたデータを調査しています。外部のエンドポイントにアクセスしながらパフォーマンスの遅れを克服するために、データ・ダンプをローカルに保管したいと考えました。
リンクされたデータのデータ品質の問題を処理する方法

しかし、私が遭遇するデータセットには主に問題があります。 1つは頻繁にURIの品質です(例:JenaのTDBでインポートするエラー:Bad character in IRI (space): <http://bio2rdf.org/genecards:BCR/ABL[space]...>

このような問題はどうやって解決できますか?このようなデータダンプをクリーンアップする方法や、問題のあるトリプルを削除する方法はありますか?

答えて

0

URIが悪い場合は、テキストツールを使用して入力ファイルを処理することが始まる方法です。 Nトリプルは扱いが簡単です。たぶん後で処理することがあります。

[space]の場合、それを%20に置き換えると、有効なURIが作成されますが、それらは異なるURIです。これがデータに及ぼす影響は、データとそのデータで何をしたいのかによって異なります。悪いトリプル(別のテキスト処理オプション)を削除するだけのように、悪い被験者の周りのすべてのトリプルを削除してデータを消去するかどうかは、データの形状によって異なります。

もう1つのことは、上流に戻って問題を報告して、起点で修正できることです。

+0

現在の必要条件では、どちらのオプションも問題ありません。 このようなテキストツールを教えてください。 – RDangol

+0

私はデータセットをきれいにするためのpythonスクリプトを書いてしまいました。これまでのところ、正常に動作するようです。 – RDangol

関連する問題