リンクされたデータのデータ品質の問題を処理する方法

最近、リンクされたデータを調査しています。外部のエンドポイントにアクセスしながらパフォーマンスの遅れを克服するために、データ・ダンプをローカルに保管したいと考えました。
リンクされたデータのデータ品質の問題を処理する方法

しかし、私が遭遇するデータセットには主に問題があります。 1つは頻繁にURIの品質です（例：JenaのTDBでインポートするエラー：Bad character in IRI (space): <http://bio2rdf.org/genecards:BCR/ABL[space]...>）

このような問題はどうやって解決できますか？このようなデータダンプをクリーンアップする方法や、問題のあるトリプルを削除する方法はありますか？

出典

2017-11-04 RDangol

URIが悪い場合は、テキストツールを使用して入力ファイルを処理することが始まる方法です。 Nトリプルは扱いが簡単です。たぶん後で処理することがあります。

[space]の場合、それを%20に置き換えると、有効なURIが作成されますが、それらは異なるURIです。これがデータに及ぼす影響は、データとそのデータで何をしたいのかによって異なります。悪いトリプル（別のテキスト処理オプション）を削除するだけのように、悪い被験者の周りのすべてのトリプルを削除してデータを消去するかどうかは、データの形状によって異なります。

もう1つのことは、上流に戻って問題を報告して、起点で修正できることです。

出典

2017-11-06 10:34:57 AndyS

現在の必要条件では、どちらのオプションも問題ありません。このようなテキストツールを教えてください。 – RDangol

私はデータセットをきれいにするためのpythonスクリプトを書いてしまいました。これまでのところ、正常に動作するようです。 – RDangol

リンクされたデータのデータ品質の問題を処理する方法

答えて

関連する問題