最近、リンクされたデータを調査しています。外部のエンドポイントにアクセスしながらパフォーマンスの遅れを克服するために、データ・ダンプをローカルに保管したいと考えました。
リンクされたデータのデータ品質の問題を処理する方法
しかし、私が遭遇するデータセットには主に問題があります。 1つは頻繁にURIの品質です(例:JenaのTDBでインポートするエラー:Bad character in IRI (space): <http://bio2rdf.org/genecards:BCR/ABL[space]...>
)
このような問題はどうやって解決できますか?このようなデータダンプをクリーンアップする方法や、問題のあるトリプルを削除する方法はありますか?
現在の必要条件では、どちらのオプションも問題ありません。 このようなテキストツールを教えてください。 – RDangol
私はデータセットをきれいにするためのpythonスクリプトを書いてしまいました。これまでのところ、正常に動作するようです。 – RDangol