2017-01-09 13 views
2

ガンマ線天文学用のオープンデータコレクションであるgamma-catを作成しており、アドバイス(こちら、またはリソース、フォーマット、ツール、パッケージへのリンク)を探しています最高のセットアップ。Python JSON API(リンクされたデータ用、フラットファイル用)

私たちが持っているデータは、さまざまな論文からのさまざまな情報源からの測定値です。それはかなり異質ですが、時には1つの用紙に複数のソースのデータがあります。各ソースには通常いくつかの論文があり、時にはスペクトルがありません。時には1つ、時には多くのものがあります...

現在のところ、inputフォルダYAMLやCSVファイルとして保存することができます。これをユーザーに公開したいと考えています。主にPythonからアクセスできますが、Javascriptからもアクセスでき、静的なWebサイトからアクセスできます。

質問には、データに使用するフォーマットと構成があります。また、outputファイルをリンクされたデータセットとして生成するのに役立つPythonパッケージがあれば、PythonやJavascriptパッケージ私たちはそれにアクセスしますか?

データの複数の「ビュー」または簡単な「クエリ」を取得したいとします。 「すべての文献のリスト」、「すべての論文のリスト」、「ソースXのすべてのスペクトルのリスト」、「ソースCのB紙からのスペクトルA」。

フォーマットでは、おそらくJSONが良い選択でしょうか? YAMLは読むのが少し面白いですが、コメントや順序付けされたマップを持つことは可能です。私たちはgit repoに出力ファイルを保存しています。キーオーダーが常に変化するため、JSONファイルには無意味なdiffがたくさんありました。

データセットを検出してリンクするために、私は何を使うべきか分かりません。私は見つけました。 http://jsonapi.org/しかし、これはREST APIのためであり、静的Webサーバー上の単なる一連のフラットJSONファイルではないようですね。多分それはまだその方法で使用することができますか? 私もhttp://json-ld.org/と思われますが、かなり複雑です。それらのどちらか、あるいは他の何かが良い選択だろうか?

最後に、outputにリンクされた、発見可能なファイルを生成するには、Pythonスクリプトを使用して、inputのやや組織化されたYAMLファイルとCSVファイルを作成します。今までは、Pythonのdicts/listsとYAML/JSONファイルに基づいた一連のPythonクラスまたはスクリプトを書きました。リンクされたデータファイルを生成するタスクに役立つPythonパッケージはありますか?

長く複雑な質問のお詫び!私はそれがまだSOの範囲内にあり、誰かが分かち合うためのアドバイスを持っていることを願っています。

+0

ここでは複数の質問をしましたが、どれもその範囲にはありません。 – jonrsharpe

+0

@jonsharpe - 謝罪!その質問のどこに質問すればいいのか、別のフォーラムがありますか?質問は長いですが、IMOにはほんの数行だけで答えることができ、似たようなことをした他のプロジェクトを指し、どのフォーマット/ツールが使用されているかを言及することができます。それは私にとって非常に役に立ちます。 – Christoph

+0

SEネットワークではなく、私が知っている限り、おそらくフォーラムがより良い賭けになるでしょう。そのような "リストの質問"は、SOにはあまり適していません。 – jonrsharpe

答えて

0

あなたの質問の幅から判断すると、あなたはリンクされたデータが初めてです。最も奇妙なフォーマットはData Packageです。最も一般的なケースでは、CSVファイルとJSONメタデータのzipアーカイブです。それはPython packageを持っています。

データへのクエリがある場合は、SPARQLエンドポイントを持つデータベース(トリプルストア)を設定する必要があります。 Fusekiを見てください。その後、ファイルのエクスポートにTurtleまたはRDF/XMLを使用できます。

データがある種のツールに由来する場合は、Eclipse Lyo(tutorial)を使用して表すドメインをモデル化できます。

これらのツールは3つの異なるコミュニティによって管理されています。詳細について質問がある場合は、ユーザーのメーリングリストに個別に連絡することができます。

+0

>あなたの質問の幅から判断すると、あなたはリンクされたデータが初めてです。 はい。答えをありがとう!私は来る日にそれをチェックします。 – Christoph

+0

多くの相互リンクされたファイルを持つ "データパッケージ"の例はありますか?リンク(「パス」)は常に中央の「datapackage.json」から各ファイルに移動するのですか、または異なるファイルから他のファイルへのリンクが存在する可能性がありますか? – Christoph

+0

現在、データパッケージ内の複数のファイルは同じ形と形式でなければなりません:http://specs.frictionlessdata.io/data-packages/#data-in-multiple-files – berezovskyi

関連する問題