私は以下の機能を備えたアプリケーションを構築するための解決策を探しています:は、このシナリオではPythonとHadoopのどちらが良い選択ですか?
いくつかの小さなものに関連している可能性があり、テーブル内の行の-potentially-何百万ものデータベースの化合物。など
高速単一のクエリ、「テーブル* FROMをSELECT WHERE%値LIKEフィールド」これは、Linuxサーバー上で実行されます
:シングルノードが、将来的にはおそらく複数のノード。
PythonとHadoopをお勧めしますか?
Pythonで書かれた簡単な例を見て、私の片目で概念証明を見て決定を下すために、Hadoopに情報を追加/取得する方法はありますか?
ありがとうございます!
これはあまりにも広い質問ですが、その音によって、Hadoopは過剰なようです。 SQLをサポートする従来のメモリ内フレームワーク(例えば、WebアプリケーションのDjango、データ解析のためのPandasなど)は、それ以上の速さでなければなりません。 – jdehesa
ハーフープと言ったら、HDFSですか? もしそうなら、あなたはApache Parquetを見たいでしょう。 "Apache Parquetは、データ処理フレームワーク、データモデル、またはプログラミング言語の選択にかかわらず、Hadoopエコシステムのどのプロジェクトでも利用可能な円柱型のストレージ形式です。 https://parquet.apache.org/ –
質問には幅がありますが、幸いにもひどい答えがあることに同意するので、私はそれを閉じる必要はないと思います。 –