2011-03-10 12 views
1

Hadoopが新しくなった。私はそれについてほとんど知っていない。 私の場合は次のとおりです: 同じスキーマを持つxmlファイル(700GB +)のセットがあります。HadoopでXMLファイルを処理する

<article> 
<title>some title</title> 
<abstract>some abstract</abstract> 
<year>2000</year> 
<id>E123456</id> 
<authors> 
    <author id="1"> 
    <firstName>some name1</firstName> 
    <lastName>some name1</lastName> 
    <email>[email protected]</email> 
    <affiliations affid="123"> 
    <org>some organization1</org> 
    <org>some organization2</org> 
    </affiliations> 
    </author> 
    <author id="2"> 
    <firstName>some name2</firstName> 
    <lastName>some name2</lastName> 
    <email>[email protected]</email> 
    <affiliations affid="123"> 
    <org>some organization1</org> 
    <org>some organization2</org> 
    </affiliations> 
    </author> 
    <tags> 
    <tag>medicin</tag> 
    <tag>inheritance</tag> 
    </tags> 
</authors> 
<references> 
    <reference>some reference text1</reference> 
    <reference>some reference text2</reference> 
</references> 
</article> 

私は

  • 記事
  • 著者
  • タグ
  • 私が持っている参考文献

次のテーブルを含むリレーショナルデータベースにXMLファイル内のデータを変換しますその上で動作する一連のツール統計レポートのリストを作成し、他のスタッフを雇うためのテーブル。 Referencesテーブルでフルテキスト検索を使用するツールのため、Lucene Solrインデックスに格納しました。

私の質問は:(著者、記事、タグ及び上記のエンティティ間の分離のいくつかの種類を作るxmlファイル

  • にあるデータを格納する

    1. : は、私はHadoopのを使用することができます参考文献)
    2. データに対して非常に複雑なクエリを実行するツールを実行していて、それがhadoopを使用して実行できるのであれば、それは良いパフォーマンスになりますか?

    Hadoopのは、ケースのための良い候補でない場合は、リレーショナルシステムとの私の大きな問題は、私は複雑なアルゴリズムと非常に悪いパフォーマンスですので、(よりよい解決策のMongoDBやカサンドラのような他のNoSQLデータベースになります私の仕事をするために使うこと)?

    ありがとうございます。

  • +0

    これは、データをどのような種類のクエリで実行しようとしているのかについてより具体的な詳細がなければ、ほとんど答えられません。 – bajafresh4life

    +0

    bajafresh4lifeと完全に同意し、理解しにくい問合せのタイプを知らなくてもmapreduce(hadoop)に変換できるかどうかはわかりません。 他の点は、hadoopがnosqlデータベースではないことです。 Hadoopは、ファイルシステム+それを処理するためのfreemeworkです。これは、hadoopと密接に関連しており、nosql DBであるHbaseです。 – yura

    答えて

    0

    Google、Yahoo、Bingなどとよく似た音が、マークアップの形式で文書をウェブで吸い上げて保存し、関連情報を抽出して処理し、クエリインターフェイスを提供するその上に。これらの検索エンジンでMapReduceBigTableの実装(HBaseCassandraなど)を利用する方法を調べることをお勧めします。

    関連する問題