2017-02-20 12 views
0

私はHiveにテーブルを束ね、ORCとして格納しています。 SolrCloudコレクションでデータのインデックスを作成したいと考えています。ORCファイル形式のためのApache Solrのサポート

SolrでORCフォーマットで格納されたデータの索引付けはサポートされていますか? 私は周りにグーグルで行ったが、何も出て来なかった。

答えて

1

SolRは、特定のハイブファイル形式からデータを読み取るように見えます。

あなたはSolrのにデータを書き込むことハイブを使っすなわち問題で、他の方法を見えるかもしれません - したがって、ハイブは、ORC、寄木張り、AVRO、かどうか(実際の入力ファイル形式の複雑さの世話をしましょう何でも - HBaseデータファイルでさえ)。

LucidWorks GitHub repoには、ハイブソルラーという名前のプロジェクトがあります。見てみましょう。

+0

サムがおかげさまで、私の必要としているのは別の視点です。 – sergionsk8

0

私はサムソンの答えを受け入れるでしょう。

とにかく、私はこの解決策について十分に満足していません。実際、今でも元のテーブルのすべてのフィールドを手動で宣言する外部テーブルを作成する必要があります。操作上、元のテーブルから新しいテーブル(格納された広告テキストファイル)を作成し、新しいテキストファイルを索引付けして最終的に削除します(もちろん、これは非常に大きなテーブルでは問題になる可能性があります)。私の場合ではない)。

自己記述形式のORCであるため、Solrは圧縮ファイルからフィールド名とデータの両方を直接読み取ることができます。

+0

さて、ORCプロジェクトは、 "core java" APIを出荷するようになりました(V1.1から2016年6月)_ => cf. https://orc.apache.org/docs/core-java.htmlおよびJavaDoc https://orc.apache.org/api/orc-core/index.html?org/apache/orc/Readerにアクセスしてください。 html => DIY開発を少し試してみてください。 –

関連する問題