ORCファイル形式のためのApache Solrのサポート

私はHiveにテーブルを束ね、ORCとして格納しています。 SolrCloudコレクションでデータのインデックスを作成したいと考えています。ORCファイル形式のためのApache Solrのサポート

SolrでORCフォーマットで格納されたデータの索引付けはサポートされていますか？私は周りにグーグルで行ったが、何も出て来なかった。

2017-02-20 sergionsk8

SolRは、特定のハイブファイル形式からデータを読み取るように見えます。

あなたはSolrのにデータを書き込むことハイブを使っすなわち問題で、他の方法を見えるかもしれません - したがって、ハイブは、ORC、寄木張り、AVRO、かどうか（実際の入力ファイル形式の複雑さの世話をしましょう何でも - HBaseデータファイルでさえ）。

LucidWorks GitHub repoには、ハイブソルラーという名前のプロジェクトがあります。見てみましょう。

出典

2017-02-20 18:27:51

サムがおかげさまで、私の必要としているのは別の視点です。 – sergionsk8

私はサムソンの答えを受け入れるでしょう。

とにかく、私はこの解決策について十分に満足していません。実際、今でも元のテーブルのすべてのフィールドを手動で宣言する外部テーブルを作成する必要があります。操作上、元のテーブルから新しいテーブル（格納された広告テキストファイル）を作成し、新しいテキストファイルを索引付けして最終的に削除します（もちろん、これは非常に大きなテーブルでは問題になる可能性があります）。私の場合ではない）。

自己記述形式のORCであるため、Solrは圧縮ファイルからフィールド名とデータの両方を直接読み取ることができます。

出典

2017-02-21 20:25:19 sergionsk8

さて、ORCプロジェクトは、 "core java" APIを出荷するようになりました（V1.1から2016年6月）_ => cf. https://orc.apache.org/docs/core-java.htmlおよびJavaDoc https://orc.apache.org/api/orc-core/index.html?org/apache/orc/Readerにアクセスしてください。 html => DIY開発を少し試してみてください。 –

ORCファイル形式のためのApache Solrのサポート

答えて

関連する問題