AFAK、Hadoop Streamingはテキスト入力のみをサポートします。つまり、データは行単位で整理されます。 C++で書かれた同じマッパープログラムで、異なるバージョンのログ行をサポートしている場合、下位互換性が必要な場合は、マッパーコードが乱雑になります。Hadoop Streamingの下位互換性
私はavroまたはprotobufを使用していましたが、ストリーミングモードではサポートされていないようですが、それは本当ですか?
その他の解決策はありますか?
AFAK、Hadoop Streamingはテキスト入力のみをサポートします。つまり、データは行単位で整理されます。 C++で書かれた同じマッパープログラムで、異なるバージョンのログ行をサポートしている場合、下位互換性が必要な場合は、マッパーコードが乱雑になります。Hadoop Streamingの下位互換性
私はavroまたはprotobufを使用していましたが、ストリーミングモードではサポートされていないようですが、それは本当ですか?
その他の解決策はありますか?
ちょうど情報として、hadoopストリーミングはバイナリ入出力をサポートしています。
-io rawbytesオプションを探します。
私はSequenceFileを使用することができたプロトタイプを作成しました(これはずっと前です)。
アイデアを放棄したのは、ストリームからJava Hadoop * Writablesを非直列化しなければならなかったからです。 C#BinaryReader はリトルエンディアンエンコーディングを使用し、Javaはビッグエンディアンを使用します。だから、マッパはもっと複雑になっていたはずです。
とにかく可能です。