0
私は、SparkのAPIHadoopRDD関数を使用しようとしていますが、コンストラクタにファイルの名前を取る引数がないことがわかります。では、この場合のファイル名の設定方法は?NewHadoopRDDを使用するときにファイル名を与える方法は?
私は、SparkのAPIHadoopRDD関数を使用しようとしていますが、コンストラクタにファイルの名前を取る引数がないことがわかります。では、この場合のファイル名の設定方法は?NewHadoopRDDを使用するときにファイル名を与える方法は?
これはorg.apache.hadoop.conf.Configuration
を使用して構成され、詳細は使用するInputFormat
に依存します。例えば、TextInputFormat
はmapred.input.dir
を使用します。
一般に、ファイルベースのソースを使用する場合は、newAPIHadoopFile
を使用します。
基本的に、ディレクトリ内のファイル(my_input_dir)を設定してからval c = new Configuration(sc.hadoopConfiguration)を設定します。 c.set( "mapred.input.dir"、 "my_input_dir"); – pythonic