0
Apache Sparkで_
で始まるs3のgzファイルにアクセスしようとしています。残念なことに、これらのファイルは表示されず、Input path does not exist: s3n:.../_1013.gz
を返します。アンダースコアを削除すると、ファイルが正常に見つかります。apache sparkでアンダースコアで始まるファイルにアクセスする
私はhadoopConfigにカスタムPathFilter追加してみました:
package CustomReader
import org.apache.hadoop.fs.{Path, PathFilter}
class GFilterZip extends PathFilter {
override def accept(path: Path): Boolean = {
true
}
}
// in spark settings
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])
を私はまだ同じ問題を抱えています。何か案は?
システム:Apache Spark 1.6.0 with Hadoop 2.3
はあなたに感謝。それは私が恐れていたことです... – elmalto