apache sparkでアンダースコアで始まるファイルにアクセスする

Apache Sparkで_で始まるs3のgzファイルにアクセスしようとしています。残念なことに、これらのファイルは表示されず、Input path does not exist: s3n:.../_1013.gzを返します。アンダースコアを削除すると、ファイルが正常に見つかります。apache sparkでアンダースコアで始まるファイルにアクセスする

私はhadoopConfigにカスタムPathFilter追加してみました：

package CustomReader 

import org.apache.hadoop.fs.{Path, PathFilter} 

class GFilterZip extends PathFilter { 
    override def accept(path: Path): Boolean = { 
    true 
    } 
} 
// in spark settings 
sc.hadoopConfiguration.setClass("mapreduce.input.pathFilter.class", classOf[CustomReader.GFilterZip], classOf[org.apache.hadoop.fs.PathFilter])

を私はまだ同じ問題を抱えています。何か案は？

システム：Apache Spark 1.6.0 with Hadoop 2.3

出典

2016-07-11 elmalto

ファイルは_とで始まっています。隠しファイルです。

そして、hiddenFileFilterは常に適用されます。それは、この方法org.apache.hadoop.mapred.FileInputFormat.listStatus

の内側に追加され、この答えをチェックし、which files ignored as input by mapper?

出典

2016-07-12 00:09:53

はあなたに感謝。それは私が恐れていたことです... – elmalto

apache sparkでアンダースコアで始まるファイルにアクセスする

答えて

関連する問題