Spark 2.0複数のデータフレームでS3のメタデータのロードがハングする

現在、spark 1.6からのspark 2.0のアップグレードを評価中ですが、この変換を妨げる非常に奇妙なバグがあります。Spark 2.0複数のデータフレームでS3のメタデータのロードがハングする

私たちの要件の1つは、S3から複数のデータポイントを読み込み、一緒に結合することです。 50個のデータセットをロードするときに問題はありません。しかし、51番目のデータセットでは、すべてがメタデータを探しています。断続的ではなく、これは一貫して起こります。

データ形式はavroコンテナで、私たちはspark-avro 3.0.0を使用しています。

これには何か答えがありますか？

これはソケットタイムアウトissueとは関係ありません。すべてのソケットスレッドはブロックされません。

<<main thread dump>> 
java.lang.Thread.sleep(Native Method) 
com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.http.AmazonHttpClient.doPauseBeforeRetry(AmazonHttpClient.java:1475) 
com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.http.AmazonHttpClient.pauseBeforeRetry(AmazonHttpClient.java:1439) 
com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.http.AmazonHttpClient.executeOneRequest(AmazonHttpClient.java:794) 
com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.http.AmazonHttpClient.executeHelper(AmazonHttpClient.java:607) 
com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.http.AmazonHttpClient.doExecute(AmazonHttpClient.java:376) 
com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.http.AmazonHttpClient.executeWithTimer(AmazonHttpClient.java:338) 
com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.http.AmazonHttpClient.execute(AmazonHttpClient.java:287) 
com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.AmazonS3Client.invoke(AmazonS3Client.java:3826) 
com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:1015) 
com.amazon.ws.emr.hadoop.fs.shaded.com.amazonaws.services.s3.AmazonS3Client.getObjectMetadata(AmazonS3Client.java:991) 
com.amazon.ws.emr.hadoop.fs.s3n.Jets3tNativeFileSystemStore.retrieveMetadata(Jets3tNativeFileSystemStore.java:212) 
sun.reflect.GeneratedMethodAccessor19.invoke(Unknown Source) 
sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
java.lang.reflect.Method.invoke(Method.java:498) 
org.apache.hadoop.io.retry.RetryInvocationHandler.invokeMethod(RetryInvocationHandler.java:191) 
org.apache.hadoop.io.retry.RetryInvocationHandler.invoke(RetryInvocationHandler.java:102) 
com.sun.proxy.$Proxy36.retrieveMetadata(Unknown Source) 
com.amazon.ws.emr.hadoop.fs.s3n.S3NativeFileSystem.getFileStatus(S3NativeFileSystem.java:780) 
org.apache.hadoop.fs.FileSystem.exists(FileSystem.java:1428) 
com.amazon.ws.emr.hadoop.fs.EmrFileSystem.exists(EmrFileSystem.java:313) 
org.apache.spark.sql.execution.datasources.DataSource.hasMetadata(DataSource.scala:289) 
org.apache.spark.sql.execution.datasources.DataSource.resolveRelation(DataSource.scala:324) 
org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:149) 
org.apache.spark.sql.DataFrameReader.load(DataFrameReader.scala:132)

出典

2016-08-09 codingtwinky

アブロ・スパークが接続を解放しないことにより、接続プールを使い果たしているようです。

https://github.com/databricks/spark-avro/issues/156

出典

2016-08-18 17:07:53 codingtwinky

Spark 2.0複数のデータフレームでS3のメタデータのロードがハングする

答えて

関連する問題