2017-03-29 6 views
0

私はスタンフォードCoreNLPを使用して中国語コーパスのPOSタグ付けを行っています。 これをSparkで使用したいのですが、このエラーが発生します。Stanford CoreNLP using Chinese on Sparkエラー:Unknown language UniversalChinese

java.io.IOException: java.lang.RuntimeException: Unknown language UniversalChinese 
at org.apache.spark.util.Utils$.tryOrIOException(Utils.scala:1163) 
at org.apache.spark.rdd.ParallelCollectionPartition.readObject(ParallelCollectionRDD.scala:70) 
at sun.reflect.NativeMethodAccessorImpl.invoke0(Native Method) 
at sun.reflect.NativeMethodAccessorImpl.invoke(NativeMethodAccessorImpl.java:62) 
at sun.reflect.DelegatingMethodAccessorImpl.invoke(DelegatingMethodAccessorImpl.java:43) 
at java.lang.reflect.Method.invoke(Method.java:498) 
at java.io.ObjectStreamClass.invokeReadObject(ObjectStreamClass.java:1058) 
at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1909) 
at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1808) 
at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1353) 
at java.io.ObjectInputStream.defaultReadFields(ObjectInputStream.java:2018) 
at java.io.ObjectInputStream.readSerialData(ObjectInputStream.java:1942) 
at java.io.ObjectInputStream.readOrdinaryObject(ObjectInputStream.java:1808) 
at java.io.ObjectInputStream.readObject0(ObjectInputStream.java:1353) 
at java.io.ObjectInputStream.readObject(ObjectInputStream.java:373) 
at org.apache.spark.serializer.JavaDeserializationStream.readObject(JavaSerializer.scala:72) 
at org.apache.spark.serializer.JavaSerializerInstance.deserialize(JavaSerializer.scala:98) 
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:194) 
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1142) 
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:617) 
at java.lang.Thread.run(Thread.java:745) 

答えて

0

スタンフォードCoreNLPの呼び出し方法の詳細を教えてください。

私の最初の推測は、使用しているコードジャーとモデルの間に不一致があることです。あなたはコードとモデルのためにどんな瓶を使用していますか?

あなたが使用しているコードをいくつか例を挙げて説明できればそれは問題ではないが、私はそれをもっと詳しく見ることができる。スタンフォードCoreNLPの標準Sparkを使用していますか?

これはhttps://github.com/databricks/spark-corenlp

+0

ありがとうございます! 私は火花NLPを使用していない、しかし、私はこの問題は、私が '一覧文= annotation.get(CoreAnnotations.SentencesAnnotation.class)を使用しようということだと思います;' はJavaSparkContext.parallelizeを(使用してJAVARDDに結合する) 今私は文章を自分で分割しています。 – Francis

関連する問題