sparkでNLTKを使用して自然言語処理に取り組んでいます。どこで実装しようとしました3.1ウェブとディスクからのテキストへのアクセスの部分はhttp://www.nltk.org/book/ch03.htmlです。このためには、自然言語処理の方法(https://docs.continuum.io/anaconda-cluster/howto/spark-nltk)に従ってください。 text.concordance( 'gene')メソッドを実装しようとしましたが、結果[None、None、None、None、None]で終了しました。ここに私の完全なコードです。どんな助けでも大歓迎です。nltkのText.concordance()は、分散メソッドとしてpysparkに利用可能です
from pyspark import SparkConf
from pyspark import SparkContext
conf = SparkConf()
conf.setMaster('yarn-client')
conf.setAppName('spark-nltk')
sc = SparkContext(conf=conf)
data = sc.textFile('/user/test/2554.txt')
def word_tokenize(x):
import nltk
return nltk.word_tokenize(x)
def pos_tag(x):
import nltk
return nltk.pos_tag([x])
words = data.flatMap(word_tokenize)
print words.take(10)
from nltk.text import Text
text = words.map(lambda x : Text(x).concordance('gene'))
print text.take(5)
pos_word = words.map(pos_tag)
print pos_word.take(5)
回答が解決しました@rmalouf –
素晴らしい!あなたは答えを受け入れることができるので、質問は開いたままにしておきますか? – rmalouf