私はハープ、マシン学習とスパークを学んでいます。私はCloudera 5.7クイックスタートVMをダウンロードしました。また、https://github.com/apache/sparkの例をzipファイルとしてダウンロードし、Cloudera VMにコピーしました。私は機械学習を実行するチャレンジを持っており、例はhttps://github.com/apache/sparkです。私は単純な単語数の例を実行しようとしましたが失敗しました。以下は私の手順があり、エラーが私はCloudera VM 5.7でのスパークの例と
[[email protected]] CD /火花マスター/例/ srcに/メイン/パイソン/ mlの [[email protected]]スパーク提出word2vec_example.py
を取得します実行しようとしているすべての例は、以下のエラーで失敗します。
トレースバック(最新の呼び出しの最後):pyspark.sqlから で ファイル "/home/cloudera/training/spark-master/examples/src/main/python/ml/word2vec_example.py"、23行目、 import SparkSession
私はファイルpyspark.sqlを検索しましたが、下のファイルしか見つかりませんでした。 cd/spark-master find。
./python/docs/pyspark.sql.rst -name pyspark.sql 私は私の機械学習とビッグデータを高速化するために、この例を実行できるように、私はこれらのエラーを解決する方法について助言してください。 spark = SparkSession\
SparkSessionがスパーク2.0で新しく追加され、そしてスパーク1.6とClouderaの唯一発送します
例を数える単語のためのコードは
猫word2vec_example.py
#
# Licensed to the Apache Software Foundation (ASF) under one or more
# contributor license agreements. See the NOTICE file distributed with
# this work for additional information regarding copyright ownership.
# The ASF licenses this file to You under the Apache License, Version 2.0
# (the "License"); you may not use this file except in compliance with
# the License. You may obtain a copy of the License at
#
# http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.
#
from __future__ import print_function
# $example on$
from pyspark.ml.feature import Word2Vec
# $example off$
from pyspark.sql import SparkSession
if __name__ == "__main__":
spark = SparkSession\
.builder\
.appName("Word2VecExample")\
.getOrCreate()
# $example on$
# Input data: Each row is a bag of words from a sentence or document.
documentDF = spark.createDataFrame([
("Hi I heard about Spark".split(" "),),
("I wish Java could use case classes".split(" "),),
("Logistic regression models are neat".split(" "),)
], ["text"])
# Learn a mapping from words to Vectors.
word2Vec = Word2Vec(vectorSize=3, minCount=0, inputCol="text", outputCol="result")
model = word2Vec.fit(documentDF)
result = model.transform(documentDF)
for feature in result.select("result").take(3):
print(feature)
# $example off$
spark.stop()