udf

    5

    1答えて

    spudの構造体をudfに渡そうとしています。フィールド名を変更し、列の位置に名前を変更しています。どうすれば修正できますか? object TestCSV { def main(args: Array[String]) { val conf = new SparkConf().setAppName("localTest").setMaster("local")

    -1

    1答えて

    こんにちは皆、私は選択するための多くのフィルタを持つレストランの高度な検索を作成しようとしています。そのうちの1人は自宅とレストランの間の距離になるでしょう。だから私はそれが2つの緯度と2つの経度を取得し、距離がフィルタよりも小さいかどうかをチェックするSQLで関数を使用したいと思います。 私はここには Calculating distance between two points (Latitu

    0

    1答えて

    私のテーブルはほとんどダブルタイプのカラムといくつかのストリングカラムを持っています。私は、行形式serde を使ってテーブルを作成しました。 私はまずnamed_struct関数を使ってこれらの列を結合し、それを私のudfに渡します。このようなもの。 select id, my_udf(named_struct("key1", col1, "key2", col2, "key3",col3, "

    0

    2答えて

    レコードの差をグループで計算しようとしていますが、グループごとに行番号も含めようとしています。これは、ウィンドウ関数を使ってHIVEのラグ関数と行番号関数を使って行うことができます。 PIGとPythonのUDFを使ってこれを再現しようとしています。 次の例では、新しい月(新しいレコード)の各名前とインクリメントに対して1から始まる行番号が必要です。また、それぞれの名前の前月との差額が必要です。

    2

    1答えて

    私はユーザー定義のケースクラスから(キー、値)ペアのマップを抽出するためにスパークUDFを作成しようとしています。 scala関数は正常に動作しているようですが、spark2.0のUDFに変換しようとすると、「Any型のスキーマはサポートされていません」というエラーが発生しています。 case class myType(c1: String, c2: Int) def getCaseClassP

    0

    1答えて

    私はデータフレームと一緒に関数の引数として渡すに沿ってみたいいくつかのUDFを持っているではありません。これを行うには 一つの方法は、関数内でUDFを作成するかもしれないが、それは、この問題にアプローチする最良の方法ではないかもしれないそれを再利用せずにUDFの複数のインスタンスを作成し、破壊するであろう。ここで コードのサンプル片です - val lkpUDF = udf{(i: Int) =>

    -1

    1答えて

    私は下のサンプル入力ファイルのPIG UDFを書き込もうとしており、期待される出力も指定しています。同じようにudfテンプレートで私を助けてください、またはUDFなしでそれを行う方法があるかどうか教えてください。 私のサンプル入力: 2014-01-23T08:12:09.259443 Device Type make year -- ------------ -

    2

    1答えて

    私は寄木張りファイルを持つデータフレームを持っているので、いくつかのランダムなデータで新しい列を追加する必要があります。これは私の実際のコードで、スパークの現在のバージョンは1.5.1-CDH-5.5.2です: scala> myNewDF.select("myNewColumn").show(10,false) +-----------+ |myNewColumn| +----------

    0

    1答えて

    にはどうすればspark`sよりタイプセーフScalaのデータフレームAPIを介してhttp://www.geomesa.org/documentation/user/spark/sparksql.html からから撮影 sparkSession.sql("select * from chicago where st_contains(st_makeBBOX(0.0, 0.0, 90.0, 90.

    1

    1答えて

    ハイブクエリ - select ...MYUDF(collect_set(col1))..from tableN ここでcol1のString型です。この渡されたcollect_setのデータに対して特定のロジックを実行したい。 ユーザー定義関数については、クラスUDFを拡張し、評価メソッドを使用しています。配列がハイブから渡されているので、の評価方法の署名が必要です。私はUDFから文字列配列