文字列フィールドを含むPyspark DataFrame
を検索し、それぞれに表示されるキーワード文字列を決定したいと考えています。他の2つのエントリを比較して新しいPySpark DataFrameを生成するには?
+-----------+----------+
| city| state|
+-----------+----------+
| Seattle|Washington|
|Los Angeles|California|
+-----------+----------+
DataFrame
この中で私が検索したい:私はタイプのキーワードがで表示されますを識別する新しいDataFrame
を作成したい
+----------------------------------------+------+
|body |source|
+----------------------------------------+------+
|Seattle is in Washington. |a |
|Los Angeles is in California |b |
|Banana is a fruit |c |
|Seattle is not in New Hampshire |d |
|California is home to Los Angeles |e |
|Seattle, California is not a real place.|f |
+----------------------------------------+------+
私は、キーワードのDataFrame
を以下持っていると言います各ソース。したがって、最終結果は
+-----------+------+-----+
|name |source|type |
+-----------+------+-----+
|Seattle |a |city |
|Washington |a |state|
|Los Angeles|b |city |
|California |b |state|
|Seattle |d |city |
|Los Angeles|e |city |
|California |e |state|
|Seattle |f |city |
|California |f |state|
+-----------+------+-----+
となります。この結果はどのように取得できますか? join
を使用してこれらのキーワードを含む文字列を隔離することはできますが、どの特定のキーワードが一致したかをトラッキングしてその情報を使用して新しい列を作成する方法はわかりません。