我有两个具有以下结构的表:
表1:
lang created_date
java 11-01-23
python 11-11-23
表2:
lang ingested_date
scala 11-21-23
我想创建一个组合后的表,期望结果如下:
表3:
lang created_date
java 11-01-23
python 11-11-23
scala 11-21-23
实际结果:
lang created_date
java 11-01-23
python 11-11-23
scala 11-21-23
scala null
我正在使用以下Python PySpark代码,但它在合并两个表时给我添加了一行带有null值的结果。
table1DF = sparkSession.read.table("Table1")
table2DF = sparkSession.read.table("Table2")
table1 = table1DF.select("lang", "created_date")
table2 = table2DF.select("lang", F.col("ingested_date").alias("created_date"))
merged_table = table1.union(table2)
final_table = merged_table.groupBy("lang", "created_date")
如何在我通过union合并两个表的数据时避免得到最后一行其中一个列值为null的结果?