使用PySpark SQL将具有相同值但不同名称的两个列合并。

Question

我有两个具有以下结构的表：

表1：

lang   created_date
java    11-01-23
python  11-11-23

表2：

lang   ingested_date
scala   11-21-23

我想创建一个组合后的表，期望结果如下：

表3：

lang   created_date
java    11-01-23
python  11-11-23
scala   11-21-23

实际结果：

lang   created_date
java    11-01-23
python  11-11-23
scala   11-21-23
scala   null

我正在使用以下Python PySpark代码，但它在合并两个表时给我添加了一行带有null值的结果。

table1DF = sparkSession.read.table("Table1")
table2DF = sparkSession.read.table("Table2")

table1 = table1DF.select("lang", "created_date")
table2 = table2DF.select("lang", F.col("ingested_date").alias("created_date"))

merged_table = table1.union(table2)
final_table = merged_table.groupBy("lang", "created_date")

如何在我通过union合并两个表的数据时避免得到最后一行其中一个列值为null的结果？

venkatachalam · Answer

你可以使用coalesce函数从两列中选择非null值。

from pyspark.sql.functions import coalesce

table1DF = sparkSession.read.table("Table1")
table2DF = sparkSession.read.table("Table2")

table1 = table1DF.select("lang", "created_date")
table2 = table2DF.select("lang", "ingested_date").alias("created_date")

merged_table = table1.union(table2)
#如果你确实需要groupBy操作（例如，根据语言分组并取每个语言的最早创建日期）：
final_table = merged_table.groupBy("lang").agg(coalesce("created_date", "ingested_date").alias("created_date"))

David G · Answer

这段代码是关于“union”函数的测试，它并不关心列名，而是在乎列的数量和类型，并将数据逐行堆叠在一起。如果出现结果中包含('scala', NULL)这样的行，这很奇怪，因为我测试过这种情况，在table2中没有该行的情况下运行正常。

以下是具体步骤：

首先，使用pyspark创建一个SparkSession并定义两个样本数据集的模式（schema）。其中，数据集1包含两列：语言（lang）和创建日期(created_date)，数据集2包含两列：语言(lang)和摄入日期(ingested_date)。虽然两列的名称不同，但列的数量和类型相同。

接下来，分别基于给定的模式创建两个DataFrame（df和df2），并对它们执行union操作，生成一个新的DataFrame（result）。即使在table1中的第二列名为created_date，而在table2中的对应列名为ingested_date，由于union函数仅关注列的数量和类型匹配，所以能够正确地堆叠数据。

针对原始问题，若在执行union操作后仍存在无用的额外行，可以通过添加.dropna()方法移除含有NULL值的行，如以下所示：

merged_table = table1.union(table2).dropna()

保持好奇和开放讨论的态度，希望这对您有所帮助！