将包含字典列表的DataFrame转换为DataFrame

Question

我正在尝试获取输出DataFrame，但无法决定如何解包数据并将其转换为DataFrame。

输入DataFrame：

[
    {'city': None, 'last_time': 1234567},
    [],
    {'city': 'Seattle', 'last_time': 45678999876}
]

期望输出：

city        last_time
None        1234567
NA          NA
Seattle    45678999876

尝试的代码：

data = pd.DataFrame(Data)
data = pd.DataFrame(data["stats"])

对于这个问题，您可以采用以下方法来处理：

import pandas as pd
import numpy as np

# 假设您的原始数据是列表形式
input_data = [
    {'city': None, 'last_time': 1234567},
    [],
    {'city': 'Seattle', 'last_time': 45678999876}
]

# 处理空列表，用None替换
output_data = [d if isinstance(d, dict) else {'city': np.nan, 'last_time': np.nan} for d in input_data]

# 创建DataFrame
output_df = pd.DataFrame(output_data)

# 将缺失值转换为'NA'（如果需要显示为字符串）
output_df.replace(np.nan, 'NA', inplace=True)

print(output_df)

这段代码首先确保所有元素都是字典类型（如果不是，则用包含NaN值的新字典替换），然后将处理过的数据转换为DataFrame。最后，它还将所有的NaN值替换为字符串'NA'。

Christoph · Answer

尝试按照如下方式操作：

import pandas as pd

# 定义输入数据
data = {
    "stats": [
        [{'city': None, 'last_time': 1234567}],
        [],
        [{'city': 'Seattle', 'last_time': 45678999876}]
    ]
}

# 将原始数据转换成DataFrame
df = pd.DataFrame(data)

# 初始化一个用于存储处理后数据的列表
output_data = []

# 遍历DataFrame中'stats'列的每一项
for row in df['stats']:
    # 如果当前行为空列表，则添加一个城市和时间均为'NA'的字典
    if not row:
        output_data.append({'city': 'NA', 'last_time': 'NA'})
    # 否则，从字典中提取城市名和时间，并添加到输出列表中
    else:
        output_data.append({'city': row[0]['city'], 'last_time': row[0]['last_time']})

# 将处理后的数据转换成DataFrame
output_df = pd.DataFrame(output_data)

# 输出最终结果
print(output_df)

运行上述代码后，得到的输出结果为：

      city    last_time
0     None      1234567
1       NA           NA
2  Seattle  45678999876

Gumbo · Answer

您指出的问题是因为NaN（非数字值）的存在导致了处理失败。以下是两种可能使用pd.Series.str和pd.Series方法修复问题的方法：

第一种方法：

out = df["stats"].str[0].apply(pd.Series).drop(0, axis=1)

该方法首先通过.str[0]访问列表中的第一个元素（即字典），然后应用pd.Series将字典转换为新的DataFrame列。最后，使用drop(0, axis=1)移除可能出现的不需要的索引列。

第二种方法：

stats = df["stats"].str[0]
templ = dict.fromkeys(["city", "last_time"], np.nan)  # 更正：这里应填充np.nan而非直接写入'None'

out = stats.where(stats.notnull(), templ).apply(pd.Series)

这种方法同样先获取“stats”列中的第一个元素，之后创建一个模板字典templ，其中键为"city"和"last_time"，值默认为np.nan。接着，使用where函数将stats中非空的部分保留下来，否则用templ中的np.nan填充。最后将结果应用pd.Series转换为DataFrame。

实际输出如下所示：

      city      last_time
0      NaN     1234567.00
1     None            NaN
2  Seattle 45678999876.00

使用的输入数据为：

df = pd.DataFrame(
    {
        "stats": [
            [{"city": None, "last_time": 1234567}],
            [],
            [{"city": "Seattle", "last_time": 45678999876}]
        ]
    }
)

Rory McCrossan · Answer

如果你寻求的答案是这样的：

输入的数据框

df = pd.DataFrame(columns=['stats'],
                  data=[[{'city': None, 'last_time': 1234567}],
                          [],
                          [{'city': 'Seattle', 'last_time': 45678999876}]])
df

输出：

                                           stats
0           {'city': None, 'last_time': 1234567}
1                                           None
2  {'city': 'Seattle', 'last_time': 45678999876}

输出的数据框
将字典拆分为列，每个键对应一列：

df['stats'].apply(pd.Series)

      city     last_time
0      NaN  1.234567e+06
1      NaN           NaN
2  Seattle  4.567900e+10

根据给出的信息，这其实与Stack Overflow上的一个问题【将带有pandas的数据框中字典列拆分成单独列】重复。如你所见，即使输入数据框中有缺失值（例如第二行为空），这种方法也能正常工作。

Stephen Cleary · Answer

使用pandas.Series.explode和pandas.json_normalize可以更有效地实现这个功能：

>>> pd.json_normalize(df['stats'].explode())

      city     last_time
0     None  1.234567e+06
1      NaN           NaN
2  Seattle  4.567900e+10

相比apply(pd.Series)方法，这种方式速度更快：

>>> %timeit pd.json_normalize(df['stats'].explode())
269 µs ± 17.9 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

>>> %timeit df["stats"].str[0].apply(pd.Series)
959 µs ± 5.79 µs per loop (mean ± std. dev. of 7 runs, 1,000 loops each)

这里的输入数据与@Timeless提供的相同。