未来警告：将纯文本html传递给'read_html'方法是被弃用的，并将在未来的某个版本中删除。

Question

我正在尝试解析一个表格并使用pandas处理数据，目前可以得到正确的输出结果，但同时收到了以下警告：

"FutureWarning: 将字面HTML直接传递给'read_html'函数将会在未来的版本中被弃用并移除。若要从字面字符串读取，请将其包裹在'StringIO'对象中"

以下是相关代码段：

def parse_html(box_scores):
    with open(box_scores) as f: 
        html = f.read()
    
    soup = BeautifulSoup(html, features="lxml")
    [s.decompose() for s in soup.select("tr.over_header")]
    [s.decompose() for s in soup.select("tr.theader")]
    return soup


def read_line_score(soup):
    line_score = pd.read_html(str(soup), attrs = {'id': 'line_score'})[0]
    cols = list(line_score.columns)
    cols[0] = "team"
    cols[-1] = "total"
    line_score.columns = cols
    
    line_score = line_score[["team", "total"]]
    
    return line_score

def read_stats(soup, team, stat):
    df = pd.read_html(str(soup), attrs={"id": f"box-{team}-game-{stat}"}, index_col=0)[0]
    df = df.apply(pd.to_numeric, errors="coerce")
    return df

Adam Matan · Answer

替换以下代码：

line_score = pd.read_html(str(soup), attrs = {'id': 'line_score'})[0]

使用io.StringIO：

from io import StringIO

def parse_html(box_scores):
    with open(box_scores) as f: 
        html = f.read()
    
    soup = BeautifulSoup(html, features="lxml")
    [s.decompose() for s in soup.select("tr.over_header")]
    [s.decompose() for s in soup.select("tr.theader")]
    return soup


def read_line_score(soup):
    line_score = pd.read_html(StringIO(str(soup)), attrs = {'id': 'line_score'})[0]
    cols = list(line_score.columns)
    cols[0] = "team"
    cols[-1] = "total"
    line_score.columns = cols
    
    line_score = line_score[["team", "total"]]
    
    return line_score

def read_stats(soup, team, stat):
    df = pd.read_html(StringIO(str(soup)), attrs={"id": f"box-{team}-game-{stat}"}, index_col=0)[0]
    df = df.apply(pd.to_numeric, errors="coerce")
    return df

Frank van Puffelen · Answer

根据错误提示，您需要将HTML内容包装到io.StringIO中。以下是实现方法：

def read_line_score(soup):
    line_score = pd.read_html(io.StringIO(str(soup)), attrs={'id': 'line_score'})[0]
    cols = list(line_score.columns)
    cols[0] = "team"
    cols[-1] = "total"
    line_score.columns = cols

    line_score = line_score[["team", "total"]]
    return line_score

Simeon Visser · Answer

你可以使用io.StringIO创建一个文本缓冲区，然后从该缓冲区读取HTML内容。

from io import StringIO

def parse_html(box_scores):
    with open(box_scores) as f: 
        html = f.read()
    
    # 使用BeautifulSoup解析HTML
    soup = BeautifulSoup(html, features="lxml")
    # 移除不需要的"tr.over_header"和"tr.theader"元素
    [s.decompose() for s in soup.select("tr.over_header")]
    [s.decompose() for s in soup.select("tr.theader")]

    # 使用StringIO包裹HTML内容
    html_buffer = StringIO(html)
    # 再次使用BeautifulSoup解析处理后的HTML内容
    return BeautifulSoup(html_buffer, features="lxml")