python – 使用lxml.html提取文本

python – 使用lxml.html提取文本

我有一个 HTML文件: html psomestr sup1/sup anotherstr /p/html 我想将文本提取为: somestr1anotherstr 但我无法弄清楚该怎么做.我写了一个to_sup()函数,它将数字字符串转换为上标,所以我得到的最接近的是: for i in doc.xpath(.//p/