使用Python在HTML标记中查找标签和ID-堆栈溢出

顺晟科技

2022-10-18 13:47:07

我使用Selenium提取了一个网站的HTML代码，并将其放在变量HTML_代码中。

我想提取这些HTML标签的标签和相应的ID.

到目前为止，我已经成功地单独

提取了标签<块引用>

var1 = re.findall(r'<label\s*.*>(.+?)<\?label>', html_code)

我的问题是：如何提取HTML标记的相应ID以及标签？我用什么功能？我可以使用FindAll或其他函数的组合吗？

顺晟科技：

您可以使用BeautifulSoup提取所需的详细信息：

from bs4 import BeautifulSoup
soup = BeautifulSoup(r'<label id="id_name" for="whichever" class="class_name">LabelName</label>')
l = soup.find('label')
l.text
# => 'LabelName'
l["id"]
# => 'id_name'

使用soup.find('label')，您可以获得对象，即label对象中第一个具有soup获取节点的文本（内部文本）值，而l.text获取l["id"]输出

<代码>ID文本0 ID_名称1标签名称11标识_名称2标签名称2

上一篇：HTML-使用JavaScript匹下一篇：JavaScript-如何将CSS添

网站建设

Html

使用Python在HTML标记中查找标签和ID-堆栈溢出