18910140161

使用Python在HTML标记中查找标签和ID-堆栈溢出

顺晟科技

2022-10-18 13:47:07

63

我使用Selenium提取了一个网站的HTML代码,并将其放在变量HTML_代码中。

我想提取这些HTML标签的标签和相应的ID.

到目前为止,我已经成功地单独

提取了标签<块引用>

var1 = re.findall(r'<label\s*.*>(.+?)<\?label>', html_code)

我的问题是:如何提取HTML标记的相应ID以及标签?我用什么功能?我可以使用FindAll或其他函数的组合吗?


顺晟科技:

您可以使用BeautifulSoup提取所需的详细信息:

from bs4 import BeautifulSoup
soup = BeautifulSoup(r'<label id="id_name" for="whichever" class="class_name">LabelName</label>')
l = soup.find('label')
l.text
# => 'LabelName'
l["id"]
# => 'id_name'

使用soup.find('label'),您可以获得对象,即label对象中第一个具有soup获取节点的文本(内部文本)值,而l.text获取l["id"]输出

<代码>ID文本0 ID_名称1标签名称11标识_名称2标签名称2
  • TAG:
相关文章
我们已经准备好了,你呢?
2024我们与您携手共赢,为您的企业形象保驾护航