18910140161

HTML-如何使用Python从网站中提取表到csv,而不产生表id-堆栈溢出

顺晟科技

2022-10-19 12:23:06

119

我试图每天从特定的网站表生成csv:https://lunarcrush.com/exchanges

我已经尝试使用了这里相关主题的每一条建议(例如如何从Python中的网站提取表Python从URL到csv提取表和许多更多)

我认为最初的问题是我没有表id(例如在其他示例中,我只找到了(表)类名。但经过进一步挖掘,我发现每当我读取url时,我得到的HTML代码完全不同,而不是我使用inspect(O)在浏览器上单击时看到的HTML代码。

我几乎尝试了我在这里找到的所有东西,所以我不确定引用每一个单独的代码是否有帮助。作为一个例子,我只是引用以下内容,我试图让它发挥作用。这个想法很简单(找到表的一部分并获得(头)和(数据),然后将它们提取到CSV中。

MuiTable-root

有什么想法吗?很抱歉我的问题太长了(也许是愚蠢的),我才刚刚开始使用python,还有很多东西要学!


顺晟科技:

使用pandas收集数据集,并使用selenium填充数据集。

您可以在终端上安装它们,键入:

MuiTable-root

有关selenium的详细信息:https://selenium-python.readthedocs.io/ 和熊猫https://pandas.pydata.org/docs/

有关安装和驱动程序的详细信息:https://selenium-python.readthedocs.io/installation.html

通常,您将下载驱动程序并使其运行,如文档中所示。但是webdriver_manager将自动执行类似的操作。

MuiTable-root

在代码中,您需要导入您安装的包,即pandas和Selenium。

MuiTable-root

实例化webdriver(打开由python控制的chrome)。在变量“驱动程序”中。您可以使用驱动程序“find_elements_by_xpath”找到页面的xpath,并从中提取一个属性(必要时)。

MuiTable-root

最后,从将要找到的内容中列出一个列表,定义一个字典以将数据保存在pandas dataframe中,并将其导出到csv文件中:

MuiTable-root

整件事应该如下所示:

MuiTable-root
  • TAG:
相关文章
我们已经准备好了,你呢?
2024我们与您携手共赢,为您的企业形象保驾护航