HTML-如何使用Python从网站中提取表到csv，而不产生表id-堆栈溢出

顺晟科技

2022-10-19 12:23:06

119

我试图每天从特定的网站表生成csv:https://lunarcrush.com/exchanges

我几乎尝试了我在这里找到的所有东西，所以我不确定引用每一个单独的代码是否有帮助。作为一个例子，我只是引用以下内容，我试图让它发挥作用。这个想法很简单（找到表的一部分并获得（头）和（数据），然后将它们提取到CSV中。

MuiTable-root

有什么想法吗？很抱歉我的问题太长了（也许是愚蠢的），我才刚刚开始使用python，还有很多东西要学！

顺晟科技：

使用pandas收集数据集，并使用selenium填充数据集。

您可以在终端上安装它们，键入:

MuiTable-root

通常，您将下载驱动程序并使其运行，如文档中所示。但是webdriver_manager将自动执行类似的操作。

MuiTable-root

在代码中，您需要导入您安装的包，即pandas和Selenium。

MuiTable-root

实例化webdriver（打开由python控制的chrome）。在变量“驱动程序”中。您可以使用驱动程序“find_elements_by_xpath”找到页面的xpath，并从中提取一个属性（必要时）。

MuiTable-root

最后，从将要找到的内容中列出一个列表，定义一个字典以将数据保存在pandas dataframe中，并将其导出到csv文件中:

MuiTable-root

整件事应该如下所示:

MuiTable-root

网站建设