如何采集网页数据（爆料网页数据采集技巧）

发布日期：2025-12-16 00:33:47 手机：https://m.qqhuangye.com/yule/tag/4843.html 违规举报

前不久，我在 LearnML 子论坛上看到一篇帖子。楼主在这篇帖子中提到，他需要为自己的机器学习项目抓取网页数据。很多人在回帖中给出了自己的方法，主要是学习如何使用 BeautifulSoup 和 Selenium。

我曾在一些数据科学项目中使用过 BeautifulSoup 和 Selenium。在本文中，我将告诉你如何用一些有用的数据抓取一个网页，并将其转换成 pandas 数据结构（Dataframe）。

为什么要将其转换成数据结构呢？这是因为大部分机器学习库都能处理 pandas 数据结构，并且只需少量修改就可对你的模型进行编辑。

首先，我们要在维基百科上找到一个表来转换成数据结构。我抓取的这张表，展示的是维基百科上浏览量最大的运动员数据。

其中一项大量的工作就是，通过浏览 HTML 树来得到我们需要的表。

通过 request 和 regex 库，我们开始使用 BeautifulSoup。

from bs4 import BeautifulSoupimport requestsimport reimport pandas as pd

复制代码

下面，我们将从网页中提取 HTML 代码：

website_url = requests.get(\'https://en.wikipedia.org/wiki/Wikipedia:Multiyear_ranking_of_most_viewed_pages\').textsoup = BeautifulSoup(website_url, \'lxml\')print(soup.prettify())</a></li><li id="footer-places-disclaimer"><a href="/wiki/Wikipedia:General_disclaimer" title="Wikipedia:General disclaimer">Disclaimers</a></li><li id="footer-places-contact"><a href="//en.wikipedia.org/wiki/Wikipedia:Contact_us">Contact Wikipedia</a></li><li id="footer-places-mobileview"><a class="noprint stopMobileRedirectTog

复制代码

从语料库中收集所有的表，我们有一个较小的表面区域来搜索。

wiki_tables = soup.find_all(\'table\', class_=\'wikitable\')wiki_tables

复制代码

因为存在很多表，所以需要一种过滤它们的方法。

据我们所知，Cristiano Ronaldo（也就是葡萄牙足球运动员 C 罗）有一个锚标记，这可能在几个表中是独一无二的。

通过 Cristiano Ronaldo 文本，我们可以过滤那些被锚标记的表。此外，我们还发现一些包含这个锚标记的父元素。

links = []for table in wiki_tables:_table = table.find(\'a\', string=re.compile(\'Cristiano Ronaldo\'))if not _table:continueprint(_table)_parent = _table.parentprint(_parent)links.append(_parent)<a href="/wiki/Cristiano_Ronaldo" title="Cristiano Ronaldo">Cristiano Ronaldo</a><td style="text-align: left;"><a href="/wiki/Cristiano_Ronaldo" title="Cristiano Ronaldo">Cristiano Ronaldo</a></td><a href="/wiki/Cristiano_Ronaldo" title="Cristiano Ronaldo">Cristiano Ronaldo</a><td style="text-align: left;"><a href="/wiki/Cristiano_Ronaldo" title="Cristiano Ronaldo">Cristiano Ronaldo</a></td><a href="/wiki/Cristiano_Ronaldo" title="Cristiano Ronaldo">Cristiano Ronaldo</a><td style="text-align: left;"><a href="/wiki/Cristiano_Ronaldo" title="Cristiano Ronaldo">Cristiano Ronaldo</a></td>

复制代码

父元素只显示单元格。

这是一个带有浏览器 web 开发工具的单元格。

parent_lst = []for anchor in links: _ = anchor.find_parents(\'tbody\') print(_) parent_lst.append(_)

复制代码

利用 tbody，我们可以返回包含以前的锚标记的其他表。

为进一步过滤，我们可以在以下表中的不同标题进行搜索：

for i in parent_lst:   print(i[0].find(\'tr\'))tr><th>Rank*</th><th>Page</th><th>Views in millions</th></tr><tr><th>Rank</th><th>Page</th><th>Views in millions</th></tr><tr><th>Rank</th><th>Page</th><th>Sport</th><th>Views in millions</th></tr>

复制代码

第三张看起来很像我们所需要的表。

接下来，我们开始创建必要的逻辑来提取并清理我们需要的细节。

sports_table = parent_lst[2]complete_row = []for i in sports_table:  rows = i.find_all(\'tr\')  print(\'n--------row--------n\')  print(rows)  for row in rows:    cells = row.find_all(\'td\')    print(\'n-------cells--------n\')    print(cells)    if not cells:      continue    rank = cells[0].text.strip(\'n\')    page_name = cells[1].find(\'a\').text    sport = cells[2].find(\'a\').text    views = cells[3].text.strip(\'n\')    print(\'n-------CLEAN--------n\')    print(rank)    print(page_name)    print(sport)    print(views)    complete_row.append([rank, page_name, sport, views])        for i in complete_row:  print(i)

复制代码

分解一下：

sports_table = parent_lst[2]complete_row = []

复制代码

下面我们从上面的列表中选择第三个元素。这就是我们需要的表。

接下来创建一个空列表，用于存储每行的详细信息。在遍历这个表的时候，建立一个循环，遍历表中的每一行，并将其保存到 rows 变量中。

for i in sports_table: rows = i.find_all(\'tr\') print(\'n--------row--------n\') print(rows)

复制代码

for row in rows: cells = row.find_all(\'td\') print(\'n-------cells--------n\') print(cells)

复制代码

建立了嵌套的循环。遍历上一个循环中保存的每个行。在遍历这些单元格时，我们将每个单元格保存在一个新的变量。

if not cells: continue

复制代码

这段简短的代码允许我们在从单元格中提取文本时，避免空单元格并防止发生错误。

rank = cells[0].text.strip(\'n\')page_name = cells[1].find(\'a\').textsport = cells[2].find(\'a\').textviews = cells[3].text.strip(\'n\')

复制代码

在此，我们将各种单元格清理为纯文本格式。清除后的值保存在其列名下的变量中。

print(\'n-------CLEAN--------n\')print(rank)print(page_name)print(sport)print(views)complete_row.append([rank, page_name, sport, views])

复制代码

此处，我们向行列表添加这些值。然后输出清理后的值。

-------cells--------[<td>13</td>, <td style="text-align: left;"><a href="/wiki/Conor_McGregor" title="Conor McGregor">Conor McGregor</a></td>, <td><a href="/wiki/Mixed_martial_arts" title="Mixed martial arts">Mixed martial arts</a></td>, <td>43</td>]-------CLEAN--------13Conor McGregorMixed martial arts43

复制代码

下面将其转换为数据结构：

headers = [\'Rank\', \'Name\', \'Sport\', \'Views Mil\']df = pd.Dataframe(complete_row, columns=headers)df

复制代码

现在你可以在机器学习项目中使用的 pandas 数据结构了。你可以使用自己喜欢的库来拟合模型数据。

本文地址：https://www.qqhuangye.com/yule/tag/4843.html，转载请注明出处。

免责声明

1、圈圈荒野网发表的文章仅代表作者本人的观点，与本网站立场无关。
2、圈圈荒野网的资源分享仅为个人学习、交流之用，同时向原著作者表达敬意。
3、圈圈荒野网所有内容由网友自主上传，如有侵权、违规请点击【在线投诉】进行处理。

更多>同类娱乐

推荐图文

南京师范大学二本专业	自媒体平台有哪些哪些
熬糖粘锅怎么办（就可	世界杯小组赛出线规则

推荐娱乐

点击排行

Processed in 0.290 second(s), 8 queries, Memory 0.52 M

• 形成抚养关系继子女有继承权吗（遗产子女最高人	• 如何去掉纹身（文身抓挠色素激光）
• 南京师范大学二本专业有哪些（南京师范大学金陵	• 九大鬼是什么菜（道菜九大发菜扣肉）
• 王者荣耀皮肤如何再次分享（皮肤分享活动荣耀）	• 淘小铺如何添加本人收货地址（收货地址点击步骤
• 嵌入式烤箱的电源位置（烤箱嵌入式选择柜）	• 嵌入式耳机怎么用（耳机入耳式入耳耳）
• 热血江湖装备怎么解除绑定（装备解锁那就绑定）	• 自媒体平台有哪些哪些平台好操作（媒体头条平台