网页抓取是使用机器人从网站中提取内容和数据的过程。

与仅复制屏幕上显示的像素的屏幕抓取不同,网络抓取提取底层 HTML 代码,并使用它提取存储在数据库中的数据。然后,抓取工具可以在其他地方复制整个网站内容。

网络抓取用于依赖数据收集的各种数字业务。合法用例包括:

搜索引擎机器人抓取网站,分析其内容,然后对其进行排名。

价格比较网站部署机器人以自动获取联盟卖家网站的价格和产品描述。推荐阅读:《如何提升网站排名》

市场研究公司使用抓取工具从论坛和社交媒体中提取数据(例如,用于情绪分析)。

网络抓取也被用于非法目的,包括压低价格和窃取受版权保护的内容。被刮刀攻击的在线实体可能会遭受严重的经济损失,特别是如果它是一家强烈依赖竞争性定价模型或内容分发交易的企业。

抓取工具和机器人

网页抓取工具是软件(即机器人),用于筛选数据库和提取信息。使用了多种机器人类型,其中许多是完全可定制的:

识别独特的 HTML 站点结构

提取和转换内容

存储抓取的数据

从 API 中提取数据

由于所有抓取机器人都有相同的目的——访问站点数据——很难区分合法机器人和恶意机器人。推荐阅读:《通过SEO获得大流量》

合法的机器人被识别为它们所针对的组织。例如,Googlebot 在其 HTTP 标头中将自己标识为属于 Google。相反,恶意机器人通过创建虚假的 HTTP 用户代理来冒充合法流量。

合法的机器人遵守网站的 robots.txt 文件,该文件列出了机器人可以访问的页面和不能访问的页面。另一方面,恶意抓取工具会在不考虑网站运营商允许的情况下抓取网站。

运行网络爬虫机器人所需的资源 是巨大的——以至于合法的爬虫机器人运营商大量投资于服务器来处理被提取的大量数据。

缺乏这种预算的犯罪者通常会使用 僵尸网络——地理上分散的计算机,感染相同的恶意软件并从一个中心位置进行控制。个别僵尸网络计算机所有者不知道他们的参与。受感染系统的综合力量使犯罪者能够大规模抓取许多不同的网站。推荐相关阅读:《对于SEO,时间就是权重》