Scrapy 是一个快速、可扩展的网络爬虫框架,用于抓取网页数据。本文将简要介绍 Scrapy 的基本概念和使用方法。

安装 Scrapy

首先,您需要安装 Scrapy。您可以通过以下命令进行安装:

pip install scrapy

Scrapy 的工作流程

Scrapy 的工作流程可以分为以下几个步骤:

  1. 创建项目:使用 scrapy startproject 命令创建一个新的 Scrapy 项目。
  2. 编写爬虫:在项目中创建爬虫文件,定义要抓取的数据。
  3. 运行爬虫:使用 scrapy crawl 命令运行爬虫。

示例:抓取网页标题

以下是一个简单的爬虫示例,用于抓取网页标题:

import scrapy

class MySpider(scrapy.Spider):
    name = 'my_spider'
    start_urls = ['http://example.com']

    def parse(self, response):
        for title in response.css('title::text'):
            yield {'title': title.get().strip()}

# 运行爬虫
# scrapy crawl my_spider

扩展阅读

想了解更多关于 Scrapy 的信息,可以阅读官方文档:Scrapy 官方文档

Scrapy Logo