Scrapy 教程：入门与实战 🕵️‍♂️

Scrapy 是一个强大的 Python 网络爬虫框架，适合处理复杂的网页抓取任务。以下是快速上手指南：

安装 Scrapy

pip install scrapy

📌 注意：首次使用需安装 Python 环境和依赖库。

基本流程

创建项目
```
scrapy startproject tutorial
```

定义爬虫
在 tutorial/spiders/ 目录下编写 Spider 类，例如：

import scrapy

class ExampleSpider(scrapy.Spider):
    name = "example"
    start_urls = ["https://example.com"]

    def parse(self, response):
        yield {"title": response.css("h1::text").get()}

运行爬虫
```
scrapy crawl example
```

项目结构示例

tutorial/
├── scrapy.cfg          # 配置文件
└── tutorial/           # 项目根目录
    ├── __init__.py
    ├── items.py        # 定义数据结构
    ├── middlewares.py  # 中间件
    ├── pipelines.py    # 管道
    ├── settings.py    # 配置
    └── spiders/        # 爬虫代码
        └── example.py

实战建议

使用 scrapy shell 交互式调试
配置 USER_AGENT 避免被封禁
通过 DOWNLOAD_DELAY 控制请求频率
学习 Scrapy 管道处理数据

扩展学习

🎉 掌握 Scrapy 后，可尝试构建自己的爬虫项目，如抓取新闻、商品信息等。记得遵守网站规则，合理使用爬虫技术！