Scrapy组件(1)
Scrapy提供的数据提取方法——Selector选择器,类似BeautifulSoup、pyquery以及正则表达式
Selector 使用方法
直接使用
from scrapy import Selector |
Scrapy shell
爬取官方文档:https://doc.scrapy.org/en/latest/_static/selectors-sample1.html
Selector使用时是与Scrapy结合使用的,如在Scrapy的回调函数中的参数response直接调用xpath()、css()提取数据,所以借助scrapy shell提取数据模拟scrapy请求的过程
scrapy shell https://doc.scrapy.org/en/latest/_static/selectors-sample1.html
关注最后的一些可进行的操作:
这个过程相当于Scrapy向URL发起了一次请求,然后传回一些可操作的变量,如request、response等
XPath 选择器
<head> |
>>> result = response.selector.xpath('//a')
从提取的结果(a节点)中再次提取img节点:
>>> result.xpath('./img')
选择器的最前面加“.”,表示提取元素内部的数据,如果没有加点,则代表从根节点开始提取。此处我们用了./img的提取方式,则代表从a节点里提取,如果用//img,则还是从html节点中提取
以上得到的是SelectorList类型的变量,是一个由Selector对象组成的列表。所以可以用>>> result[0]
单独索引某个元素
但是以上得到的内容都是列表类型,都不是真正的文本内容,为了得到文本,还需要:>>> result.extract()
搭配XPath()表达式,可以选取节点的内部文本和属性
>>> response.xpath('//a/text()').extract()
>>> response.xpath('//a/@href').extract()
CSS选择器
Spider 用法
Spider:配置抓取网站的链接、抓取逻辑、解析逻辑
运行流程
- Spider要做的就两件事情:
- 定义爬取网站的动作
- 分歧爬取的内容
- 爬取过程:
- Request初始的URL,并设置回调函数。当Request成功时,Response生成作为参数传递给该回调函数
- 在回调函数内分析网页内容,返回结果由两种方式:
- 解析到的有效结果返回字典或Item对象,可以直接保存
- 另一种是解析得到下一个链接,可以利用此链接构造Request并设置新的回调函数
- 如果返回的是字典或者Item对象,我们可以通过Feed Exports等组件将结果存入文件。如果设置了Pipeline的话,我们可以使用Pipeline处理并保存
- 如果返回的是Request,那么执行后得到的Response会被传递到Request中定义的回调函数,再次分析生成Item
以上几步循环往复,可以完成站点的爬取
Spider类
- name = ‘quotes’ # 爬虫的名字
- allowed_domains = [‘quotes.toscrape.com’] # 可选配置,不在此列的链接不会被跟进爬取
- start_urls = [‘http://quotes.toscrape.com/'] # 起始URL
- custom_settings = # 是一个字典,专属于本Spider的配置,设置会覆盖全局设置,必须在初始化前更新,必须定义成类变量
- crawler = # 是在pipeline.py的from_crawler() 方法设置的,代表的是本Spider类对应的Crawler对象,可以用来获取setting的信息
- settings 全局设定
- start_requests()用于生成初始请求,必须返回一个可迭代对象,默认使用Get方法。如果想使用Post方法,只需要重写这个方法,发送POST请求时使用FormRequest即可
- parse() 当Response没有指定回调函数时,本方法默认被调用,负责处理Response,处理返回结果,需要返回一个包含Request和Item的可迭代对象
- close() 释放资源