Scrapy: парсим только новые статьи

категория: Scrapy
Одни и те же материалы нет смысла каждый раз записывать, будем добавлять в таблицу только новые. Все остается по старому как в предыдущей статье Scrapy: парсер блога , запускаем паука тоже так же, добавим только middleware DeltaFetch из пакета scrapylib Установим:
pip install scrapylib
Добавим в settings.py
SPIDER_MIDDLEWARES = {
    'scrapylib.deltafetch.DeltaFetch': 100,
}
DELTAFETCH_ENABLED = True
Все готово!


blog comments powered by Disqus