My_Study_Spider

基础篇

  • urllib入门
  • requests
  • 猫眼top抓取
  • firefox开发工具使用
  • chrome开发工具使用

中级篇

  • bs4
  • pyquery
  • 存储
  • ajax
  • selenium
  • splash
  • 验证码

框架篇

  • pyspider入门
  • scrapy入门

分布式篇

  • scrapy-redis
  • scrapyd
My_Study_Spider
  • 爬虫知识学习
  • View page source

爬虫知识学习

基础篇

  • urllib入门
    • 获取下网页源码
    • 下载一个图片
    • 利用有道翻译翻译
    • 隐藏浏览器代理
    • 避免防盗链问题
    • 认证问题
    • 使用浏览器代理
  • requests
    • 获取下网页源码
    • 通过正则表达式进行信息提取
  • 猫眼top抓取
    • 分析html结构
    • 提取规则编写
    • 结果写文件
    • 代码如下
  • firefox开发工具使用
  • chrome开发工具使用

中级篇

  • bs4
    • bs4 节点选择器
    • bs 方法选择器
    • bs CSS选择器
  • pyquery
    • bs4 节点选择器
    • bs 方法选择器
    • bs CSS选择器
  • 存储
    • 文件存储
    • db存储
  • ajax
    • 如何提取ajax请求
  • selenium
    • 入门selenium
    • 基本操作
    • 使用selenium爬取huya视频
  • splash
    • selinium test1
    • selinium test2
    • selinium test3
  • 验证码

框架篇

  • pyspider入门
  • scrapy入门

分布式篇

  • scrapy-redis
  • scrapyd
    • 安装
    • 开发工程
    • API接口
    • 配置文件
Next

© Copyright 2018, zhaojiedi1992@outlook.com.

Built with Sphinx using a theme provided by Read the Docs.