爬虫入门

爬虫入门

爬虫是什么

爬虫即网络爬虫,其作用是自动爬取互联网数据的程序.
数据是互联网的石油,没有数据时,爬虫就能发挥重要作用.
搜索引擎也可以看成是一个爬虫,它网络了互联网上的内容.

爬虫的基本流程

  1. 分析网站,得到目标url
  2. 根据url,发起请求,获取HTML源码
  3. 从HTML源码中提取数据
    1. 提取源码中的目标数据,并持久化保存
    2. 提取源码中的新Url地址,重复第2步操作
  4. 爬虫结束,所有目标url提取完毕,并且目标数据保存完成

实现爬虫的基本步骤

  1. 建立连接,爬取数据
  2. 建立正则表达式规范
  3. 使用正则匹配目标数据

Url的组成

  1. scheme:协议(http,https,ftp)
  2. host:服务器地址
  3. port:服务器端口
  4. path:访问的资源路径
  5. query-string:参数

常见请求状态码

200:请求成功
301:永久重定向
302:临时重定向
400:客户端错误
401:未授权
403:服务器拒绝访问
404:找不到页面
405:请求方式错误
408:请求超时
500:服务器错误
503:服务不可用