爬虫入门

2019-12-11 爬虫爬虫评论

爬虫入门

爬虫是什么

爬虫即网络爬虫,其作用是自动爬取互联网数据的程序.
数据是互联网的石油,没有数据时,爬虫就能发挥重要作用.
搜索引擎也可以看成是一个爬虫,它网络了互联网上的内容.

爬虫的基本流程

分析网站,得到目标url
根据url,发起请求,获取HTML源码
从HTML源码中提取数据
1. 提取源码中的目标数据,并持久化保存
2. 提取源码中的新Url地址,重复第2步操作
爬虫结束,所有目标url提取完毕,并且目标数据保存完成

实现爬虫的基本步骤

建立连接,爬取数据
建立正则表达式规范
使用正则匹配目标数据

Url的组成

scheme:协议(http,https,ftp)
host:服务器地址
port:服务器端口
path:访问的资源路径
query-string:参数

常见请求状态码

200:请求成功
301:永久重定向
302:临时重定向
400:客户端错误
401:未授权
403:服务器拒绝访问
404:找不到页面
405:请求方式错误
408:请求超时
500:服务器错误
503:服务不可用

本文链接： https://yimchengjie.github.io/2019/12/11/%E7%88%AC%E8%99%AB/%E7%88%AC%E8%99%AB%E5%85%A5%E9%97%A8/

版权声明： 本博客所有文章除特别声明外，均采用 CC BY 4.0 CN协议许可协议。转载请注明出处！

yanchengjielove and share

Anything can go right will go right