爬虫入门
爬虫是什么
爬虫即网络爬虫,其作用是自动爬取互联网数据的程序.
数据是互联网的石油,没有数据时,爬虫就能发挥重要作用.
搜索引擎也可以看成是一个爬虫,它网络了互联网上的内容.
爬虫的基本流程
- 分析网站,得到目标url
- 根据url,发起请求,获取HTML源码
- 从HTML源码中提取数据
- 提取源码中的目标数据,并持久化保存
- 提取源码中的新Url地址,重复第2步操作
- 爬虫结束,所有目标url提取完毕,并且目标数据保存完成
实现爬虫的基本步骤
- 建立连接,爬取数据
- 建立正则表达式规范
- 使用正则匹配目标数据
Url的组成
- scheme:协议(http,https,ftp)
- host:服务器地址
- port:服务器端口
- path:访问的资源路径
- query-string:参数
常见请求状态码
200:请求成功
301:永久重定向
302:临时重定向
400:客户端错误
401:未授权
403:服务器拒绝访问
404:找不到页面
405:请求方式错误
408:请求超时
500:服务器错误
503:服务不可用