通过
python爬虫入门:甚麽是爬虫,如何玩爬虫?
咱们知晓了甚麽是爬虫
也知晓了爬虫的详细过程
那么在咱们要对某个网站进行爬取的时候
要对其信息进行解析
就要知晓理应如何恳求
就要知晓获得的信息是甚麽样的
因此咱们要学会如何抓咪咪!
哦,不对。
咱们要学会如何信息抓包
固然小馒头也是包的一类
翻开咱们的 Chrome 浏览器
在这里 小帅b 提示大家一句
尽快不要用国产浏览器
许多是有后门的
因此
Chrome 是首选!
ok,翻开 Chrome 浏览器以后呢
咱们随意输入1个网址吧
例如
营养跟不上?那就...
输入1个人人都能上的网站
使劲回车
1个熟识的页面显现在你的面前
这个时候,你按下 F12
你阔以看见弹出1个有点装x的窗口
这个玩意
正是咱们想要的
阔以看见
Element 标签下相应的 HTML 代码
实则就是这个网页的代码
咱们阔以在这里除了看看它的代码之外
咱们还阔以窜改许多物品
例如我把这个按钮改为小帅b
按下回车
是不是瞬间格调满满
哦,不好意思
今日不是要说如何装x的
咱们点击 Network 这个标签
接着更新一下
阔以看见有许多的恳求
HTTP 的恳求方法有好几种
但是最常见的就是 GET 和 POST 恳求
我们就一一说道说道
接下来就是
学习 python 的准确姿态
咱们直接搜索「苍教师」
接着咱们就阔以发掘
有很多恳求
这类全是 GET 恳求
咱们随意点击1个恳求进去
阔以看见咱们的恳求URL
在 ?后面的这类 jb 玩意儿
就是 GET 恳求的参数
这类参数以「键值对」的形态实行
例如这里的
wd=%E8%8B%8D%E8%80%81%E5%B8%88
就是告知百度
咱们要查找的是苍教师有关的内容
这类方法的恳求方法是最简洁的
因此之后咱们在 Python 写 GET 恳求的时候
直接在 URL 后面加个 ?接着增加参数值就好了
例如
我要百度搜索波多野结衣
那么就是
不信你直接在浏览器如此搜
是一毛同样的
那么,啥是 POST 恳求呢?
咱们在做许多数据提交的时候
例如申请,登录
此时候咱们做的就是 POST 恳求
POST 的参数不会直接放在 URL 上
会以 Form 表单的形态将信息提交达服务器
咱们来登录一下百度
当咱们点击登录的时候
就开始将咱们的账号暗码恳求给百度服务器
阔以看见咱们恳求了 login 这个插口
恳求方式就是 POST
而咱们的恳求参数是以 Form 表单的方法提交的
拉到以下就阔以看见
username 就是 xiaoshuaib
而暗码,就是被加密了的
这类全是 POST 参数
阔以发掘
GET恳求把恳求参数都表露在URL上
而POST恳求的参数放在request body 里面
POST恳求方法还对暗码参数加了密
如此就相对安全许多
你已然了解恳求方法了
接下来说说恳求头
固然说的不是上面这个 gou 头哈
咱们刚刚在访问百度的时候
阔以看见这个玩意
这个就是恳求头
咱们在做 HTTP 恳求的时候
除了提交许多参数之外
咱们还有定论许多 HTTP 恳求的头部数据
例如 Accept、Host、cookie、User-Agent等等
这类参数也是咱们在做爬虫要用到
通过这类数据,骗取服务器,告知它咱们是正规恳求
例如
咱们阔以在代码里面设置 cookie 告知服务器咱们就是在这个浏览器恳求的会话
User-Agent 告知服务器咱们是浏览器恳求的
说完咱们这边的恳求了
然后咱们再说说服务器的呼应
你绝对碰到过 404 页面吧
或者服务器错误返回个 502 吧
这类 404 啊,200啊,301啊,502啊
全是服务器的呼应码
通常服务器给咱们返回 200
那就阐明
咱们顺利恳求了
再来说说呼应头
当咱们恳求顺利以后
服务器会给咱们返回呼应码之外
还有呼应头
这个头首要是告知咱们信息以甚麽样的形态呈现
告知咱们cookie的设置
还有1个
就是呼应体了
说白了,就是服务器返回给咱们的信息
咱们点击 Response 就阔以看见有关的信息了
看,这类就是服务器返回给咱们的 HTML 源代码
针对不同的恳求
咱们获得到的信息是不同样的
除了 HTML的,也有 JSON 的
二进制信息等等
阔以对于不同的状况
用不同的措施来分析这类信息
说到这里
想必你已然会在 Chrome 抓包了
所谓抓包
就是咱们摸清了浏览器里面的套路
知晓它是如何搞的
那么通过咱们的恳求
GET 恳求也好
POST 恳求也罢
只需知晓恳求方法
只需知晓恳求参数
只需知晓恳求头定论
只需知晓如何拿到返回的信息
这..
对咱们来说
爬虫还难么?
完了!
爽吗?
那还不转发?
那还不点赞?
那就赶快存眷
添加pythoner的集结地
咱们一块牛逼
相关标签: