首页>>磁力资讯

种子磁力链接聚合搜索工具-magnetW老司机必备的5个资源网站,第3个还能搜索种子BT!除了常见的搜索引擎,您还须要知晓这类良知的搜索神器python爬虫入门01:教你在 Chrome 浏览器轻盈抓包

2023-05-14 08:09:01 871
磁力搜索引擎链接直达

通过

python爬虫入门:甚麽是爬虫,如何玩爬虫?

咱们知晓了甚麽是爬虫

也知晓了爬虫的详细过程

那么在咱们要对某个网站进行爬取的时候

要对其信息进行解析

就要知晓理应如何恳求

就要知晓获得的信息是甚麽样的

因此咱们要学会如何抓咪咪!


1.jpg


哦,不对。

咱们要学会如何信息抓包

固然小馒头也是包的一类

翻开咱们的 Chrome 浏览器

在这里 小帅b 提示大家一句

尽快不要用国产浏览器

许多是有后门的


2.jpg


因此

Chrome 是首选!

ok,翻开 Chrome 浏览器以后呢

咱们随意输入1个网址吧

例如


3.jpg


营养跟不上?那就...

输入1个人人都能上的网站

使劲回车

1个熟识的页面显现在你的面前


4.jpg


这个时候,你按下 F12

你阔以看见弹出1个有点装x的窗口


5.jpg


这个玩意

正是咱们想要的

阔以看见

Element 标签下相应的 HTML 代码

实则就是这个网页的代码

咱们阔以在这里除了看看它的代码之外

咱们还阔以窜改许多物品

例如我把这个按钮改为小帅b


6.jpg


按下回车


7.jpg


是不是瞬间格调满满

哦,不好意思

今日不是要说如何装x的


8.jpg


咱们点击 Network 这个标签

接着更新一下

阔以看见有许多的恳求


9.jpg


HTTP 的恳求方法有好几种

但是最常见的就是 GET 和 POST 恳求

我们就一一说道说道

接下来就是

学习 python 的准确姿态


10.jpg


咱们直接搜索「苍教师」

接着咱们就阔以发掘

有很多恳求


11.jpg


这类全是 GET 恳求

咱们随意点击1个恳求进去


12.jpg


阔以看见咱们的恳求URL

在 ?后面的这类 jb 玩意儿

就是 GET 恳求的参数

这类参数以「键值对」的形态实行

例如这里的

wd=%E8%8B%8D%E8%80%81%E5%B8%88

就是告知百度

咱们要查找的是苍教师有关的内容

这类方法的恳求方法是最简洁的

因此之后咱们在 Python 写 GET 恳求的时候

直接在 URL 后面加个 ?接着增加参数值就好了

例如

我要百度搜索波多野结衣

那么就是

不信你直接在浏览器如此搜

是一毛同样的

那么,啥是 POST 恳求呢?

咱们在做许多数据提交的时候

 例如申请,登录

此时候咱们做的就是 POST 恳求

POST 的参数不会直接放在 URL 上

会以 Form 表单的形态将信息提交达服务器

咱们来登录一下百度


13.jpg


当咱们点击登录的时候

就开始将咱们的账号暗码恳求给百度服务器

阔以看见咱们恳求了 login 这个插口

恳求方式就是 POST


14.jpg


而咱们的恳求参数是以 Form 表单的方法提交的


15.jpg


拉到以下就阔以看见

username 就是 xiaoshuaib

而暗码,就是被加密了的

这类全是 POST 参数

阔以发掘

GET恳求把恳求参数都表露在URL上

而POST恳求的参数放在request body 里面

POST恳求方法还对暗码参数加了密

如此就相对安全许多

你已然了解恳求方法了

接下来说说恳求头


16.jpg


固然说的不是上面这个 gou 头哈

咱们刚刚在访问百度的时候

阔以看见这个玩意


17.jpg


这个就是恳求头

咱们在做 HTTP 恳求的时候

除了提交许多参数之外

咱们还有定论许多 HTTP 恳求的头部数据

例如 Accept、Host、cookie、User-Agent等等

这类参数也是咱们在做爬虫要用到

通过这类数据,骗取服务器,告知它咱们是正规恳求

例如

咱们阔以在代码里面设置 cookie 告知服务器咱们就是在这个浏览器恳求的会话

User-Agent 告知服务器咱们是浏览器恳求的


18.jpg


说完咱们这边的恳求了

然后咱们再说说服务器的呼应

你绝对碰到过 404 页面吧

或者服务器错误返回个 502 吧


19.jpg


这类 404 啊,200啊,301啊,502啊

全是服务器的呼应码

通常服务器给咱们返回 200

那就阐明

咱们顺利恳求了


20.jpg

21.jpg


再来说说呼应头


22.jpg


当咱们恳求顺利以后

服务器会给咱们返回呼应码之外

还有呼应头

这个头首要是告知咱们信息以甚麽样的形态呈现

告知咱们cookie的设置

还有1个

就是呼应体了

说白了,就是服务器返回给咱们的信息

咱们点击 Response 就阔以看见有关的信息了


23.jpg


看,这类就是服务器返回给咱们的 HTML 源代码

针对不同的恳求

咱们获得到的信息是不同样的

除了 HTML的,也有 JSON 的


24.jpg

二进制信息等等

阔以对于不同的状况

用不同的措施来分析这类信息

说到这里

想必你已然会在 Chrome 抓包了

所谓抓包

就是咱们摸清了浏览器里面的套路

知晓它是如何搞的

那么通过咱们的恳求

GET 恳求也好

POST 恳求也罢

只需知晓恳求方法

只需知晓恳求参数

只需知晓恳求头定论

只需知晓如何拿到返回的信息

这..

对咱们来说

爬虫还难么?


25.jpg


完了!

爽吗?

那还不转发?

那还不点赞?


26.jpg

27.jpg


那就赶快存眷

添加pythoner的集结地

咱们一块牛逼



相关标签: