首页 > 科技 > 正文

python requests BeautifulSoup 爬虫小结
2019-08-24 14:46:37   来源:东方头条   

连着几篇文章写爬虫的基础知识,主要是由requests,bs4两个模块组成,这里总结一下,下一篇文章将开始新的征程。

requests模块

requests.get()通过get方式获取html的方法

requests.post()向html网页提交post请求的方法get(url,params,**kwargs)

url: 需要爬取的网站地址。

params: 翻译过来就是参数, url中的额外参数,字典或者字节流格式,可选。

**kwargs : 12个控制访问的参数,可以防止报文头,cookie,元组,字典,json等等,这里不一一列举了,感兴趣的可以看看前边写的文章《Python 爬虫教程 requests 模块》。

BeautifulSoup

BeautifulSoup模块也就是bs4 模块,美味汤,是一个强大的xml文件解析器。from bs4 import BeautifulSoup

bf = BeautifulSoup(html ,"html.parser")

texts = bf.find_all("div", class_ = "contentbox clear") #找到div格式 contentbox clear

find(name=None, attrs={}, recursive=True, text=None, **kwargs)

find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

我常用的方法就是这两个,遍历方法不在这里列举了,感兴趣的可以参照前边的文章,《Python 爬虫教程 bs4 美味汤 模块(五) 遍历文档树》

爬虫与反爬虫不断的较量着,还有其他的模块经常用到,比如说selelnium 模块,感兴趣的可以上网搜索,下载安装。

爬虫的学习就先告一段落了,有机会继续给大家写爬虫。接下来我将开启python下个模块的学习。

相关热词搜索:爬虫 小结 python requests BeautifulSoup

上一篇:为什么地球是漂浮在太空中的?
下一篇:最后一页

泰安知名律师   电话:18053115917
手机:0531-80961678   微信:18053115917   QQ:709581498   邮箱:709581498@qq.com
网站地图 (XML地图 / 百度地图