首页 > 科技 > 正文

python requests BeautifulSoup 爬虫小结
2019-08-24 14:46:37 来源：东方头条

连着几篇文章写爬虫的基础知识，主要是由requests，bs4两个模块组成，这里总结一下，下一篇文章将开始新的征程。

requests模块

requests.get()通过get方式获取html的方法

requests.post()向html网页提交post请求的方法get(url,params,**kwargs)

url: 需要爬取的网站地址。

params: 翻译过来就是参数， url中的额外参数，字典或者字节流格式，可选。

**kwargs : 12个控制访问的参数，可以防止报文头，cookie，元组，字典，json等等，这里不一一列举了，感兴趣的可以看看前边写的文章《Python 爬虫教程 requests 模块》。

BeautifulSoup

BeautifulSoup模块也就是bs4 模块，美味汤，是一个强大的xml文件解析器。from bs4 import BeautifulSoup

bf = BeautifulSoup(html ,"html.parser")

texts = bf.find_all("div", class_ = "contentbox clear") #找到div格式 contentbox clear

find(name=None, attrs={}, recursive=True, text=None, **kwargs)

find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)

我常用的方法就是这两个，遍历方法不在这里列举了，感兴趣的可以参照前边的文章，《Python 爬虫教程 bs4 美味汤模块（五）遍历文档树》

爬虫与反爬虫不断的较量着，还有其他的模块经常用到，比如说selelnium 模块，感兴趣的可以上网搜索，下载安装。

爬虫的学习就先告一段落了，有机会继续给大家写爬虫。接下来我将开启python下个模块的学习。