连着几篇文章写爬虫的基础知识,主要是由requests,bs4两个模块组成,这里总结一下,下一篇文章将开始新的征程。
requests模块
requests.get()通过get方式获取html的方法
requests.post()向html网页提交post请求的方法get(url,params,**kwargs)
url: 需要爬取的网站地址。
params: 翻译过来就是参数, url中的额外参数,字典或者字节流格式,可选。
**kwargs : 12个控制访问的参数,可以防止报文头,cookie,元组,字典,json等等,这里不一一列举了,感兴趣的可以看看前边写的文章《Python 爬虫教程 requests 模块》。
BeautifulSoup
BeautifulSoup模块也就是bs4 模块,美味汤,是一个强大的xml文件解析器。from bs4 import BeautifulSoup
bf = BeautifulSoup(html ,"html.parser")
texts = bf.find_all("div", class_ = "contentbox clear") #找到div格式 contentbox clear
find(name=None, attrs={}, recursive=True, text=None, **kwargs)
find_all(name=None, attrs={}, recursive=True, text=None, limit=None, **kwargs)
我常用的方法就是这两个,遍历方法不在这里列举了,感兴趣的可以参照前边的文章,《Python 爬虫教程 bs4 美味汤 模块(五) 遍历文档树》
爬虫与反爬虫不断的较量着,还有其他的模块经常用到,比如说selelnium 模块,感兴趣的可以上网搜索,下载安装。
爬虫的学习就先告一段落了,有机会继续给大家写爬虫。接下来我将开启python下个模块的学习。