怎样快速使用python中的urllib爬取网页？

更新时间:2022-04-22 来源:黑马程序员浏览量:

什么是urllib?

urllib库是Python内置的HTTP请求库，它可以看做是处理URL的组件集合。urllib库包含了四大模块，具体如下：

urllib.request：请求模块
urllib.error：异常处理模块
urllib.parse：URL解析模块
urllib.robotparser：robots.txt解析模块

快速使用urllib爬取网页

爬取网页，其实就是通过URL获取网页信息，这段网页信息的实质就是一段附加了JS和CSS的HTML代码。如果把网页比作是一个人，那么HTML就是它的骨架，JS是它的肌肉，CSS是它的衣服。由此看来，网页最重要的数据部分是存在于HTML中的。

urllib库的使用比较简单，接下来，我们使用urllib快速爬取一个网页，具体代码如下：

importurllib.request
#调用urllib.request库的urlopen方法，并传入一个url
response=urllib.request.urlopen('http://www.baidu.com')
#使用read方法读取获取到的网页内容
html=response.read().decode('UTF-8')
#打印网页内容
print(html)

上述代码就是一个简单的爬取网页案例，爬取的网页结果如图4-1所示。

快速使用urllib爬取网页

获取的网页源码

实际上，如果我们在浏览器上打开百度首页，右键选择“查看源代码”，你会发现，跟我们刚才打印出来的是一模一样。也就是说，上述案例仅仅用了几行代码，就已经帮我们把百度首页的全部代码下载下来了。

多学一招：Python2使用的是urllib2库

Python2中使用的是urllib2库来下载网页，该库的用法如下所示：

importurllib2
response=urllib2.urlopen('http://www.baidu.com')

Python3出现后，之前Python2中的urllib2库被移到了urllib.request模块中，之前urllib2中很多函数的路径也发生了变化，希望大家在使用的时候多加注意。

猜你喜欢：

HTTP请求格式：请求行、请求头详细介绍【爬虫工程师必会】

Python爬虫难学吗？学会需要多久？

网络爬虫获取数据的5种方式【Python爬虫】

多线程爬虫是什么？多线程爬虫流程分析

黑马程序员python+大数据开发工程师培训

上一篇：大数据Python培训：隐藏全部轴脊 下一篇：mongo shell创建集合和删除集合

全国中心

热门课程

怎样快速使用python中的urllib爬取网页？

什么是urllib?

快速使用urllib爬取网页

多学一招：Python2使用的是urllib2库

最新资讯

相关阅读

热门课程推荐