创新路
我们一直在努力

python 爬虫模块Beautiful Soup

之前写过通过requests 抓取网页源代码,接下来就是利用 Beautiful Soup提取需要的数据。在导入Beautiful Soup 模块之前,需要先安装 bs4 库

2-1Z11GA15bD.gif

安装好 bs4 库以后,还需安装 lxml 库

image.png

结果

image.png

soup.select获取方式:

用谷歌浏览器打开网站,按f12

找到你要抓取的列表:

1584514741127477.png

右键

1584514859418570.png

粘贴结果:

body > section > div > div > article.excerpt.excerpt-1 > header > h2 > a

1584514933356905.png

发现只有一个结果,查看原因,发现复制的这个select有个数字在变。

1584515097671553.png

body > section > div > div > article.excerpt.excerpt-1 > header > h2 > a

我们优化下这个定位,直接使用:

body > section > div > div > article> header > h2 > a

或者:

body > section > div > div > article.excerpt> header > h2 > a

就可以了。

未经允许不得转载:天府数据港官方信息博客 » python 爬虫模块Beautiful Soup

客官点个赞呗! (0)
分享到:

评论 抢沙发

评论前必须登录!

天府云博 - 做有态度的开发&运维&设计学习分享平台!

联系我们百度云主机