前言
分享对于Python刚入门及爬虫刚入门的同学分享小思路。
前几天接收到一个爬虫单,在爬取过程中遇到了爬取信息错误,于是换了方法去爬取。接下来分享下遇到问题的解决方法。
客户需求
- 爬取IMDB Top250影片的名称、评分、类型、出品公司、出品国家、时长等
- 正确爬取后利用Python Web框架实现数据可视化Echarts
问题的出现
首先一开始利用requests库可完整爬取所需信息,验收时客户说影片类型爬取错误,如下示例:
影片:The Dark Knight 的样品类型有两个地方显示,如图红框是三个:
![图片[1]-【爬虫心得】爬取IMDB Top250影片的类型入门-曦颜博客 - 咪博网](https://blog.vaimibao.top/wp-content/uploads/2022/07/2022071211292677-1024x786.png)
在页面下方Storyline下却显示四个,如图红框:
![图片[2]-【爬虫心得】爬取IMDB Top250影片的类型入门-曦颜博客 - 咪博网](https://blog.vaimibao.top/wp-content/uploads/2022/07/20220712113033667-1024x660.png)
利用常规的右键查看网页源代码找不到该信息,后发现Storyline是动态加载的,所以弃用requests库使用selenium。
Selenium爬取过程
最后
代码是初版,后续可以完善优化,如有错误,指点一下,谢谢!
| 发布于上海© 版权声明
THE END
请登录后查看评论内容