【爬虫心得】爬取IMDB Top250影片的类型入门

【爬虫心得】爬取IMDB Top250影片的类型入门

前言

分享对于Python刚入门及爬虫刚入门的同学分享小思路。

前几天接收到一个爬虫单,在爬取过程中遇到了爬取信息错误,于是换了方法去爬取。接下来分享下遇到问题的解决方法。

客户需求

  1. 爬取IMDB Top250影片的名称、评分、类型、出品公司、出品国家、时长等
  2. 正确爬取后利用Python Web框架实现数据可视化Echarts

问题的出现

首先一开始利用requests库可完整爬取所需信息,验收时客户说影片类型爬取错误,如下示例:

影片:The Dark Knight 的样品类型有两个地方显示,如图红框是三个:

图片[1]-【爬虫心得】爬取IMDB Top250影片的类型入门-曦颜博客 - 咪博网

在页面下方Storyline下却显示四个,如图红框:

图片[2]-【爬虫心得】爬取IMDB Top250影片的类型入门-曦颜博客 - 咪博网

利用常规的右键查看网页源代码找不到该信息,后发现Storyline是动态加载的,所以弃用requests库使用selenium。

Selenium爬取过程

最后

代码是初版,后续可以完善优化,如有错误,指点一下,谢谢!

| 发布于上海
© 版权声明
THE END
嘿嘿,喜欢就请我喝杯奶茶吧~
点赞4打赏 分享
评论 共3条

请登录后发表评论

    请登录后查看评论内容