爬取清华大学新闻网中的最新动态,获取每条动态的题目、时间、链接等相关信息。

文章正文

发布时间：2024-09-05 12:10

这里数据是抓取到了，但是太乱了，并且还有很多不是我们想要的，下面就通过遍历来提炼出我们的有效信息。分析上图我们要抓取的信息再div中的a标签和img标签里，所以我们要想的就是怎么获取到这些信息。爬取到的数据目前只做展示，等我学完Python操作数据库以后会把爬取到的数据保存到数据库。这里就要用到我们导入的BeautifulSoup4库了，这里的关键代码。上面代码获取到的allList就是我们要获取的新闻列表，抓取到的如下。这就是Python3的爬虫简单入门，是不是很简单，建议大家多敲几遍。