所需数据所相匹配的标签所有找到,可是必须留意,在获取‘排行’和‘是多少驴友来过’这两个标签信息内容情况下,不可以立即精准定位到最终一级的标签(也就是【‘span’,class_=“sum”】),由于这两个数据相匹配的最终一级标签是一样的,因此 要先找到他们的上一级标签,在获取相对的数据
获取全部数据的编码以下:(留意‘排行’数据的获取,有一部分是空值,因此 立即开展母标签的获取,不可以开展子标签的获取)
輸出的結果为:核查一下,主页的第一条度假旅游数据和輸出的結果数据,能够发觉結果是一致的
封裝第二个涵数第一条游玩景点数据尝试错误进行后就可以开展遍历数据輸出,并封裝变成涵数,便捷启用电話采集软件的数据。
輸出的結果为:
相匹配这两个游玩景点的原网页页面以下:(能够看得出最后获取的数据是和原网页的数据是搭配的)
接着就是开展所有数据的輸出与储存,在此全过程中,也要开展不正确出现异常的解决
輸出的結果为:数据清理,数据清理在spyder里边开展,防止爬虫代码的不断运作,到此去哪儿网旅游景点数据收集新项目的整个过程就早已分析结束了,下边是所有的编码和輸出結果
輸出的結果为:
去哪儿网数据抓取.xlsx文档中的內容以下:(能够看得出最终将数据数据统统转化成了标值型,并非文字型)
Copyright © 2019-2020 易采客科技 版权所有 Power by www.fatureseo.com
网站地图