admin管理员组文章数量:1122852
作为一个热爱学习的社会主义接班人,接下来一段时间我将持续更新python爬虫这一块的内容
在博客里将会持续并认真的记录我的学习过程
首先介绍一下我的学习环境: win10+Anaconda+Pycharm,默认会一些python的基础知识
希望我的博客能够给你带来帮助 - ̗̀(๑ᵔ⌔ᵔ๑)
下面进入正题:
爬取网站链接:https://hr.tencent/social.php
过程主要分为三部分:
1.获取整体页面数据
2.抽取想要的数据
3.数据存储
在开始之前,你要学会安装第三方库,pycharm的同学可以在终端(Terminal)里使用pip install + 库名进行安装
获取页面整体数据
1.初始化函数,使用请求头进行访问
大括号内输入你自己浏览器的请求头
获取请求头的方法:
打开一个网页,按F12(或者Fn+F12),刷新一下,选择network,在左侧随便选择一个(一般里面都可以找到,没有的话你就多换两个试试),右侧可以找到user-agent,这个就是你电脑浏览器的请求头啦~~
如下是我定义的请求头
def __init__(self):
self.headers = {'User-Agent':"Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/72.0.3626.81 Safari/537.36" }
2.选择一个你喜欢的岗位和地区,然后翻页观察一下网址有什么变化吧~
第一页 : https://hr.tencent/position.php?key
版权声明:本文标题:Python入门爬虫1 腾讯招聘网站岗位爬取 内容由网友自发贡献,该文观点仅代表作者本人, 转载请联系作者并注明出处:http://www.betaflare.com/biancheng/1726441800a1097434.html, 本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容,一经查实,本站将立刻删除。
发表评论