python爬虫-- 爬取51job网招聘信息

项目概览

在浏览器上访问51job 官方网站，并在搜索框输入关键词“Python”，地点选在“西安”，单击”搜索“按钮进入搜索页
在搜索页中，所有符合条件的职位信息以列表的形式排序设有分页显示。每条职位信息是一个URL 地址，通过URL 地址可以进入该职位的详情页。
职位详情页也是数据爬取的页面，爬取的数据信息有：职位名称、企业名称、待遇、福利以及职位要求等等。

项目框架

项目的开发工具选择 Requests模块和 BeautifulSoup 模块实现了爬虫开发和数据清洗。
数据存储选择 Sqlalchemy 框架
数据库选择Mysql

具体步骤

一：获取城市编号

- 通过观察搜索页的URL地址，我们就可以发现对应的搜索内容一样的时候，不同的城市对应的编号不一样。
如下图所示，我们可以从网页中找到area_array_s.js。从这个网页上有地区和编号之间的关系。
下面的代码是获取城市编号

def get_city_code():
    url = 'https://js.51jobcdn.com/in/js/h5/dd/d_jobarea.js?20191212'
    r = requests.get(url)
    begin = r.text.find('var hotcity')
    if begin == -1:
        print('Not find var hotcity')
    # print(begin)
    end = r.text.find(';',begin)
    if end == -1:
        print('Not find ; ')
    # print(end)
    result_text = r.text[begin : end-1]
    #print(result_text)
    begin = result_text.find('{')
    city_dict_str = result_text[begin:]
    # print(city_dict_str)
    key,value = "",""
    key_list,value_list = [],[]
    count = 1
    i = 0
    while i < len(city_dict_str):
        if city_dict_str[i] == '"' and count == 1:
            count = 2
            i += 1
            while city_dict_str[i] != '"':
                key += city_dict_str[i]
                i += 1
            key_list.append(key)
            key = ""
            i += 1
        if city_dict_str[i] == '"' and count == 2:
            count = 1
            i += 1
            while city_dict_str[i] != '"':
                value += city_dict_str[i]
                i += 1
            value_list.append(value)
            value = ""
            i += 1
        i += 1
    city_dict = {}
    i = 0
    while i < len(key_list):
        city_dict[value_list[i]] = key_list[i]
        i += 1
    # print(city_dict)
    return city_dict

获取招聘职位总页数

当我们搜索Python+西安的时候，会看到以下网页。
获取城市编号之后，就可以动态的构建搜索页的URL地址，实现不同地点的不同关键词的职位搜索。在爬取职位信息之前，还需要确定当前职位的总页数，因为同一职位可能会有成千上万条招聘信息，而这些招聘信息都会进行分页处理。
那我们总页数的获取方式可以为通过总职位数除以每一页的职位数。通过观察便可以知道每页的职位数上限是50。总职位数可以从”Doc“选项卡里找到相应的位置。
代码如下：

headers = {
    'User-Agent' : 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/79.0.3945.117 Safari/537.36',
    'Host' : 'search.51job.com',
    'Upgrade-Insecure-Requests' : '1'
}

# 获取职位总页数
def get_pageNumber(city_code,keyword):
    url = 'https://search.51job.com/list/' + str(city_code) + 
          ',000000,0000,00,9,99,' + str(keyword) + ',2,1.html'
    r = requests.get(url=url,headers=headers)
    soup = BeautifulSoup(r.content.decode('gbk'),'html5lib')
    find_page = soup.find('div',class_='rt').getText()
    temp = re.findall(r"d+.?d*",find_page)
    if temp:
        pageNumber = math.ceil(int(temp[0])/50)
        return pageNumber
    else:
        return 0

爬取每个职位信息

这是两个循环。遍历总页数和遍历每页的职位信息。
遍历总页数：每次遍历需要重新构建搜索页的URL地址，使当前遍历的次数对于搜索页的页数。构建后的URL地址发送HTTP请求并从响应内容提取当前页面的所有职位信息。
遍历每页的职位信息：对当前搜索页的所有职位的URL 地址进行遍历访问，通过发哦送HTTP请求进入每个职位的详情页，在职位详情页里爬取目标数据。
代码比较多，我就不贴了，大家可以去我的githup查看"get_info"函数。