爬取智联招聘的招聘信息

#!/usr/bin/python#encoding:utf-8import requestsfrom bs4 import BeautifulSoupimport codecsimport xlwtfrom xlutils.copy import copyfrom xlrd import open_workbookimport osclass Spid

浅汐王

794人浏览 · 2017-10-08 14:57:34

浅汐王 · 2017-10-08 14:57:34 发布

#!/usr/bin/python
#encoding:utf-8
import requests
from bs4 import BeautifulSoup
import codecs
import xlwt
from xlutils.copy import copy
from xlrd import open_workbook
import os

class Spider():
def __init__(self):
self.url = 'http://sou.zhaopin.com/jobs/searchresult.ashx?'
self.headers={
'Accept':'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding':'gzip, deflate, sdch',
'Accept-Language':'zh-CN,zh;q=0.8',
'Cache-Control':'max-age=0',
'Connection':'keep-alive',
'User-Agent':'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
}

self.data={
'ji':'上海',
'kw':'大数据',
'p':1,
'isadv':0
}
self.filename='./zlzp.xls'
f=xlwt.Workbook(encoding='utf-8')
sheet1=f.add_sheet('sheet1')
row=['position', 'company', 'salary', 'address', 'data']
for i in range(len(row)):
sheet1.write(0,i,row[i])
f.save(self.filename)

def Zlzp(self):
html=requests.get(self.url,headers=self.headers,params=self.data)
soup=BeautifulSoup(html.text,'html.parser')

# f=codecs.open('./zhilian.html','w','utf-8')
# f.write(html.text)
# f.close()

newlist=soup.find('div',{'class':'newlist_list_content'})
tables=newlist.findAll('table',{'newlist'})
line = 1

for i in range(1,len(tables)):
table=tables[i]
link=table.find('a')['href']
link=str(link)
position, company, salary, address, data=self.get_info(link)
print position, company, salary, address, data
rb=open_workbook(self.filename)
wb=copy(rb)
jobData=[position.decode('utf-8'), company.decode('utf-8'), salary.decode('utf-8'), address.decode('utf-8'), data.decode('utf-8')]
sheet=wb.get_sheet(0)
for j in range(len(jobData)):
sheet.write(line,j,jobData)
line+=1
os.remove(self.filename)
wb.save(self.filename)

def get_info(self,link):
header = {
'Accept': 'text/html,application/xhtml+xml,application/xml;q=0.9,image/webp,*/*;q=0.8',
'Accept-Encoding': 'gzip, deflate, sdch',
'Accept-Language': 'zh-CN,zh;q=0.8',
'Cache-Control': 'max-age=0',
'Connection': 'keep-alive',
'User-Agent': 'Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/57.0.2987.133 Safari/537.36'
}

html=requests.get(link,headers=header)
soup=BeautifulSoup(html.text,'html.parser')
try:
tfb=soup.find('div',{'class':'top-fixed-box'})

position=tfb.find('h1').text.encode('utf-8') #地点
company=tfb.find('h2').text.encode('utf-8') #公司
tpl=soup.find('div',{'class':'terminalpage-left'})

tuc=tpl.find('ul',{'class':'terminal-ul clearfix'})
lis=tuc.findAll('li')

salary=lis[0].find('strong').text.encode('utf-8') #工资
address=lis[1].find('strong').text.encode('utf-8') #地点
data=lis[2].find('strong').text.encode('utf-8') #日期

return position,company,salary,address,data
except Exception as e:
print e

if __name__ == '__main__':
spider=Spider()
spider.Zlzp()

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生