百度贴吧爬虫【练手】

参考这个博客，看前面几章没什么感觉，还是到了这一章，参考实际的例子，自己动手写个东西出来的时候，需要自己查string、open等用法，边查边记边写理解的透彻。整体是照葫芦画瓢，为了练手用，也加了一些指定下载目录，默认下载目录等函数，可以直接运行#! -*- coding:utf-8 -*-#! usr/bin/python# 爬贴吧测试程序import string,urllib2

江前云后

1235人浏览 · 2015-04-06 10:59:36

江前云后 · 2015-04-06 10:59:36 发布

参考这个博客，看前面几章没什么感觉，还是到了这一章，参考实际的例子，自己动手写个东西出来的时候，需要自己查string、open等用法，边查边记边写理解的透彻。

整体是照葫芦画瓢，为了练手用，也加了一些指定下载目录，默认下载目录等函数，可以直接运行

#! -*- coding:utf-8 -*-
#! usr/bin/python
# 爬贴吧测试程序
import string,urllib2
import os
# 定义下载网页函数
def tieba_spider(url,begin_page,end_page,path):
	for i in xrange(begin_page,end_page+1):
		tname = string.zfill(i,4) + '.html'#保存成5位名称的html
		print '正在下载第' + str(i) + '个网页，并将其存储为' + tname
		f = open(path  + '\\' + tname,'w+')
		temp = urllib2.urlopen(url + str(i)).read()#读取网页内容
		f.write(temp)
		print '关闭当前已完成文件'
		f.close()

# 创建目录并返回路径
def mkdir(path):
	if path == '.\\':
		# 当前路径则新建临时文件夹
		path = '.\\temp'
		path = path.strip() # 去掉首尾空格
		path = path.rstrip('') # 去掉右侧 \ 符号
		exits = os.path.exists(path)
		if exits:
			print '路径已经存在'
			return path
		else:
			os.makedirs(path)
			print '路径' + path + '创建成功！'
	#非当前路径
	else:
		# 判断路径存在与否
		path = path.strip() # 去掉首尾空格
		path = path.rstrip('') # 去掉右侧 \ 符号
		exits = os.path.exists(path)
		if not exits: # 不存在路径就创建
			os.makedirs(path)
			print path + '创建成功'
		else:
			print path + '已经存在'
			return path
	return path

# 程序说明
print '这是一个下载贴吧网页的小程序，请按照下面格式说明输入数据，会将贴吧内容下载到指定路径'

# 输入网址、开始页，终止页
bdurl = str(raw_input(u'请输入贴吧网址，去掉"pn="后面的页码:\n'))
# 转换成int类型
begin_page = int(raw_input(u'请输入开始下载的页码:\n'))
end_page = int(raw_input('请输入结束页码:\n'))

# 调用函数
tieba_spider(bdurl,begin_page,end_page,mkdir('.\\'))

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生