一个小的爬虫实例——爬取百度贴吧图片
下载百度贴吧的一个页面的图片,代码如下:http://tieba.baidu.com/p/4109803644#!/usr/bin/python#coding:utf8import reimport urllib#获取页面htmldef getHtml(url):page = urllib.urlopen(url)html = page.read()return
·
下载百度贴吧的一个页面的图片,代码如下:
http://tieba.baidu.com/p/4109803644
#!/usr/bin/python
#coding:utf8
import re
import urllib
#获取页面html
def getHtml(url):
page = urllib.urlopen(url)
html = page.read()
return html
def getImg(html):
#图片正则
res = r'src="(.+?\.jpg)" ><br><img class="'
imgUrlList = re.findall(res, html)
i = 0
for imgUrl in imgUrlList:
#下载图片
urllib.urlretrieve(imgUrl, "%s.jpg" %i)
i+=1
if __name__=="__main__":
html = getHtml("http://tieba.baidu.com/p/4109803644")
getImg(html)
更多推荐
已为社区贡献5条内容
所有评论(0)