一个小的爬虫实例——爬取百度贴吧图片

alphabeta12345

1272人浏览 · 2015-10-25 16:34:08

alphabeta12345 · 2015-10-25 16:34:08 发布

下载百度贴吧的一个页面的图片，代码如下：
http://tieba.baidu.com/p/4109803644

#!/usr/bin/python
#coding:utf8

import re
import urllib

#获取页面html
def getHtml(url):
    page = urllib.urlopen(url)
    html = page.read()

    return html

def getImg(html):
    #图片正则
    res = r'src="(.+?\.jpg)" ><br><img class="'
    imgUrlList = re.findall(res, html)

    i = 0
    for imgUrl in imgUrlList:
        #下载图片
        urllib.urlretrieve(imgUrl, "%s.jpg" %i) 
        i+=1


if __name__=="__main__":
    html = getHtml("http://tieba.baidu.com/p/4109803644")
    getImg(html)

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

cover

Kaldi之父，IEEE Fellow，小米首席语音科学家Daniel Povey将出席2024全球机器学习技术大会并发表演讲！

CSDN学习社区

cover

探索神经网络在商品销售和图像识别中的应用

CSDN学习社区

cover

基于stm32F103的座面声控台灯

CSDN学习社区

所有评论(0)

查看更多评论

alphabeta12345

已为社区贡献5条内容