爬取京东的男装--”牌子”货信息

爬取如上的几十条信息

每个图片都有一个对应的品牌信息

看后台代码:

图片信息和名称在这里

 

 

#!/usr/bin/env python
# -*- encoding: utf-8 -*-
# Created on 2019-01-23 10:25:59
# Project: JD

from pyspider.libs.base_handler import *
import os

class Handler(BaseHandler):
    crawl_config = {
    }
    def __init__(self):
        self.base_dir ="D:\\JD"

    @every(minutes=24 * 60)
    def on_start(self):
        self.crawl('https://search.jd.com/Search?keyword=%E7%94%B7%E8%A3%85&enc=utf-8&wq=%E7%94%B7%E8%A3%85&pvid=97c29de04971462aac5bc8d7a6f3b829',callback=self.index_page,validate_cert=False)

    @config(age=10 * 24 * 60 * 60)
    def index_page(self, response):        
        for ide in response.doc(".sl-v-logos > ul li a").items():
            mk_name=ide.text().encode("gbk")
            mk_text=ide.attr("href")+'\n' 
            mk_dir=self.base_dir+"\\"+mk_name
            img_name=mk_dir+"\\"+"img"
            if not os.path.exists(mk_dir):
                os.mkdir(mk_dir)
            if not os.path.exists(img_name):
                os.mkdir(img_name) 
        text_name=open(mk_dir+"\\"+mk_name+".txt","w")
        text_name.write(mk_text)
        text_name.flush()
        text_name.close()
               
        for img in response.doc(".sl-v-logos > ul li a img").items():
            
            print img.attr("src")+'\n'
            img_url=img.attr("src")
            self.crawl(img_url,callback=self.img1_page,validate_cert=False,save={"img_url":img_url})        
        

        
    @config(age=10 * 24 * 60 * 60)
    def img1_page(self, response):
        img1_page=response.save['img_url']
        print(img1_page)
        img_data=response.content         
        img_file=open(img1_page)
        img_file.write(img_data)
        img_file.flush()
        img_file.close()
                
        
        
        
        
        
        

最后知道图片的链接,但下载不了图片,也上网搜了好多案例,但pyspider例子太少了,涉及到图片的都是别的开发工具和别的包----最后只知道了图片的链接,并没有下载下来。保存链接啥的都没有问题,可以通过gbk格式保存到本地的txt文件里...可以说这是一个失败的例子吧。但还是传上来做个纪念。以后就会好的!

有兴趣赐教的大神也可评论解惑,万分感谢,小生先有礼谢过>_<

加油!

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐