1,初始化获取商品目录及连接

#! python
# -*- coding:utf-8 -*-

import pprint
import json
import requests
from bs4 import BeautifulSoup

def get_text(url):
    r=requests.get(url)
    return r.text

Url0 = "http://www.xinfangsheng.com//" #目标站点

html_doc=get_text(Url0)
soup=BeautifulSoup(html_doc,'lxml')
content = soup.find_all(attrs={'class': 'mod_cate'}) 
#利用bs4库,筛选信息
#print(content[0]) 

meses=[] #存储爬取信息的字典

for item in content:
    mes={}
    mes['url'] = item.a.get('href')
    mes['name']=item.a.text
    mes['id'] = item.div.get('id')
    meses.append(mes)

with open('E:\\PC\\mes\\init.json','w',encoding='utf-8') as f:
    json.dump(meses,f,ensure_ascii=False)
    print("保存成功")

pprint.pprint(meses) #友好的打印得到的信息
2,获取的字典
content=[{'id': 'cate_270164', 'name': '工具、附件、耗材', 'url': 'P270164.html'},
        {'id': 'cate_270516', 'name': '紧固件', 'url': 'P270516.html'},
        {'id': 'cate_271009', 'name': '五金机电、机械轴承', 'url': 'P271009.html'},
        {'id': 'cate_270411', 'name': '焊接设备、工具及耗材', 'url': 'P270411.html'},
        {'id': 'cate_270607', 'name': '劳保安防、日杂用品', 'url': 'P270607.html'},
        {'id': 'cate_269774', 'name': '电工电料、电气辅件', 'url': 'P269774.html'},
        {'id': 'cate_269728', 'name': '灯具照明、灯具配件', 'url': 'P269728.html'},
        {'id': 'cate_269982', 'name': '给排水材料、管件', 'url': 'P269982.html'},
        {'id': 'cate_270459', 'name': '建筑/木工机械', 'url': 'P270459.html'},
        {'id': 'cate_270743', 'name': '水暖器材、阀门管件', 'url': 'P270743.html'},
        {'id': 'cate_271185', 'name': '油漆涂料、化工辅材', 'url': 'P271185.html'},
        {'id': 'cate_271103', 'name': '消防器材、空调通风', 'url': 'P271103.html'},
        {'id': 'cate_270976', 'name': '卫浴洁具', 'url': 'P270976.html'},
        {'id': 'cate_271286', 'name': '装饰材料、防水保温', 'url': 'P271286.html'},
        {'id': 'cate_270384', 'name': '管材/型材/板材/线材', 'url': 'P270384.html'}]


Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐