爬虫项目_爬取商品信息
1,初始化获取商品目录及连接#! python# -*- coding:utf-8 -*-import pprintimport jsonimport requestsfrom bs4 import BeautifulSoupdef get_text(url):r=requests.get(url)return r.textUrl0 = "http://ww...
·
1,初始化获取商品目录及连接
#! python
# -*- coding:utf-8 -*-
import pprint
import json
import requests
from bs4 import BeautifulSoup
def get_text(url):
r=requests.get(url)
return r.text
Url0 = "http://www.xinfangsheng.com//" #目标站点
html_doc=get_text(Url0)
soup=BeautifulSoup(html_doc,'lxml')
content = soup.find_all(attrs={'class': 'mod_cate'})
#利用bs4库,筛选信息
#print(content[0])
meses=[] #存储爬取信息的字典
for item in content:
mes={}
mes['url'] = item.a.get('href')
mes['name']=item.a.text
mes['id'] = item.div.get('id')
meses.append(mes)
with open('E:\\PC\\mes\\init.json','w',encoding='utf-8') as f:
json.dump(meses,f,ensure_ascii=False)
print("保存成功")
pprint.pprint(meses) #友好的打印得到的信息
2,获取的字典
content=[{'id': 'cate_270164', 'name': '工具、附件、耗材', 'url': 'P270164.html'},
{'id': 'cate_270516', 'name': '紧固件', 'url': 'P270516.html'},
{'id': 'cate_271009', 'name': '五金机电、机械轴承', 'url': 'P271009.html'},
{'id': 'cate_270411', 'name': '焊接设备、工具及耗材', 'url': 'P270411.html'},
{'id': 'cate_270607', 'name': '劳保安防、日杂用品', 'url': 'P270607.html'},
{'id': 'cate_269774', 'name': '电工电料、电气辅件', 'url': 'P269774.html'},
{'id': 'cate_269728', 'name': '灯具照明、灯具配件', 'url': 'P269728.html'},
{'id': 'cate_269982', 'name': '给排水材料、管件', 'url': 'P269982.html'},
{'id': 'cate_270459', 'name': '建筑/木工机械', 'url': 'P270459.html'},
{'id': 'cate_270743', 'name': '水暖器材、阀门管件', 'url': 'P270743.html'},
{'id': 'cate_271185', 'name': '油漆涂料、化工辅材', 'url': 'P271185.html'},
{'id': 'cate_271103', 'name': '消防器材、空调通风', 'url': 'P271103.html'},
{'id': 'cate_270976', 'name': '卫浴洁具', 'url': 'P270976.html'},
{'id': 'cate_271286', 'name': '装饰材料、防水保温', 'url': 'P271286.html'},
{'id': 'cate_270384', 'name': '管材/型材/板材/线材', 'url': 'P270384.html'}]
更多推荐
所有评论(0)