python-django-spider
为啥学python完全和个人兴趣无关项目驱动学习学习途径菜鸟教程菜鸟教程里开始我只看了python基础部分,后面看了djangoB站教程主要是跟着视频敲敲代码,视频大同小异,多看几个UP的视频,还是有一批质量很不错的UP的开发工具pycharm坑和建议先看视频再去看菜鸟教程 菜鸟教程总结性的东西比较多 一开始如果直接看的话,很难消化下。在windows上熟悉了开发部署之后,建议去Linux上去练习
·
20210830
JD、PDD、TB目前有两个关键问题:
- IP受限 通过找靠谱的IP代理个人觉得问题不大
- 登录 贼TM恶心 各种操作逆向解析用户信息和加密的流程
20201027
- python基础
- django
- mysql
- w3c
假定你已经完成了上述课程的学习,或者说已经有了一定的爬虫经验
爬虫
关于爬虫的介绍,推荐一篇文章,里面对于爬虫的介绍很清晰
python 爬虫架构主要由五个部分组成,分别是
- 调度器
例:服务器 - URL管理器
例:某东的商品详情 - 网页下载器
例:requests - 网页解析器
例:bs4 - 应用程序(爬取的有价值数据)
例:mysql
坑
- 网站防爬
频繁调用有被封的风险
- 限制调用次数
- 使用代理IP(最好是高可用的独享池)
- 模仿浏览器调用
- 网页解析
bs4可以解析html内的内容,但js就爱莫能助了
所以
python正则就显得尤为重要了 - 多任务处理
单线程的情况下,龟速的效率能把你耗死,此时多任务处理可以很好的帮助提高效率。但多线程和高频次是相对的。 - 异常处理
try catch finally
更多推荐
已为社区贡献3条内容
所有评论(0)