【Python脚本】-爬虫得到CSDN博客的文章访问量和评论量

对于CSDN博客，我们比较关注的就是文章的访问量和评论量。但是当文章多了之后，我们想看每篇文章的访问量变得很费劲。通过爬虫，我们可以把每篇博客的基本信息都能得到。之后，可以再进行进一步的统计分析。脚本如下：#!usr/bin/python# -*- coding: utf-8 -*-import urllib2import refrom bs4 import BeautifulSoup

Kevin_zhai

2478人浏览 · 2016-08-31 15:37:17

Kevin_zhai · 2016-08-31 15:37:17 发布

对于CSDN博客，我们比较关注的就是文章的访问量和评论量。但是当文章多了之后，我们想看每篇文章的访问量变得很费劲。通过爬虫，我们可以把每篇博客的基本信息都能得到。之后，可以再进行进一步的统计分析。脚本如下：

#!usr/bin/python
# -*- coding: utf-8 -*-
import urllib2
import re
from bs4 import BeautifulSoup

account = "Kevin_zhai"

baseUrl = 'http://blog.csdn.net'

'''
抓取页面信息
'''
def getPage(url):
    user_agent = 'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)'
    headers = {'User-Agent':user_agent}  #伪装成浏览器访问
    req = urllib2.Request(url,headers=headers)
    myResponse = urllib2.urlopen(req)
    myPage = myResponse.read()
    return myPage

'''
得到文章分页数目
'''	
def getNumber(url):
    myPage = getPage(url)
    soup = BeautifulSoup(myPage,'html.parser',from_encoding='utf-8')  #利用BeautifulSoup解析XML
    papeList = soup.find(id="papelist")
    numberList = papeList.contents[1].string.strip()
	#得到的string “ 97条  共7页”
	#用re.split可以匹配多个空格分隔
    numberStr = re.split(r'\s+', numberList)[1]
    number = numberStr[1:-1]
    return number

'''
得到所有文章的阅读量和评论数
'''
def getArticleDetails():
    myUrl = baseUrl + '/' +account
    number = getNumber(myUrl)
    page_num = 1
    linkList = []
    nameList = []
    dateList = []
    viewList = []
    commentList = []
    while page_num <= int(number):
        url = myUrl+'/article/list/'+str(page_num)   #博客文章列表链接
        myPage = getPage(url)
        soup = BeautifulSoup(myPage,'html.parser',from_encoding='utf-8')
        for h1 in soup.find_all('h1'):
            span = h1.contents[1]
            link = span.contents[0]['href'].strip() #博客文章链接
            name = span.contents[0].string.strip()  #博客文章名称
            linkList.append(baseUrl+link)
            nameList.append(name)
        for postdate in soup.find_all(class_="link_postdate"):
            publishDate = postdate.get_text()  #博客发表日期： 2016-08-22 10:36
            dateList.append(publishDate)
        for linkview in soup.find_all(class_="link_view"):            
            view = linkview.get_text()		#博客阅读量：42人阅读 
            viewList.append(view)
        for linkcomments in soup.find_all(class_="link_comments"):      
            comment = linkcomments.get_text()      #博客评论量
            commentList.append(comment)
        page_num = page_num + 1
    f = open("E:\ip.txt","w")
    for i in range(0,len(nameList)):
        string = nameList[i]+'\t'+linkList[i]+'\t'+dateList[i]+'\t'+viewList[i]+'\t'+commentList[i]+'\n'
        f.write(code(string))
    f.close()

def code(string):
    return string.encode("gb18030")     #写入文件时转化编码
	
if __name__ == "__main__":
    getArticleDetails()

运行后的结果如下：

CSDN学习社区

CSDN联合极客时间，共同打造面向开发者的精品内容学习社区，助力成长！

更多推荐

嵌入式作业（七）：基于Ardunio的STM32串口通信

嵌入式作业（七）0作业要求1Ardunio 完成STM32的串口通信（1）安装Ardunio IDE（2）stm32串口通信2关于 stduino IDE0作业要求安装 Ardunio IDE 和相关软件支持库，在Ardunio 完成STM32板子的串口通信程序：（1）持续向串口输出“Hello world！”；（2）当接收到“stop!”时，停止输出。网上有一个国人版的MCU集成开发平台， st

CSDN学习社区

JDBC详解

JDBC文章目录JDBC什么是JDBC?JDBC驱动程序:Java使用JDBC访问数据库的步骤:设置classpath:Oracle连接字符串的书写格式:简单的例子:常用数据库的驱动程序及JDBC URL:Oracle数据库:SQL Server数据库MySQL数据库Access数据库PreparedStatement接口:JNDI-数据源（Data Source）与连接池（Connection

CSDN学习社区

“模式识别与机器学习”学习笔记no2.再谈感知机

接**上篇：上篇主要进行了PLA，Pocket算法的理论过程分析和在给定数据集上利用pocket算法对数据集进行分类学习，得到错分数量最少的分类面。上篇中pocket算法的过程已经进行了编程和测试，框架已经建立了起来，这一篇主要上篇中没有提到或涉及不深的几个问题。1.数据集的构造。上篇是直接使用了题目给的向量，这次来根据正态分布来产生数据集。np.random.normal函数可以根据均值和方差生