安装

pip install snownlp
# 导入SnowNLP库
from snownlp import SnowNLP

情绪判断,返回值为正面情绪的概率,越接近1表示正面情绪,越接近0表示负面情绪

s = "这部电影真心棒,全程无尿点"
s2 = "这部电影简直烂到爆"
test = SnowNLP(s)
test2 = SnowNLP(s2)
print(test.sentiments, test2.sentiments)
0.9842572323704297 0.0566960891729531

分词

s = "我爱你"
test = SnowNLP(s)
print(test.words)
['我', '爱', '你']

词性标注

s = "我爱你"
test = SnowNLP(s)
for x in test.tags:
    print(x)
('我', 'r')
('爱', 'v')
('你', 'r')

断句

s = '李达康就是这样的人,她穷哭出声,不攀龙附凤,不结党营私,不同流合污,不贪污受贿,也不伪造政绩,手下贪污出事了他自责用人不当,服装厂出事了他没想过隐瞒,後面這些是繁體字'
test = SnowNLP(s)
print(test.sentences)
['李达康就是这样的人', '她穷哭出声', '不攀龙附凤', '不结党营私', '不同流合污', '不贪污受贿', '也不伪造政绩', '手下贪污出事了他自责用人不当', '服装厂出事了他没想过隐瞒', '後面這些是繁體字']

繁体转简体

s = '李达康就是这样的人,她穷哭出声,不攀龙附凤,不结党营私,不同流合污,不贪污受贿,也不伪造政绩,手下贪污出事了他自责用人不当,服装厂出事了他没想过隐瞒,後面這些是繁體字'
test = SnowNLP(s)
print(test.han)
李达康就是这样的人,她穷哭出声,不攀龙附凤,不结党营私,不同流合污,不贪污受贿,也不伪造政绩,手下贪污出事了他自责用人不当,服装厂出事了他没想过隐瞒,后面这些是繁体字

关键字抽取

s = '''
TF-IDF是一种统计方法,用以评估一字词对于一个文件集或一个语料库中的其中一份文件的重要程度。
TF词频越大越重要,但是文中会的“的”,“你”等无意义词频很大,却信息量几乎为0,这种情况导致单纯看词频评价词语重要性是不准确的。因此加入了idf
IDF的主要思想是:如果包含词条t的文档越少,也就是n越小,IDF越大,则说明词条t越重要
TF-IDF综合起来,才能准确的综合的评价一词对文本的重要性。
'''
test = SnowNLP(s)
print(test.keywords())
['词', '频', '评价', '语', '越']
Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐