用​Python统计剑桥14份真题词频!(含示例代码) - Go语言中文社区

用​Python统计剑桥14份真题词频!(含示例代码)


前言:

今天为大家带来的内容是Python英文文章词频统计(14份剑桥真题词频统计),文中通过示例代码介绍的非常详细,对大家的学习或者工作具有一定的参考学习价值,需要的朋友们下面随着小编来一起学习学习吧

​Python剑桥真题词频统计

提示:

最好还是要学以致用,小编自主搜集了19年最近的14份剑桥真题之后,通过Python提供的jieba第三方库,对所有的文章信息进行了词频统计,并选择性地剔除了部分简易词汇,比如:数字,普通冠词等,较懒,未清除干净。

Python代码如下:

12192974-84290a83fd0c8613
用​Python统计剑桥14份真题词频!(含示例代码)

先进行分词

words = jieba.cut(text, cut_all = False, HMM = True)

cut_all:是否采用全模式

HMM:是否采用HMM模型

word_ = {}
for word in words:
if (word.strip() not in stwlist):
if len(word) > 1:
if word != 't':
if word != 'rn':

计算词频

if word in word_:
word_[word] += 1
else:
word_[word] = 1

将结果保存为元组

word_freq = []
for word, freq in word_.items():
word_freq.append((word, freq))

降序排列

word_freq.sort(key = lambda x:x[1], reverse = True)

输出前3500个词汇

for i in range(3500):
word, freq = word_freq[i]
print('{0:10}{1:5}'.format(word, freq))

以上就是本文的全部内容啦!

python交流群:877562786(群里含大量学习资料,面试宝典等)

版权声明:本文来源CSDN,感谢博主原创文章,遵循 CC 4.0 by-sa 版权协议,转载请附上原文出处链接和本声明。
原文链接:https://blog.csdn.net/weixin_41334453/article/details/102805482
站方申明:本站部分内容来自社区用户分享,若涉及侵权,请联系站方删除。
  • 发表于 2020-02-13 10:50:40
  • 阅读 ( 1223 )
  • 分类:

0 条评论

请先 登录 后评论

官方社群

GO教程

猜你喜欢