复制
收藏
提问
简洁
编写python代码,实现用编程的方式统计输出名为 report.txt文件中前 20 个重要关键词 及其出现次数
3月前
全网
文档
学术
百科
知识库
回答简洁模式
深入研究一些
要编写Python代码以统计并输出名为report.txt
文件中的前20个重要关键词及其出现次数,我们可以采用以下步骤:
- 读取文件内容:使用
open()
函数读取文件内容。 - 中文分词:使用
jieba
库进行中文分词。 - 统计词频:对分词后的结果进行词频统计。
- 排序并输出:根据词频对关键词进行排序,并输出前20个关键词及其出现次数。
以下是实现这一功能的示例代码:
import jieba
from collections import Counter
# 读取文件内容
with open('report.txt', 'r', encoding='utf-8') as file:
text = file.read()
# 使用jieba进行中文分词
words = jieba.lcut(text, cut_all=False)
# 统计词频
word_counts = Counter(words)
# 获取出现次数最多的前20个关键词
top_20_words = word_counts.most_common(20)
# 输出前20个关键词及其出现次数
for word, count in top_20_words:
print(f'关键词: {word}, 出现次数: {count}')
这段代码首先读取report.txt
文件中的文本内容78。然后,使用jieba.lcut
方法进行中文分词,cut_all=False
参数表示采用精确模式分词6。接着,使用collections.Counter
对分词结果进行词频统计2。最后,通过most_common(20)
方法获取出现次数最多的前20个关键词,并使用print()
函数输出这些关键词及其出现次数5。
请注意,这段代码假设report.txt
文件是文本格式,并且其编码为UTF-8。如果文件编码不同,需要相应地调整open()
函数中的encoding
参数。此外,这段代码没有去除停用词,如果需要去除停用词,可以在分词后对结果进行过滤处理。1
你觉得结果怎么样?