剪切中文文本的 python jieba 库

最编程 2024-04-27 22:04:02

...

jieba是中文文本用于分词的库，有3种模式：精确模式、全模式（所有可能的分割）、搜索引擎模式（在精确模式基础上再进行分割）

具体参考PYPI

# coding=utf-8
import  jieba

#txt = open(u"D:\data\ebook\红楼梦.txt","r").read() #,encoding='utf-8'
txt = open("D:\\data\\ebook\\1.txt","r",encoding='utf-8').read()
words = jieba.lcut_for_search(txt)     # 使用搜索引擎模式对文本进行分词
counts = {}     # 通过键值对的形式存储词语及其出现的次数

for word in words:
    print(word)
    if  len(word) == 1:    # 长度为1的词语不计算在内
        continue
    else:
        counts[word] = counts.get(word, 0) + 1    # 遍历所有词语，每出现一次其对应的值加 1
        
items = list(counts.items())#将键值对转换成列表
items.sort(key=lambda x: x[1], reverse=True)    # 根据词语出现的次数进行从大到小排序

for i in range(5):
    word, count = items[i]
    print("{0:<5}{1:>5}".format(word, count))

注：1.txt

  王西风在吃大枣，林黛玉在看书，宝玉发呆呢。。。。。
王西风吃完大枣后被宝玉叫住问：”大枣好不好吃？“，西风苦涩地说：”不好吃，涩得很，你想吃吗？“
宝玉说，”不好吃的话我就不吃了，算了。“，接着他去黛玉那里看了看黛玉正在看的书，觉得都是写伤感的东西，很不感兴趣。

得到的分词结果，统计次数的前5个答案如下，可以看出，这个中文文本分割只是简单分割，有一定的缺点：不能根据语义进行分割，文本的意思是大枣不好吃，它分割成了好吃，林黛玉和黛玉是一个人，它分割成了两个分词。

('西风', 3),
('大枣', 3),
('宝玉', 3),
('好吃', 2),
('林黛玉', 1)

原文地址：https://www.cnblogs.com/pandas-blue/p/11731855.html

上一篇： halcon-distance_pl 计算点与直线之间的垂直距离

下一篇：非常了解子网和超级网

剪切中文文本的 python jieba 库

文本分析--使用 jieba 库进行中文分词和去活字（附案例研究）

剪切中文文本的 python jieba 库

Python 第三方库 jieba（卡顿-中文分割器）入门与进阶（官方文档）

Python 中文词库中的 jieba（口吃分词）详细使用了

第十三期【传奇开心果系列】Python的文本与语音相互转换库技术点案例：微软Azure的Face API开发人脸识别门禁系统经典案例-博文目录

使用Python jieba库进行SEO优化：基础操作与实战案例解析——来自微信公众号‘布鲁的python’分享

如何轻松解决Python mplfinance库最新版本的中文显示乱码问题

用Python 3.10 实现 Whisper 中文语音识别和文本转换的优化方法

【Python+中文NLP】（一） NLTK库的应用示例