剪切中文文本的 python jieba 库
最编程
2024-04-27 22:04:02
...
jieba是中文文本用于分词的库,有3种模式:精确模式、全模式(所有可能的分割)、搜索引擎模式(在精确模式基础上再进行分割)
具体参考PYPI
# coding=utf-8 import jieba #txt = open(u"D:\data\ebook\红楼梦.txt","r").read() #,encoding='utf-8' txt = open("D:\\data\\ebook\\1.txt","r",encoding='utf-8').read() words = jieba.lcut_for_search(txt) # 使用搜索引擎模式对文本进行分词 counts = {} # 通过键值对的形式存储词语及其出现的次数 for word in words: print(word) if len(word) == 1: # 长度为1的词语不计算在内 continue else: counts[word] = counts.get(word, 0) + 1 # 遍历所有词语,每出现一次其对应的值加 1 items = list(counts.items())#将键值对转换成列表 items.sort(key=lambda x: x[1], reverse=True) # 根据词语出现的次数进行从大到小排序 for i in range(5): word, count = items[i] print("{0:<5}{1:>5}".format(word, count))
注:1.txt
王西风在吃大枣,林黛玉在看书,宝玉发呆呢。。。。。 王西风吃完大枣后被宝玉叫住问:”大枣好不好吃?“,西风苦涩地说:”不好吃,涩得很,你想吃吗?“ 宝玉说,”不好吃的话我就不吃了,算了。“,接着他去黛玉那里看了看黛玉正在看的书,觉得都是写伤感的东西,很不感兴趣。
得到的分词结果,统计次数的前5个答案如下,可以看出,这个中文文本分割只是简单分割,有一定的缺点:不能根据语义进行分割,文本的意思是大枣不好吃,它分割成了好吃,林黛玉和黛玉是一个人,它分割成了两个分词。
('西风', 3),
('大枣', 3),
('宝玉', 3),
('好吃', 2),
('林黛玉', 1)
原文地址:https://www.cnblogs.com/pandas-blue/p/11731855.html
上一篇: halcon-distance_pl 计算点与直线之间的垂直距离
下一篇: 非常了解子网和超级网
推荐阅读
-
文本分析--使用 jieba 库进行中文分词和去活字(附案例研究)
-
剪切中文文本的 python jieba 库
-
Python 第三方库 jieba(卡顿-中文分割器)入门与进阶(官方文档)
-
Python 中文词库中的 jieba(口吃分词)详细使用了
-
第十三期【传奇开心果系列】Python的文本与语音相互转换库技术点案例:微软Azure的Face API开发人脸识别门禁系统经典案例-博文目录
-
使用Python jieba库进行SEO优化:基础操作与实战案例解析——来自微信公众号‘布鲁的python’分享
-
如何轻松解决Python mplfinance库最新版本的中文显示乱码问题
-
用Python 3.10 实现 Whisper 中文语音识别和文本转换的优化方法
-
码农必备的8大工具神器:在线图片压缩超好用!-网址:https://worldvectorlogo.com/ 网络异常,图片无法展示 | 在写文档、做行业调研、制作ppt时,经常遇到需要下载某个公司的logo文件问题,有的可以直接官网找到,有的却很难找到高清版本的logo图片。 这个网址收集了全球知名企业logo源文件,svg格式,可以免费下载不限次数,一直被我安利给身边的朋友们,网站界面操作也非常简单。 文档翻译神器-DeepL 网址:https://www.deepl.com/zh/translator 网络异常,图片无法展示 | 比某歌某道好用几倍的翻译软件,词汇和语法相对来说都用的更地道,机翻痕迹较少;而且支持整篇文档上传翻译,临时看英文文献的效率翻倍;最重要的是免费! 它支持26种语言之间的互译,而且译文基本都可以直接拿来使用。打开界面,可以看到它会自动检测语言,并且默认译文是中文,我们也可以根据自己需求来设置语言。然后,手动输入需要翻译的内容或者直接粘贴到文本框。最后,它会快速翻译,翻译结果支持一键复制到剪切板,方便后续使用。 在线小工具合集-蛙蛙工具 网址:https://www.iamwawa.cn/ 网络异常,图片无法展示 | “蛙蛙在线工具“是一个包含大量在线工具网站,包含语言工具,便民查询,转换工具,生理健康,站长工具等等的网站。 类似于个人所得税计算这样的工具,我只是偶尔用到 ,并不想单独存一个网站,这个工具就很好的帮我解决了这个问题,无需登录,在线使用,用完即走。
-
【Python+中文NLP】(一) NLTK库的应用示例