01-NLP-02-gensim 中文处理案例
最编程
2024-04-29 17:24:03
...
In [1]: import gensim
In [2]: model = gensim.models.Word2Vec.load("wiki.zh.text.model")
In [3]: model.most_similar(u"足球")
Out[3]:
[(u'\u8054\u8d5b', 0.6553816199302673),
(u'\u7532\u7ea7', 0.6530429720878601),
(u'\u7bee\u7403', 0.5967546701431274),
(u'\u4ff1\u4e50\u90e8', 0.5872289538383484),
(u'\u4e59\u7ea7', 0.5840631723403931),
(u'\u8db3\u7403\u961f', 0.5560152530670166),
(u'\u4e9a\u8db3\u8054', 0.5308005809783936),
(u'allsvenskan', 0.5249762535095215),
(u'\u4ee3\u8868\u961f', 0.5214947462081909),
(u'\u7532\u7ec4', 0.5177896022796631)]
In [4]: result = model.most_similar(u"足球")
In [5]: for e in result:
print e[0], e[1]
....:
联赛 0.65538161993
甲级 0.653042972088
篮球 0.596754670143
俱乐部 0.587228953838
乙级 0.58406317234
足球队 0.556015253067
亚足联 0.530800580978
allsvenskan 0.52497625351
代表队 0.521494746208
甲组 0.51778960228
In [6]: result = model.most_similar(u"男人")
In [7]: for e in result:
print e[0], e[1]
....:
女人 0.77537125349
家伙 0.617369174957
妈妈 0.567102909088
漂亮 0.560832381248
잘했어 0.540875017643
谎言 0.538448691368
爸爸 0.53660941124
傻瓜 0.535608053207
예쁘다 0.535151124001
mc刘 0.529670000076
In [8]: result = model.most_similar(u"女人")
In [9]: for e in result:
print e[0], e[1]
....:
男人 0.77537125349
我的某 0.589010596275
妈妈 0.576344847679
잘했어 0.562340974808
美丽 0.555426716805
爸爸 0.543958246708
新娘 0.543640494347
谎言 0.540272831917
妞儿 0.531066179276
老婆 0.528521537781
In [10]: result = model.most_similar(u"青蛙")
In [11]: for e in result:
print e[0], e[1]
....:
老鼠 0.559612870216
乌龟 0.489831030369
蜥蜴 0.478990525007
猫 0.46728849411
鳄鱼 0.461885392666
蟾蜍 0.448014199734
猴子 0.436584025621
白雪公主 0.434905380011
蚯蚓 0.433413207531
螃蟹 0.4314712286
In [12]: result = model.most_similar(u"姨夫")
In [13]: for e in result:
print e[0], e[1]
....:
堂伯 0.583935439587
祖父 0.574735701084
妃所生 0.569327116013
内弟 0.562012672424
早卒 0.558042645454
曕 0.553856015205
胤祯 0.553288519382
陈潜 0.550716996193
愔之 0.550510883331
叔父 0.550032019615
In [14]: result = model.most_similar(u"衣服")
In [15]: for e in result:
print e[0], e[1]
....:
鞋子 0.686688780785
穿着 0.672499775887
衣物 0.67173999548
大衣 0.667605519295
裤子 0.662670075893
内裤 0.662210345268
裙子 0.659705817699
西装 0.648508131504
洋装 0.647238850594
围裙 0.642895817757
In [16]: result = model.most_similar(u"*局")
In [17]: for e in result:
print e[0], e[1]
....:
司法局 0.730189085007
*厅 0.634275555611
* 0.612798035145
房管局 0.597343325615
商业局 0.597183346748
军管会 0.59476184845
体育局 0.59283208847
财政局 0.588721752167
戒毒所 0.575558543205
新闻办 0.573395550251
In [18]: result = model.most_similar(u"铁道部")
In [19]: for e in result:
print e[0], e[1]
....:
盛光祖 0.565509021282
交通部 0.548688530922
批复 0.546967327595
刘志军 0.541010737419
立项 0.517836689949
报送 0.510296344757
计委 0.508456230164
水利部 0.503531932831
国务院 0.503227233887
经贸委 0.50156635046
In [20]: result = model.most_similar(u"清华大学")
In [21]: for e in result:
print e[0], e[1]
....:
北京大学 0.763922810555
化学系 0.724210739136
物理系 0.694550514221
数学系 0.684280991554
中山大学 0.677202701569
复旦 0.657914161682
师范大学 0.656435549259
哲学系 0.654701948166
生物系 0.654403865337
中文系 0.653147578239
In [22]: result = model.most_similar(u"卫视")
In [23]: for e in result:
print e[0], e[1]
....:
湖南 0.676812887192
中文台 0.626506924629
収蔵 0.621356606483
黄金档 0.582251906395
cctv 0.536769032478
安徽 0.536752820015
非同凡响 0.534517168999
唱响 0.533438682556
最强音 0.532605051994
金鹰 0.531676828861
In [26]: result = model.most_similar(u"林丹")
In [27]: for e in result:
print e[0], e[1]
....:
黄综翰 0.538035452366
蒋燕皎 0.52646958828
刘鑫 0.522252976894
韩晶娜 0.516120731831
王晓理 0.512289524078
王适 0.508560419083
杨影 0.508159279823
陈跃 0.507353425026
龚智超 0.503159761429
李敬元 0.50262516737
In [28]: result = model.most_similar(u"语言学")
In [29]: for e in result:
print e[0], e[1]
....:
社会学 0.632598280907
人类学 0.623406708241
历史学 0.618442356586
比较文学 0.604823827744
心理学 0.600066184998
人文科学 0.577783346176
社会心理学 0.575571238995
政治学 0.574541330338
地理学 0.573896467686
哲学 0.573873817921
In [30]: result = model.most_similar(u"计算机")
In [31]: for e in result:
print e[0], e[1]
....:
自动化 0.674171924591
应用 0.614087462425
自动化系 0.611132860184
材料科学 0.607891201973
集成电路 0.600370049477
技术 0.597518980503
电子学 0.591316461563
建模 0.577238917351
工程学 0.572855889797
微电子 0.570086717606
In [32]: model.similarity(u"计算机", u"自动化")
Out[32]: 0.67417196002404789
In [33]: model.similarity(u"女人", u"男人")
Out[33]: 0.77537125129824813
In [34]: model.doesnt_match(u"早餐 晚餐 午餐 中心".split())
Out[34]: u'\u4e2d\u5fc3'
In [35]: print model.doesnt_match(u"早餐 晚餐 午餐 中心".split())
中心
推荐阅读
-
01-NLP-02-gensim 中文处理案例
-
文本分析--使用 jieba 库进行中文分词和去活字(附案例研究)
-
1-Elasticsearch--自然语言处理和中文分词
-
位平面分层--数字图像处理(中文版)
-
接口请求和对象到 json 字段案例处理
-
基于 Python 的 OpenCV 视觉图像处理 OpenCV 简单人脸检测/识别 实用案例二 简单人脸检测 添加眼镜效果
-
功能接口 ✈️✈️]使用策略模式实现文件处理的案例
-
基于 Python 的 OpenCV 可视化图像处理 OpenCV 简单视频处理案例 Eleven 简单为视频图像添加水印效果
-
基于 OpenCV 的 Python 可视化图像处理实践 OpenCV 简单实践案例 No.
-
基于 Python 的 OpenCV 视觉图像处理 OpenCV 简单人脸检测/识别案例之十二 简单人脸识别