欢迎您访问 最编程 本站为您分享编程语言代码,编程技术文章!
您现在的位置是: 首页

HITP ltp ---- 用户自定义字典

最编程 2024-03-24 13:02:57
...

nlp项目正在进行的如火如荼,优点缺点、技术团队等等都提取的差不多了。但技术名词提取还有些差强人意,在技术摄取中想保留原来设计的技术关键字。

为了解决这个问题,我们首先要创建一个文件,保存我们自定义的一些技术关键字,每行一条数据,就取名为dict.txt吧。

$ cat dict.txt
隔膜电解法
反渗透法
硫化物沉淀法
离子交换法

废话不多说, 先上代码, 大家一看就懂。

#!/usr/bin/python3
# -*- coding: utf-8 -*-

from pyltp import Segmentor

segmentor = Segmentor()
model_path = '/home/jupyterhub/ltp_data_v3.4.0/cws.model'
user_dict = '/home/jupyterhub/codes/scripts/dict.txt'
segmentor.load_with_lexicon(model_path, user_dict)

sent='可应用方法如中和沉淀法、硫化物沉淀法、上浮分离法、电解沉淀(或上浮)法、电解法、隔膜电解法等;二是将废水中的重金属在不改变其化学形态的条件下进行浓缩和分离,可应用方法有反渗透法、电渗析法、蒸发法和离子交换法等'

words = segmentor.segment(sent)
print('\t'.join(words))

运行结果 :

由结果可以看出: 我们自定义了四个技术关键字,有三个技术关键字都正确提取出来了, 唯有“硫化物沉淀法” 总是提取失败, 再增加别的关键词也可以正确提出来, 不知道这是不是个bug^_^

原文地址:https://www.cnblogs.com/kongzhagen/p/13665193.html