HITP ltp ---- 用户自定义字典
最编程
2024-03-24 13:02:57
...
nlp项目正在进行的如火如荼,优点缺点、技术团队等等都提取的差不多了。但技术名词提取还有些差强人意,在技术摄取中想保留原来设计的技术关键字。
为了解决这个问题,我们首先要创建一个文件,保存我们自定义的一些技术关键字,每行一条数据,就取名为dict.txt吧。
$ cat dict.txt
隔膜电解法
反渗透法
硫化物沉淀法
离子交换法
废话不多说, 先上代码, 大家一看就懂。
#!/usr/bin/python3 # -*- coding: utf-8 -*- from pyltp import Segmentor segmentor = Segmentor() model_path = '/home/jupyterhub/ltp_data_v3.4.0/cws.model' user_dict = '/home/jupyterhub/codes/scripts/dict.txt' segmentor.load_with_lexicon(model_path, user_dict) sent='可应用方法如中和沉淀法、硫化物沉淀法、上浮分离法、电解沉淀(或上浮)法、电解法、隔膜电解法等;二是将废水中的重金属在不改变其化学形态的条件下进行浓缩和分离,可应用方法有反渗透法、电渗析法、蒸发法和离子交换法等' words = segmentor.segment(sent) print('\t'.join(words))
运行结果 :
由结果可以看出: 我们自定义了四个技术关键字,有三个技术关键字都正确提取出来了, 唯有“硫化物沉淀法” 总是提取失败, 再增加别的关键词也可以正确提出来, 不知道这是不是个bug^_^
原文地址:https://www.cnblogs.com/kongzhagen/p/13665193.html
下一篇: 用 R 进行中介分析
推荐阅读
-
HITP ltp ---- 用户自定义字典
-
Hashcat命令详解-常用 -a 指定要使用的破解模式,其值参考后面对参数。“-a 0”字典攻击,“-a 1” 组合攻击;“-a 3”掩码攻击。 -m 指定要破解的hash类型,如果不指定类型,则默认是MD5 -o 指定破解成功后的hash及所对应的明文密码的存放位置,可以用它把破解成功的hash写到指定的文件中 --force 忽略破解过程中的警告信息,跑单条hash可能需要加上此选项 --show 显示已经破解的hash及该hash所对应的明文 --increment 启用增量破解模式,你可以利用此模式让hashcat在指定的密码长度范围内执行破解过程 --increment-min 密码最小长度,后面直接等于一个整数即可,配置increment模式一起使用 --increment-max 密码最大长度,同上 --outfile-format 指定破解结果的输出格式id,默认是3 --username 忽略hash文件中的指定的用户名,在破解linux系统用户密码hash可能会用到 --remove 删除已被破解成功的hash -r 使用自定义破解规则 按s键可以查看破解的状态, p键暂停 r键继续破解 q键退出破解