草根码农凭借亲手编写的简单代码,成功晋级SMP2018年度中文人机对话技术评测任务一的前三位
如果你对自然语言处理和深度学习感兴趣,一定要看看本文,怎么从原始文本数据处理到训练模型到构建应用。过程很重要!总有一点你会有收获。
SMP2018中文人机对话技术评测由中国中文信息学会社会媒体处理专委会主办,哈尔滨工业大学、科大讯飞股份有限公司承办,讯飞公司提供数据,华为公司提供奖金。
这是刚刚出炉的排行榜:
最近刚好在做人机对话的研究,马上把这个任务手撸了,简简单单进入前三(最基础的模型的 F1 值在82左右),并把资源放在了 GitHub SMP2018 上(呜呜呜,可惜以前没去参赛),欢迎大家在我的基础模型上做的更好!
根据训练的模型,我还做了个简单的人机对话应用,也放在GitHub SMP2018 上,如果没有兴趣玩模型,就来玩这个应用吧!
比如这个应用可以对你说的话进行分大类:
今天东莞天气如何
----------
predict label: datetime
----------
怎么治疗感冒?
----------
predict label: health
----------
你好?
----------
predict label: chat
----------
评测任务概述
- 本届人机对话技术评测主要包括两个任务,参赛者可以选择参加任意一个任务或全部任务。
任务1:用户意图领域分类
在人机对话系统的应用过程中,用户可能会有多种意图,相应地会触发人机对话系统中的多个领域(domain) ,其中包括任务型垂直领域(如查询机票、酒店、公交车等)、知识型问答以及闲聊等。因而,人机对话系统的一个关键任务就是正确地将用户的输入分类到相应的领域(domain)中,从而才能返回正确的回复结果。
【用户意图领域分类示例】
1) 你好啊,很高兴见到你! — 闲聊类
2) 我想订一张去北京的机票。 — 任务型垂类(订机票)
3) 我想找一家五道口附近便宜干净的快捷酒店 — 任务型垂类(订酒店)
【评测说明】
评测任务1包含闲聊和垂类两大类,其中垂类又细分为30个垂直领域。本次评测任务1中,仅考虑针对单轮对话用户意图的领域分类,多轮对话整体意图的领域分类不在此次评测范围之内。
本比赛的相关连接 |
---|
CodaLab评测主页 |
数据下载 |
CodaLab 评测教程 |
评测排行榜 |
SMP2018-ECDT评测主页 |
SMP2018-ECDT评测成绩公告链接 |
我的解决办法
就这个简单的模型,真的就冲进了前三名。
我觉得前期的原始文本处理和后面的构建应用也许更有趣!如果你对深度学习感兴趣,可以来我的博客交流喔!
下一篇: 测试登录接口实战指南 - 学习笔记