面向垂直领域的阅读理解数据增强方法(Method for reading comprehension data enhancement in vertical field)

Zhengwei Lv (吕政伟), Lei Yang (杨雷), Zhizhong Shi (石智中), Xiao Liang (梁霄), Tao Lei (雷涛), Duoxing Liu (刘多星)


Abstract
阅读理解问答系统是利用语义理解等自然语言处理技术,根据输入问题,对非结构化文档数据进行分析,生成一个答案,具有很高的研究和应用价值。在垂直领域应用过程中,阅读理解问答数据标注成本高且用户问题表达复杂多样,使得阅读理解问答系统准确率低、鲁棒性差。针对这一问题,本文提出一种面向垂直领域的阅读理解问答数据的增强方法,该方法基于真实用户问题,构造阅读理解训练数据,一方面降低标注成本,另一方面增加训练数据多样性,提升模型的准确率和鲁棒性。本文用汽车领域数据对该方法进行实验验证,其结果表明该方法对垂直领域阅读理解模型的准确率和鲁棒性均能有效提升。
Anthology ID:
2020.ccl-1.25
Volume:
Proceedings of the 19th Chinese National Conference on Computational Linguistics
Month:
October
Year:
2020
Address:
Haikou, China
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
256–265
Language:
Chinese
URL:
https://www.aclweb.org/anthology/2020.ccl-1.25
DOI:
Bib Export formats:
BibTeX MODS XML EndNote
PDF:
http://aclanthology.lst.uni-saarland.de/2020.ccl-1.25.pdf