基于词语聚类的汉语口语教材自动推送素材研究(Study on Automatic Push Material of Oral Chinese Textbook Based on Word Clustering)

Bingbing Yang (杨冰冰), Huizhou Zhao (赵慧周), Zhimin Wang (王治敏)


Abstract
新冠肺炎的蔓延使得线上移动教学成为教育发展的必然趋势,本文以适合汉语教材自动推送的口语素材为研究对象,基于10341条生活类口语语料,对词汇的整体特点进行计量分析,在此基础上使用词向量模型及Kmeans算法对全部词语进行聚类,参考词语聚类结果及对口语语料话题和场景的考察,构建了一个包含15个一级话题、102个二级话题及81个交际场景的汉语口语话题-场景素材库。同时对各级话题常用词进行了总结。本文可为教材自动定制的素材库提供资源支持。
Anthology ID:
2020.ccl-1.58
Volume:
Proceedings of the 19th Chinese National Conference on Computational Linguistics
Month:
October
Year:
2020
Address:
Haikou, China
Venue:
CCL
SIG:
Publisher:
Chinese Information Processing Society of China
Note:
Pages:
624–633
Language:
Chinese
URL:
https://www.aclweb.org/anthology/2020.ccl-1.58
DOI:
Bib Export formats:
BibTeX MODS XML EndNote
PDF:
http://aclanthology.lst.uni-saarland.de/2020.ccl-1.58.pdf