摘要
文本难度自动分级是指通过一系列计算机自动计算,实现对文本难度级别自动识别。该研究依托2021年发布的《国际中文教育中文水平等级标准》,提取其基本汉字、词汇、语法特征,使用基于BERT的神经网络预训练模型来提取文本语义特征,融合以上两类特征构建多维特征集,并对比多种特征组合方式以及多种机器学习算法对于HSK中高级阅读文本的难度分级效果。实验结果表明:随机森林算法对HSK中高级阅读文本分级效果最优;单一维度中,语义特征对文本难度识别精确率最高,词汇次之;《国际中文教育中文水平等级标准》对HSK中高级阅读文本具有较强指导意义。
| 源语言 | 简体中文 |
|---|---|
| 页(从-至) | 81-92 |
| 期刊 | 首都师范大学学报(社会科学版) |
| 期 | 06 |
| 出版状态 | 已出版 - 2023 |
关键词
- 文本难度分级
- HSK
- 《国际中文教育中文水平等级标准》
- BERT
WoS Categories
- H195
- TP391.1
Web of Science Index
- CSSCI
引用此
- APA
- Author
- BIBTEX
- Harvard
- Standard
- RIS
- Vancouver