Skip to main navigation Skip to search Skip to main content

基于《国际中文教育中文水平等级标准》的中文文本难度自动分级研究——以HSK中高级阅读文本为例

Research output: Contribution to journalArticlepeer-review

Abstract

文本难度自动分级是指通过一系列计算机自动计算,实现对文本难度级别自动识别。该研究依托2021年发布的《国际中文教育中文水平等级标准》,提取其基本汉字、词汇、语法特征,使用基于BERT的神经网络预训练模型来提取文本语义特征,融合以上两类特征构建多维特征集,并对比多种特征组合方式以及多种机器学习算法对于HSK中高级阅读文本的难度分级效果。实验结果表明:随机森林算法对HSK中高级阅读文本分级效果最优;单一维度中,语义特征对文本难度识别精确率最高,词汇次之;《国际中文教育中文水平等级标准》对HSK中高级阅读文本具有较强指导意义。
Original languageChinese (Simplified)
Pages (from-to)81-92
Journal首都师范大学学报(社会科学版)
Issue number06
StatePublished - 2023

Keywords

  • 文本难度分级
  • HSK
  • 《国际中文教育中文水平等级标准》
  • BERT

WoS Categories

  • H195
  • TP391.1

Web of Science Index

  • CSSCI

Cite this