跳到主要导航 跳到搜索 跳到主要内容

基于《国际中文教育中文水平等级标准》的中文文本难度自动分级研究——以HSK中高级阅读文本为例

科研成果: 期刊稿件文章同行评审

摘要

文本难度自动分级是指通过一系列计算机自动计算,实现对文本难度级别自动识别。该研究依托2021年发布的《国际中文教育中文水平等级标准》,提取其基本汉字、词汇、语法特征,使用基于BERT的神经网络预训练模型来提取文本语义特征,融合以上两类特征构建多维特征集,并对比多种特征组合方式以及多种机器学习算法对于HSK中高级阅读文本的难度分级效果。实验结果表明:随机森林算法对HSK中高级阅读文本分级效果最优;单一维度中,语义特征对文本难度识别精确率最高,词汇次之;《国际中文教育中文水平等级标准》对HSK中高级阅读文本具有较强指导意义。
源语言简体中文
页(从-至)81-92
期刊首都师范大学学报(社会科学版)
06
出版状态已出版 - 2023

关键词

  • 文本难度分级
  • HSK
  • 《国际中文教育中文水平等级标准》
  • BERT

WoS Categories

  • H195
  • TP391.1

Web of Science Index

  • CSSCI

引用此