跳到主要导航 跳到搜索 跳到主要内容

基于大语言模型和提示工程的中文医学文本实体关系抽取研究

科研成果: 期刊稿件文章同行评审

摘要

【目的】研究现有大语言模型抽取中文医学文本实体关系的性能差异,分析示例数量和关系类型数量对模型抽取效果的影响。【方法】基于提示工程方法,通过API调用9种主流大语言模型,从示例数量和关系类型数量两个角度修改提示模板,使用CMeIE-V2数据集进行实验并比较抽取效果。【结果】(1)GLM-4-0520的综合抽取能力居于首位,在抽取“临床表现”“药物治疗”“病因”三种关系类型时F1值分别达到0.442 2、0.386 9、0.387 4;(2)改变提示中的示例数量m,起初F1值随m的增加而上升,当m=8时达到最大值0.474 2,m > 8后F1值开始下降;(3)增加需要抽取的关系类型数量n后,F1值下降明显,n=2时F1值较n=1时下降0.118 2,至n=10时F1值仅有0.294 9。【局限】现有公开数据集较少,实验结果仅基于单个数据集得到;由于目前医学垂直领域的大语言模型难以通过API调用,本文使用的模型均来自通用领域。【结论】不同大模型的抽取效果差别较大;合适数量的示例能够提高模型抽取效果,但示例并非越多越好;大模型不擅长同时抽取多种关系类型。
源语言简体中文
页(从-至)25-36
期刊数据分析与知识发现
9
09
DOI
出版状态已出版 - 2025

关键词

  • 大语言模型
  • 提示工程
  • 实体关系抽取
  • 中文医学文本

WoS Categories

  • R-05
  • TP391.1

Web of Science Index

  • CSSCI

引用此