【首页】 【期刊简介】 【编委会】 【投稿指南】 【过刊浏览】 【期刊订阅】 【联系我们】

今天是:
刘爱琴,郭少鹏,张卓星.基于LDA模型融合Catboost算法的文本自动分类系统设计与实现[J].国家图书馆学刊,2023,32(5):
基于LDA模型融合Catboost算法的文本自动分类系统设计与实现
  
中文关键词:  隐含狄利克雷分布(LDA) 文本自动分类 SVM算法 Catboost算法
英文关键词:
基金项目:
作者单位
刘爱琴 山西大学经济与管理学院 
郭少鹏 山西大学经济与管理学院 
张卓星 山西大学经济与管理学院 
摘要点击次数: 482
全文下载次数: 151
中文摘要:
      互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。
英文摘要:
      
查看全文   下载PDF阅读器
关闭

版权所有:国家图书馆学刊 【您是本站第 2046541 位访问者】

主管:中华人民共和国文化和旅游部  主办:中国国家图书馆  出版:《国家图书馆学刊》编辑部
地址:北京市中关村南大街33号 邮编:100081 电话:010-88545737
本系统由北京勤云科技发展有限公司设计