刘爱琴,郭少鹏,张卓星.基于LDA模型融合Catboost算法的文本自动分类系统设计与实现[J].国家图书馆学刊,2023,32(5): |
基于LDA模型融合Catboost算法的文本自动分类系统设计与实现 |
|
|
中文关键词: 隐含狄利克雷分布(LDA) 文本自动分类 SVM算法 Catboost算法 |
英文关键词: |
基金项目: |
|
摘要点击次数: 184 |
全文下载次数: 10 |
中文摘要: |
互联网的蓬勃发展使得文本数据呈指数型增长态势,如何实现文本内容的高效分类成为信息资源管理工作面临的紧要问题。本文以维普学术期刊资源与百度新闻网页作为基础语料集,基于LDA模型抽取文档主题、切分文本内容,融合集成学习Catboost算法获得文档在主题上的概率分布,然后利用训练集提取出的隐含主题-文本矩阵进行分类器训练,最终构建文本分类系统。研究结果显示,该系统能够有效完成文本混合自动分类,分类误差率较低,分类性能明显优于传统的文本分类方法。 |
英文摘要: |
|
查看全文
下载PDF阅读器 |
关闭 |
|
|
|
|
|