辽宁石油化工大学学报 ›› 2017, Vol. 37 ›› Issue (4): 61-64.DOI: 10.3969/j.issn.1672-6952.2017.04.014
贾 强1, 冯锡炜1, 王志峰1, 朱 睿1, 秦 航2
Jia Qiang1, Feng Xiwei1, Wang Zhifeng1, Zhu Rui1, Qin Hang2
摘要: 在特征词提取算法中,TF-IDF算法是最常见的特征权重计算方法。在传统TF-IDF算法的基础上,提出新的基于文本词语长度的关键词提取算法。利用中文短语分词技术,识别文本中的长词与普通词汇,对于不同长度的词语利用提出的TF-IDF-WL方法重新计算权重,按权值排序结果得到关键词。实验对比发现,新的特征词提取算法能够更加精确地反映出特征词的词长情况,该算法与传统的TF-IDF算法相比,在准确率和召回率上都有较大的提升。
贾 强, 冯锡炜, 王志峰, 朱 睿, 秦 航. 基于改进的TF-IDF文本特征词提取算法研究[J]. 辽宁石油化工大学学报, 2017, 37(4): 61-64.
贾 强, 冯锡炜, 王志峰, 朱 睿, 秦 航. Research on Keyword Extraction Algorithm Based on Improved TF-IDF[J]. Journal of Liaoning Petrochemical University, 2017, 37(4): 61-64.