• 学习贯彻习近平总书记对脱贫攻坚工作重要指示精神 2020-01-24
  • 中国西藏网第一期人才招聘拟聘人员公示 2020-01-24
  • 他帖子里的明理,就是要人们放弃自己的利益,一切顺从别人的指挥棒转 2020-01-13
  • 我省首例侵犯公民个人信息案终审宣判 2020-01-10
  • 我国居民人均预期寿命又提高了 2017年提高至76.7岁 2020-01-10
  • 外媒:模仿中国时代来临 西方是时候来中国找灵感了 2020-01-06
  • 尽管管理层一任一任地换,但是以每年IPO数量的多少作为反映政绩的主要标志,而对于股市下跌、市值(包括国有股)损失、经济晴雨表失真、投资者利益巨亏等等,则不在考核 2019-12-30
  • 中共中央直属机关党校 2019-12-27
  • 恋上冲绳 四天玩不够! ——凤凰网房产 2019-12-27
  • 五月全国财政收入同比增近一成 2019-12-22
  • 【专题】高质量发展江西行动 2019-12-22
  • 山西省重要党务政务信息新闻发布会——黄河新闻网 2019-12-19
  • 世界杯期间 拉萨交警严查酒驾醉驾毒驾 2019-12-19
  • 工人农民为主要组成部分的全国人民代表大会,决定全国的一切,是什么时代? 2019-12-15
  • 其实逻辑跟简单:小萌们如果能把自己计划好又何至于悲催到要通过混淆所有制形式把别人的钱偷到自己口袋里? 2019-12-15
  • 今天生肖冲什么生肖:香港内部资料三中三

    一种基于词义和词频的向量空间模型改进方法

    Method based on word meaning and word frequency to improve vector space model

    免费全文下载 (已被下载 次)  
    获取PDF全文
    作者 邓晓衡,杨子荣,关培源
    机构 中南大学 软件学院,长沙 410075
    统计 摘要被查看 次,已被下载
    文章编号 1001-3695(2019)05-023-1390-06
    DOI 10.19734/j.issn.1001-3695.2017.12.0752
    摘要 文本内容较多时,传统的向量空间模型(VSM)建??赡懿ㄏ窒?,效率低下且难以保证分类效果。针对VSM高维现象,利用词义和词频降低文本建模维度的方法提高效率和准确度,提出一种多义词判别优化的同义词聚类方法,结合上下文判别多义词的词义后,根据特征项词义相似度进行加权,合并词义相近的特征项。新方法使特征向量维度大大降低,多义词判别提高了文本特征提取的准确性。与其他文本特征提取和文本分类方法进行比较,结果表明,该算法在效率和准确度上有明显提高。
    关键词 文本分类; 特征选择; 卡方分布; 向量空间模型
    基金项目 中南大学研究生创新基金资助项目(2017zzts732)
    本文URL //www.eoqksu.shop/article/01-2019-05-023.html
    英文标题 Method based on word meaning and word frequency to improve vector space model
    作者英文名 Deng Xiaoheng, Yang Zirong, Guan Peiyuan
    机构英文名 School of Software,Central South University,Changsha 410075,China
    英文摘要 When the text content is more, the traditional VSM model may produce the dimension explosion phenomenon, the efficiency is low and the classification effect is difficult to guarantee. Aiming at the phenomenon of VSM, this paper proposed a method to reduce the dimension of text modeling by means of word meaning and frequency, in order to improve efficiency and accuracy. This paper proposed a synonym clustering method for polysemy discriminant optimization, combining with the context distinguishing word meaning, weighted by the similarity of the word meaning, and merging the feature items with similar meanings. The new method greatly reduced the dimension of eigenvector, and polysemy improved the accuracy of feature extraction. Compared with other text feature extraction and text categorization methods, the results show that the algorithm has a significant improvement in efficiency and accuracy.
    英文关键词 text categorization; feature selection; chi-square; vector space model
    参考文献 查看稿件参考文献
     
    收稿日期 2017/12/1
    修回日期 2018/1/24
    页码 1390-1395
    中图分类号 TP391.1
    文献标志码 A
  • 学习贯彻习近平总书记对脱贫攻坚工作重要指示精神 2020-01-24
  • 中国西藏网第一期人才招聘拟聘人员公示 2020-01-24
  • 他帖子里的明理,就是要人们放弃自己的利益,一切顺从别人的指挥棒转 2020-01-13
  • 我省首例侵犯公民个人信息案终审宣判 2020-01-10
  • 我国居民人均预期寿命又提高了 2017年提高至76.7岁 2020-01-10
  • 外媒:模仿中国时代来临 西方是时候来中国找灵感了 2020-01-06
  • 尽管管理层一任一任地换,但是以每年IPO数量的多少作为反映政绩的主要标志,而对于股市下跌、市值(包括国有股)损失、经济晴雨表失真、投资者利益巨亏等等,则不在考核 2019-12-30
  • 中共中央直属机关党校 2019-12-27
  • 恋上冲绳 四天玩不够! ——凤凰网房产 2019-12-27
  • 五月全国财政收入同比增近一成 2019-12-22
  • 【专题】高质量发展江西行动 2019-12-22
  • 山西省重要党务政务信息新闻发布会——黄河新闻网 2019-12-19
  • 世界杯期间 拉萨交警严查酒驾醉驾毒驾 2019-12-19
  • 工人农民为主要组成部分的全国人民代表大会,决定全国的一切,是什么时代? 2019-12-15
  • 其实逻辑跟简单:小萌们如果能把自己计划好又何至于悲催到要通过混淆所有制形式把别人的钱偷到自己口袋里? 2019-12-15
  • 双色球复式2017137期 黑龙江十一选五 时时彩缩水软件在线 辽宁快乐12兑奖规则 河南快三电视走势图下载 山东十一选五走势图表爱彩乐彩乐 内蒙古时时彩1019号 黑龙江时时彩 广东11选5 双色球开奖 闲趣江苏麻将 湖南快乐十分开多少退换本金 黑龙江十一选五88期 江西麻将安卓 闲来宁夏麻将正式版 2010年上证指数分析