• 他帖子里的明理,就是要人们放弃自己的利益,一切顺从别人的指挥棒转 2020-01-13
  • 我省首例侵犯公民个人信息案终审宣判 2020-01-10
  • 我国居民人均预期寿命又提高了 2017年提高至76.7岁 2020-01-10
  • 外媒:模仿中国时代来临 西方是时候来中国找灵感了 2020-01-06
  • 尽管管理层一任一任地换,但是以每年IPO数量的多少作为反映政绩的主要标志,而对于股市下跌、市值(包括国有股)损失、经济晴雨表失真、投资者利益巨亏等等,则不在考核 2019-12-30
  • 中共中央直属机关党校 2019-12-27
  • 恋上冲绳 四天玩不够! ——凤凰网房产 2019-12-27
  • 五月全国财政收入同比增近一成 2019-12-22
  • 【专题】高质量发展江西行动 2019-12-22
  • 山西省重要党务政务信息新闻发布会——黄河新闻网 2019-12-19
  • 世界杯期间 拉萨交警严查酒驾醉驾毒驾 2019-12-19
  • 工人农民为主要组成部分的全国人民代表大会,决定全国的一切,是什么时代? 2019-12-15
  • 其实逻辑跟简单:小萌们如果能把自己计划好又何至于悲催到要通过混淆所有制形式把别人的钱偷到自己口袋里? 2019-12-15
  • 回复@地瓜干17世:猪临死才会嚎叫呢~ 2019-12-12
  • “一带一路”国际合作高峰论坛 2019-12-12
  • 3连肖多少倍:香港内部资料三中三

    基于互信息和邻接熵的新词发现算法

    New word discovery algorithm based on mutual information and branch entropy

    免费全文下载 (已被下载 次)  
    获取PDF全文
    作者 刘伟童,刘培玉,刘文锋,李娜娜
    机构 1.山东师范大学 信息科学与工程学院,济南 250358;2.山东省分布式计算机软件新技术重点实验室,济南 250358;3.菏泽学院 计算机学院,山东 菏泽 274015
    统计 摘要被查看 次,已被下载
    文章编号 1001-3695(2019)05-003-1293-04
    DOI 10.19734/j.issn.1001-3695.2017.11.0745
    摘要 如何快速高效地识别新词是自然语言处理中一项非常重要的任务。针对当前新词发现存在的问题,提出了一种从左至右逐字在未切词的微博语料中发现新词的算法。通过计算候选词语与其右邻接字的互信息来逐字扩展,得到候选新词;并通过计算邻接熵、删除候选新词的首尾停用词和过滤旧词语等方法来过滤候选新词,最终得到新词集。解决了因切词错误导致部分新词无法识别以及通过n-gram方法导致大量重复词串和垃圾词串识别为新词的问题。最后通过实验验证了该算法的有效性。
    关键词 新词发现; 互信息; 邻接熵; 微博语料
    基金项目 国家自然科学基金资助项目(61373148,61502151)
    山东省社科规划项目(17CHLJ18,17CHLJ33,17CHLJ30)
    山东省自然科学基金资助项目(ZR2014FL010)
    山东省教育厅基金资助项目(J15LN34)
    本文URL //www.eoqksu.shop/article/01-2019-05-003.html
    英文标题 New word discovery algorithm based on mutual information and branch entropy
    作者英文名 Liu Weitong, Liu Peiyu, Liu Wenfeng, Li Nana
    机构英文名 1.School of Information Science & Engineering,Shandong Normal University,Jinan 250358,China;2.Shandong Provincial Key Laboratory for Distributed Computer Software Novel Technology,Jinan 250358,China;3.School of Computer Science,Heze University,Heze Shandong 274015,China
    英文摘要 How to identify new words quickly and efficiently is a very important task in natural language processing. Aiming at the problems existing in the discovery of new words, this paper proposed an algorithm for word-finding new words verbatim from left to right in the uncut word Weibo corpus. One way to get a candidate new word was by computing the candidate word and its right adjacent word mutual information to expand word by word; there were some ways to filter candidate new words to get new word sets. It included methods included calculating the branch entropy, deleting stop words contained in the first or last word of each candidate new word and deleting old words included in the candidate new word set. It solved the problem that some new words could not be recognized due to the mistakes in the word segmentation and it also solved the problem that the large number of repetitive word strings and rubbish words strings generated by the n-gram method were identified as new words. Finally, experiments verify the effectiveness of the algorithm.
    英文关键词 new word discovery; mutual information; branch entropy; microblog corpus
    参考文献 查看稿件参考文献
     
    收稿日期 2017/11/20
    修回日期 2018/1/10
    页码 1293-1296
    中图分类号 TP301.6
    文献标志码 A
  • 他帖子里的明理,就是要人们放弃自己的利益,一切顺从别人的指挥棒转 2020-01-13
  • 我省首例侵犯公民个人信息案终审宣判 2020-01-10
  • 我国居民人均预期寿命又提高了 2017年提高至76.7岁 2020-01-10
  • 外媒:模仿中国时代来临 西方是时候来中国找灵感了 2020-01-06
  • 尽管管理层一任一任地换,但是以每年IPO数量的多少作为反映政绩的主要标志,而对于股市下跌、市值(包括国有股)损失、经济晴雨表失真、投资者利益巨亏等等,则不在考核 2019-12-30
  • 中共中央直属机关党校 2019-12-27
  • 恋上冲绳 四天玩不够! ——凤凰网房产 2019-12-27
  • 五月全国财政收入同比增近一成 2019-12-22
  • 【专题】高质量发展江西行动 2019-12-22
  • 山西省重要党务政务信息新闻发布会——黄河新闻网 2019-12-19
  • 世界杯期间 拉萨交警严查酒驾醉驾毒驾 2019-12-19
  • 工人农民为主要组成部分的全国人民代表大会,决定全国的一切,是什么时代? 2019-12-15
  • 其实逻辑跟简单:小萌们如果能把自己计划好又何至于悲催到要通过混淆所有制形式把别人的钱偷到自己口袋里? 2019-12-15
  • 回复@地瓜干17世:猪临死才会嚎叫呢~ 2019-12-12
  • “一带一路”国际合作高峰论坛 2019-12-12
  • 新浪体育手机新浪网一 北京pk10赌博骗局 三张牌真人游戏炸金花 乐购彩票苹果 手机六合图库下载 百赢棋牌旧版 香港六合彩期开奖结果 新浪体育nba直播 一款游戏是靠什么赚钱 30选5中4个号多少钱 贵州11选5推荐号码预测 网球比分网 澳洲幸运8 南京麻将技巧实例 河北20选5走势图连线 pk10带人上岸是真的吗