本发明涉及自然语言处理技术领域,特别涉及一种基于有向有权图发现新词的方法。
背景技术:
新词发现作为自然语言处理领域的一项基础研究,深受学术界乃至企业界的关注。随着互联网以及各种社交媒体的发展,涌现了大量的新词,大量新词的出现使得现有的分词工具准确率下降,据统计,大约60%的分词错误是由于新词导致的。相比传统媒体,互联网媒体成为人们关注时事热点,发表观点的主要平台,互联网媒体(比如微博)传播速度迅速,传播群体广泛,与之涌现的新词也呈病毒传染的态势传播,其中如“马航”,“敬业福”,“微信收费”等,反映了民众的态度与看法。通过有效地发现新词,及时把握热点事件的关键词,对于热点事件发现以及热点事件预警监控具有重大的意义。
P2P借贷是新兴的一个金融服务行业,在美国,LeadingClub成立于2007年,目前已经是世界第一大借贷平台。P2P借贷行业作为新兴的行业,包含大量新词,同时更新频率快,其中如“羊毛党”,“微众银行”,“e租宝”,“跑路”等,这些新词反映了P2P借贷行业的发展,在该领域进行新词发现具有一定的挑战性。
在学术界,对于新词还没有一个明确的概念,在中文分词领域,有新词和未登录词两种概念,未登录词就是当前词库中“未登录”的词,新词属于未登录词的一种。目前新词发现的研究大体可以分为三种,其一是基于规则的方法,其二是基于统计的方法,其三是基于规则与统计相结合的方法。基于规则的方法准确率比较高,针对性强,但是维护规则的工作量比较大。基于统计的方法通过现有的分词工具对语料进行分词,根据分词结果进行统计从而发现新词,对语料的依赖性小,适应性比较强,然而准确率不高。基于规则与统计相结合的方法发挥了组合优势,目前大部分研究人员都采用规则与统计相结合的方法来发现新词。
综上,新词的涌现一般与事件热点的趋势是相适应的,有效地发现新词可以正确分析事件发展的脉络,以及有效地把握事件舆情动态,对于舆情预警监控具有重大的意义。新词发现一直是自然语言处理领域一项基础研究,目前对于新词发现已经有大量的研究。本发明根据P2P借贷资讯的内容,准确有效地发现新词,有效地把握P2P行业的热点,具有很好的可用性。
技术实现要素:
本发明要解决的技术问题在于,提供一种基于有向有权图发现新词的方法,使更加准确地发现语料中的新词。
为解决上述技术问题,本发明提供如下技术方案:一种基于有向有权图发现新词的方法,包括以下步骤:
S1、获取语料,且采用分词开源工具对语料进行分词,过滤停用词;
S2、根据过滤后的分词结果,对滑动窗口范围内的词项建立有向边以及权重,根据有向边以及权重生成有向有权图;
S3、采用边权重门限阀值对有向有权图的边进行过滤,且保留语料中同现频率较高的词项搭配;
S4、根据过滤后的有向有权图,筛选有向有权图中的孤立点以及自环,生成有向有权图的子图;
S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配;
S6、根据词性标注规则对新词搭配进行筛选,生成最终的新词。
进一步地,所述步骤S1中的停用词包括语气词和标点符号。
进一步地,所述步骤S1中的分词结果,其表现形式为W=(W1,W2,...Wi...,Wn)以及T=(T1,T2,...Ti...,Tn),其中W表示词项集合,T表示词性集合。
进一步地,所述步骤S2中的有向有权图,其表现形式为G=<V,E>,其中V表示节点vi集合,所述词项搭配对应节点vi的标签属性,E表示有向边集合,所述词项搭配之间的同现关系组成所述有向边集合。
进一步地,所述步骤S2的具体方式为:
(5a)遍历有向有权图G=<V,E>,在集合V中查询是否存在节点vi的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi;
(5b)设置滑动窗口长度l,或默认长度l设为1,重复步骤(5a),依次查询Wi+1、Wi+2、...、Wi+l是否存在于有向图中,若存在,返回有向有权图中对应的节点vi+1、vi+2、...、vi+l;
(5c)建立节点vi与节点vi+1、vi+2、...、vi+k、...、vi+l的有向边,若节点vi与节点vi+k在有向有权图中存在有向边,则节点vi与节点vi+k的边权重加1,否则,建立节点vi与节点vi+k的有向边,权重为1。
进一步地,所述步骤S4中的孤立点是指在有向有权图中度数为零时的节点,若有向有权图中存在某些边的权重低于门限阀值,则这些边在被过滤后产生孤立点。
进一步地,所述步骤S4中的自环是指所述有向有权图中一条边的起始节点和终止节点是同一个节点,所述自环由所述语料中的叠词产生。
进一步地,所述步骤S5的具体过程为:
(8a)计算相邻节点vi、节点vj的分布均值μ,计算方法如下:
μ=sisj/S2
式中,si为所述子图中节点vi的强度,sj为所述子图中节点vj的强度,S为所述子图中的节点总强度;
(8b)计算节点vi和节点vj的样本均值和样本方差s2,计算方法如下:
其中,wij为子图中节点vi和节点vj的边权重;
(8c)做零假设H0,
(8d)计算t检验值,具体计算方法如下:
(8e)检验零假设H0,具体检验过程如下:判断t检验值的绝对值是否大于t分布α的临界值,若大于,则接受零假设H0,即节点vi和节点vj对应的标签属性属于新词搭配;否则,则拒绝零假设H0,即节点vi和节点vj对应的标签属性不属于新词搭配。
进一步地,所述α=0.005,所述临界值设为2.576。
进一步地,所述步骤S6中的词性标注规则是指句法结构中的词性搭配规则,包括ANN、NN、ANN以及NPN,其中A表示形容词,N表示名词,P表示前置词。
采用上述技术方案后,本发明至少具有如下有益效果:
1、本发明在开源工具分词结果的基础上,对停用词进行过滤,降低了有向有权图的耦合度,提高了新词发现的准确性,同时提高了效率。
2、本发明设置滑动窗口长度,对固定滑动窗口范围内的词项建立关联关系,考虑了中文词项搭配的特征。
3、本发明采用边权重门限阀值对有向有权图的边进行过滤,降低了有向有权图的耦合度,提高了效率,同时减少次要词项搭配对新词发现的噪声影响,提高了新词发现的准确性。
4、本发明根据子图中相邻节点之间的边权重以及节点度数,采用统计学的t分布来检验相邻节点是否属于新词搭配,充分考虑有向有权图的节点特征,提高了新词发现的准确率。
5、本发明词性标注规则对全部新词搭配进行筛选,基于规则的方式进一步提高了新词发现的准确率。
6、本发明能够有效地,准确地发现P2P借贷行业的新词,把握P2P借贷行业的口碑以及走势,帮助民众理性投资,具有很好的可用性。
附图说明
图1为本发明基于有向有权图发现新词的方法的流程图。
图2为依照本发明基于有向有权图发现新词的一个实例。
具体实施方式
需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互结合,下面结合附图和具体实施例对本申请作进一步详细说明。
实施例
如图1-图2所示,图1是本实施例一中公开的基于有向有权图的发现新词方法及各个相应步骤的流程图,所述方法包括以下步骤:
S1、获取语料,采用分词开源工具对语料进行分词,对分词的结果进行停用词过滤,如图2所述,分词结果包括“E”、“租宝”、“APPLE”、“PAY”、“蚂蚁”“金服”等;
S2、根据分词结果,对滑动窗口范围内的词项建立有向边以及权重,生成有向有权图,“E”和“租宝”、“APPLE”和“PAY”以及“蚂蚁”和“金服”各自生成带有权重的有向边;
S3、采用边权重门限阀值对有向有权图的边进行过滤,保留语料中的同现频率比较高的词项搭配;
S4、筛选有向权重图中的孤立点以及自环,生成有向有权图的子图;
S5、根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配,通过假设检验,验证“E”和“租宝”属于新词搭配,“APPLE”和“PAY”以及“蚂蚁”和“金服”亦然;
S6、根据词性标注规则对新词搭配进行筛选,“E”和“租宝”“APPLE”和“PAY”以及“蚂蚁”和“金服”符合词性标注规则,生成最终的新词E租宝、APPLEPAY以及蚂蚁金服等。
其中,所述分词结果,表现形式为W=(W1,W2,...Wi...,Wn),T=(T1,T2,...Ti...,Tn)其中W表示词项集合,T表示词性集合。
进一步地,所述停用词是指在语料中应用非常广泛然而没有实际意义的词项,比如语气词,标点符号等。
进一步地,所述有向有权图,表现形式为G=<V,E>,其中V表示节点集合,语料分词结果中的词项对应节点的标签属性,其中E表示有向边集合,词项之间的同现关系组成有向边集合。
进一步地,所述步骤S2根据分词结果,对滑动窗口范围内的词建立有向边以及权重,生成有向有权图的具体过程为:
(1)第一步遍历有向有权图G=<V,E>,在集合V中查询是否存在节点的标签为Wi,如果存在节点vi的标签为Wi,返回节点vi,否则在有向图中创建节点vi,并标注其标签为Wi,返回节点vi;
(2)第二步设置滑动窗口长度l(默认长度为1),重复步骤(1),依次查询Wi+1,Wi+2,...,Wi+l是否存在有向图中,返回有向图中对应的节点vi+1,vi+2,...,vi+l;
(3)第三步建立节点vi与节点vi+1,vi+2,...,vi+k,...,vi+l的有向边,如果vi与vi+k在图中存在有向边,vi与vi+k的边权重加1,否则建立vi与vi+k的有向边,权重为1。
进一步地,所述孤立点是指在有向有权图中度数为零的节点,某些节点对的边权重低于门限阀值,这些边被过滤后产生孤立点。
进一步地,所述自环是指有向图中源节点以及目标节点属于同一个节点,主要是语料中的叠词会产生自环。
进一步地,所述步骤S5根据子图中相邻节点之间的边权重以及节点强度,验证该相邻节点是否属于新词搭配的具体过程为:
(1)第一步是计算节点vi和vj的分布均值μ,计算方法如下:
μ=sisj/S2,其中si为子图中节点vi的强度,sj为子图中节点vj的强度,S为子图中的总强度。
(2)第二步计算节点vi和vj的样本均值和样本方差s2,计算方法如下:
其中wij为子图中节点vi和节点vj的边权重。
(3)第二步是做零假设H0:
(4)第三步计算t检验值,具体计算方法如下:
(5)第四步是检验零假设H0,具体检验过程如下:
判断t检验值的绝对值是否大于t分布α=0.005的临界值(2.576),如果是,则接受零假设H0,即vi和vj对应的标签属性属于新词搭配,否则拒绝零假设H0,即vi和vj对应的标签属性不属于新词搭配。
进一步地,所述词性标注规则是指句法结构中的词性搭配规则,包括ANN,NN,ANN,NPN等,其中A表示形容词,N表示名词,P表示前置词。
上述方法可以准确地发现语料中的新词,具有很好的可用性。
尽管已经示出和描述了本发明的实施例,对于本领域的普通技术人员而言,可以理解的是,在不脱离本发明的原理和精神的情况下可以对这些实施例进行多种等效的变化、修改、替换和变型,本发明的范围由所附权利要求及其等同范围限定。
亚洲地理中心默默守护裂穴冯伟中餐厅富海吧阿橙男生女装free剧场版电次身高上海菜饭网剧在线观看all佐助广东省人事考试火红金手指二角明天师归来克拉伦斯付琪25x25香蕉影视app林志玲视频何玉凤保重丝袜少妇小说跳舞的线轮回林峰身高化学版青花瓷提取网页视频潜江虾皇叶的反义词论势t800机器人金属漂移苏州儿童乐园番号日本赵云演员薛明耀李云珠均匀分布的方差eova李冰的儿子叫什么辽宁舰下水时间邯郸多大李秉墨银北伐军军歌推理女王阿加莎蜀道难朗诵黄石金男同志片枫叶视频画中世界蟹宝张若昀学历四六级通过率囚犯与监狱长中国象棋谁最厉害多重从属对象爱天堂女女上床视频听老婆的话会发达天山电影制片厂游泳运动员赵菁朋友的妈妈观看美女调教视频新宿歌舞伎町钢琴八级考试曲目戴拿奥特曼剧场版青之驱魔师第三季楚留香朱孝天高颖浠杰米尼定心丸思文败类朝阳大妈duv克苏鲁古神久久视讯中央三台王定顺母亲的恋人零的故事吻别张学友移动保号套餐波尔布特tvb节目单丁银地笋苗寨医疗期工资军中姐妹饣它教育的本质是什么中国最吓人的字子不孝枉为人邓平三八节鲜花面试妆容aobao牵引法slogen千与千寻钢琴曲贵阳北站附近住宿测分贝噪音在线井冈山儿女没没没儿童蜡笔画鳄龟肉好吃吗消音伴奏饥荒游戏攻略节期木目零度触碰同性恋啪啪啪窥视电影寄沧海尔豪突击队李天爱帅哥喝醉st7735s私密手法玉木久留美别克君威二手车萧洒茶茶丸速降eaters雪中悍刀行豆瓣鲁山站漳州九龙公园熊出没丛林大冒险张学友慢慢海贼王最新剧情二十四拜全过程于小冬速写极品美女网站500米柳州人口康溪盛世骤降萨德伯里上海中心大厦电梯停表的读数方法彭丹露点杜春生华西村gdp鲁格赛特妹喜容貌复原图国产在线观岳飞故里青岛监狱华国铎简厉董卿的身高非洲三万里大周天子电影欧美床上色视频鲁班乐标酒店团购艾莎公主怎么画分裂攻击和燕绿盾刘小春视频展示台樊登读书官网ez8演员肖战梅老坎网剧在线观看张家祠堂鬼屋欢乐送终结谷城里城外千斗二次元蛋糕火影色漫草原凤凰伦理直播吉姆餐厅歌词朝鲜大阅兵高敬亭漫野星期六的约会利高霉素库庄一中深喉2电影800泰铢黄宏生蒋梦麟简介十二星座星盘奥特曼激斗传杜轶鑫情约今生patreon世界上谁最帅王双增生铁落棚圈傍晚的傍怎么写