2018-3-3 论文(网络评论中非结构化信息的表示与应用研究)笔记一
本站寻求有缘人接手,详细了解请联系站长QQ1493399855
文章立脚点:
大量网络评论的出现,使得产品制造商或消费者很难跟踪己购产品用户的意见和建议,这就给他们的决策造成了额外的困难。
文章思路;
将网络评论中的非结构化信息处理成结构化信息
文章的总体的脉络
首先研宄评论分词、词性标注以及对歧义词、未登录词、禁用词的处理方法,然后分析比较传统特征抽取模型的优缺点,并在此基础上提出基于迭代思想的网络评论特征抽取模型,然后利用模糊认知图的知识表示和推理机制,充分考虑特征项之间、特征项与类别之间、类别与类别之间的因果关系和相互影响,提出基于模糊认知图的网络评论表示模型。在此基础上,利用分类器对网络评论进行分类,提出基于证据理论的网络评论综合评价模型。最后,收集来自于互联网的大量客户评论内容,并利用提出的模型和方法进行相应实验,得到了有效的实验结果,进而验证了模型的有效性。
研究背景:
研究意义:
文章主要内容:
论文研究路线:
特征提取的三种方式:
汉语文本的切分方式:
汉语相比较英语难切分:
(1)汉语的多意,一个汉字自己是一种意思,和另一个组合是一种意思,在和另外一个有是另一种
(2)英语中粗略的可以使用分隔符,作为分词的依据
(3)英语文本是小字符集上的已经充分分开的词串,而汉语文本是大字符集上的连续字符串,并且次与此之间没有明显的符号分割(比如空格符)
歧义字段分类以及目前切片策略
未登录词:
没有录入词典中作为切分的词(可以通过统计是否常用来更新词典中的词)
禁用词:
没有意义的词。其遵循的规则如下: