林俊杰
- 作品数:6 被引量:2H指数:1
- 供职机构:中国科学院自动化研究所更多>>
- 发文基金:国家自然科学基金更多>>
- 相关领域:自动化与计算机技术更多>>
- 结合写作特征和序列特征的中文情感新词识别方法和系统
- 本发明公开了一种结合写作特征和序列特征的中文情感新词识别方法和系统。该方法对于输入文本子句,基于情感词的作者写作特征和情感词的序列特征将文本子句表示为各种特征(如:字、词性等)的序列。然后,针对特征表示的文本子句,利用线...
- 林俊杰毛文吉王磊王卿马宏远
- 文献传递
- 结合用户情感表达方式的中文情感新词识别方法和系统
- 本发明公开了一种结合用户情感表达方式的中文情感新词识别方法和系统。其中,该方法包括获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从...
- 林俊杰毛文吉刘春阳王磊苗琳
- 文献传递
- 结合写作特征和序列特征的中文情感新词识别方法和系统
- 本发明公开了一种结合写作特征和序列特征的中文情感新词识别方法和系统。该方法对于输入文本子句,基于情感词的作者写作特征和情感词的序列特征将文本子句表示为各种特征(如:字、词性等)的序列。然后,针对特征表示的文本子句,利用线...
- 林俊杰毛文吉王磊王卿马宏远
- 文献传递
- 面向社会事件的半监督自训练多方立场分析被引量:2
- 2018年
- 已有的立场分析方法主要采用有监督或无监督方式训练立场分类模型,有监督模型训练通常需要大量有标注数据支持,而相比有监督模型,无监督模型的性能差距较大.为了降低模型训练对有标注训练数据的要求,同时保证模型性能,文中面向社会事件相关的社交媒体文本,提出半监督自训练多方立场分析方法.对于自训练方法,在模型迭代训练过程中,选择高质量样本加入训练集合,对提升模型性能起到关键作用.为此,文中方法首先根据用户立场一致性度量文本的分类置信度,然后利用话题信息进一步筛选高质量样本扩充训练集合,保证模型性能不断提升.实验表明,相比相关工作中的代表性方法和其它半监督模型训练方式,文中方法能够取得更优的立场分类效果,并且方法依据的用户立场一致性和话题信息均有助于提升立场分类效果.
- 林俊杰王磊毛文吉
- 一种基于用户关联关系的微博数据采集方法
- 本发明涉及数据采集技术领域,尤其是一种基于用户关联关系的微博数据采集方法。本发明采用网络爬虫的方式对微博平台上包含特定关键词的微博信息进行采集,在采集的过程中以用户之间的关联关系作为微博爬虫的链接,首先根据指定的关键词获...
- 王磊林俊杰王飞跃曾大军祖全楠毛文吉
- 文献传递
- 结合用户情感表达方式的中文情感新词识别方法和系统
- 本发明公开了一种结合用户情感表达方式的中文情感新词识别方法和系统。其中,该方法包括获取输入文本;基于所述输入文本中词频大于第一预设阈值的字符串,构建候选新词集合;使用中文旧词词库对所述候选新词集合进行过滤;基于统计指标从...
- 林俊杰毛文吉刘春阳王磊苗琳