谭咏梅 作品数:26 被引量:98 H指数:6 供职机构: 北京邮电大学 更多>> 发文基金: 国家自然科学基金 北京市重点实验室开放基金 国家高技术研究发展计划 更多>> 相关领域: 自动化与计算机技术 电子电信 文化科学 语言文字 更多>>
融合卷积神经网络和重启随机游走的实体链接方法 被引量:3 2018年 提出了一种融合卷积神经网络和重启随机游走的实体链接方法.该方法首先对文本中的指称进行识别,然后生成指称的候选实体集,随后使用融合卷积神经网络和重启随机游走的实体链接方法对候选实体进行选择,最后对在知识库中无对应实体的指称进行聚类.该方法在TAC-KBP2016的实体识别与链接评测数据集上的FCEAFm值为0.652,2016年评测第1名的FCEAFm为0.643,实验结果表明,使用融合卷积神经网络和重启随机游走的实体链接方法能够有效地进行实体链接. 谭咏梅 李晓光 吕学强关键词:卷积神经网络 基于SVM+Sigmoid的汉语组块识别 被引量:3 2004年 本文提出用 SVM+Sigmoid 来进行汉语组块识别的方法。SVMs 具有不需要进行认真选取特征的优点,并且在具有高维特征空间的输入数据上也能够具有高的泛化性能,通过核函数的原则,SVMs 能够在独立于训练数据维数的小计算范围内进行训练。Sigmoid 函数使用一个参数模型来直接拟合后验概率,从而将 SVMs 的输出映射成一个后验概率,使一个分类器在做全局决策的一个局部决策时,考虑到全面分类,从而决策更具有合理性。实验结栗表明该方法较单纯的 SVMs 方法具有好的效果。 谭咏梅 姚天顺 陈晴 李珩 朱靖波关键词:SVM SIGMOID函数 汉语组块 组块识别 支持向量机 基于LSTM和N-gram的ESL文章的语法错误自动纠正方法 被引量:8 2018年 针对英语文章语法错误自动纠正(Grammatical Error Correction,GEC)问题中的冠词和介词错误,该文提出一种基于LSTM(Long Short-Term Memory,长短时记忆)的序列标注GEC方法;针对名词单复数错误、动词形式错误和主谓不一致错误,因其混淆集为开放集合,该文提出一种基于ESL(English as Second Lauguage)和新闻语料的N-gram投票策略的GEC方法。该文方法在2013年CoNLL的GEC数据上实验的整体F1值为33.87%,超过第一名UIUC的F1值31.20%。其中,冠词错误纠正的F1值为38.05%,超过UIUC冠词错误纠正的F1值33.40%,介词错误的纠正F1为28.89%,超过UIUC的介词错误纠正F1值7.22%。 谭咏梅 杨一枭 杨林 刘姝雯汉语组块识别 被引量:10 2004年 提出一种基于增益的隐马尔科夫模型(transductiveHMM)的方法,用于汉语组块(ChineseChunk)识别的研究·该方法借助几个转换函数,导入各种上下文信息用于HMM的训练,避免对HMM训练和标注过程修改的同时,构造了更为准确的模型,并在此基础上,将其中两个较好的模型融合为一个更好的模型·实验结果显示,该方法在汉语组块识别方面是有效的,在哈尔滨工业大学树库语料测试的结果是F=82 38%· 李珩 谭咏梅 朱靖波 姚天顺关键词:汉语组块 隐马尔科夫模型 转换函数 采用音质特征和VLAD编码的新冠肺炎检测算法 2021年 2020年,世界卫生组织宣布COVID-19疫情为大流行病。为了实现COVID-19快速地、可靠地检测,本研究通过语音信号分析技术来寻找感染COVID-19的语音信号特征,利用咳嗽声片段和语音片段对是否感染COVID-19做出自动判断。在INTERSPEECH 2021 ComParE竞赛提供的相关数据集和baseline的基础上,本文首先利用语音端点检测技术对数据集进行增广,其次在特征集中加入语音质量特征,使相关baseline结果得到了提升,证明了语音质量特征在对COVID-19自动语音检测任务上的有效性。同时,引入局部聚合描述子向量对低级别特征进行编码,当字典大小较小时,有效地提升了系统的分类性能。最后,对多种算法得到的分类结果进行融合,进一步提升分类效果,最终在两个子任务中的验证集上UAR分别取得了73.9%和77.2%。 张昊然 韩易辰 谭咏梅 李雅关键词:情感识别 基于胶囊的英文文本蕴含识别方法 被引量:2 2019年 提出了一种基于胶囊的英文文本蕴含识别方法.分别为每一种蕴含关系构建一个胶囊,用于模拟此蕴含关系的识别,并将其指定为该胶囊的属性.给定两段文本,经过highway编码层和序列编码层获取语义表示,分别输入胶囊中,依次通过其内部的交互模块、比较模块和聚合模块.交互模块利用交互注意力机制提取文本间的局部交互特征,比较模块和聚合模块使用前馈神经网络进行语义信息比较和聚合.最后对所有胶囊的输出归一化,得到两段文本的蕴含关系.该方法在SNLI测试集上的准确率为89. 2%,在MultiNLI匹配测试集和不匹配测试集上的准确率分别为77. 4%和76. 4%.对交互模块中注意力关系矩阵的可视化分析结果验证了胶囊在英文文本蕴含识别任务中的有效性. 朱皓 谭咏梅关键词:胶囊 特定领域下关系模板的研究 被引量:8 2006年 以公司人事变动领域为例,针对实体关系抽取课题,从知识自动获取角度出发,基于Bootstrapping思想提出了层次知识获取模型,利用内外2层模块相互嵌套自动获取知识,获得了实体关系分析所需要的领域专用词典和模板规则.结合全信息理论,对模板添加语义和语用标注,生成全信息知识库.在此基础上,完成关系抽取实验和评测. 张素香 李蕾 谭咏梅基于重启随机游走的实体识别与链接方法 被引量:1 2017年 提出基于重启随机游走的实体识别和链接方法,在知识库部分实体构成的图结构中进行随机游走,从而获得实体和指称的分布式表示,并由此计算出相似度最高的实体作为链接实体.该方法在2015年Tri-Lingual Entity Discovery and Linking评测任务中的F值为0.665,高于其他参赛系统.实验结果表明,本方法可以有效克服特征稀缺问题,并减轻流行度差异对实验结果造成的影响. 谭咏梅 郑迪 刘姝雯 吕学强关键词:语义相似度 随机游走 基于实例的机器辅助写作翻译系统 被引量:1 2006年 提出了一种基于实例的机器辅助写作翻译方法,设计并实现了这个系统,用以辅助写作翻译过程,规范人与计算机的分工与协作.该系统可以对单词、词组,以及词的搭配给出更精确的翻译解释,实际应用的结果表明,它能有效地帮助中/英文用户更流畅的书写和翻译英/中文,保证写作翻译的效率和质量.此系统具有文本搜索、对应片段搜索和翻译记忆管理工具,文本搜索工具允许用户查询已经翻译好的文本或参考文档;对应片段搜索工具帮助用户检索出一个单词或一种表达方式在源语言和目标语言中的对应翻译结果;翻译记忆管理工具保存了文本片段的在源语言和目标语言中的对应关系. 谭咏梅 王枞 王小捷 钟义信关键词:双语语料库 翻译记忆 搭配 使用SVMs进行汉语浅层分析 被引量:1 2008年 提出了基于support vector machines(SVMs)的汉语浅层分析方法,并且为描述整个层次短语结构定义了10种汉语组块类型.与其他机器学习方法相比,该方法能自动选择对浅层分析有用特征,并能选择出有效的特征组合,较以前的研究可反映识别方向、特征模板、核函数、多分类方法及其组合对基于SVMs的汉语浅层分析性能的影响.在开放语料Chinese TreeBank上,Precision、Recall和FB1平均达到了95.36%、97.30%和96.32%. 谭咏梅 王小捷 周延泉 钟义信关键词:支持向量机 浅层分析 组块