张永伟
- 作品数:28 被引量:89H指数:5
- 供职机构:中国社会科学院更多>>
- 发文基金:国家社会科学基金国家自然科学基金国家临床重点专科建设项目更多>>
- 相关领域:语言文字自动化与计算机技术文化科学医药卫生更多>>
- 辞书编纂系统的汉字处理:挑战与解决方案被引量:3
- 2020年
- 自计算机发明伊始,文字处理就成为计算机技术的核心课题。世界上主要的文字系统包括拼音文字、楔形文字、象形文字等,如何对其进行编码、显示、识别,一直是非常棘手的问题,解决方案不胜枚举。紧随文字处理技术的是辞书编纂系统,即利用计算机文字处理技术辅助人编纂各类人用辞书。这项研究国内外都已经开展多年,然而汉字处理仍然对辞书编纂系统研发和使用带来挑战。文章选择多个有代表性的辞书编纂系统进行评估分析,指出它们目前存在的问题,同时提出解决方案。
- 张永伟
- 关键词:汉字编码汉字处理
- 现代汉语整数数词短语系位结构研究--语言信息处理视角被引量:1
- 2017年
- 数词表示数量或顺序,是现代汉语的一个独立词类。系数词与位数词通过系位结构组成数词短语,是整数的重要组成部分。本文系统地分析了位数词的组成与分类,将位数词划分为小位数词、大位数词及连续位数词三类。基于上述划分,本文给出系位构造、系位组合、复杂系位组合的汉语整数数词短语语法规则,提出了汉语大整数数词短语的语法规则,完善了汉语数词系位结构理论。最后,借助汉语整数数词短语与阿拉伯数字的数学语义转换规则,对汉语整数数词短语的系位结构进行了系统的验证,解决了语言信息处理无法依据现有数词短语语法规则处理整数的问题。
- 张永伟
- 关键词:语言信息处理
- 人生历程叙事与修辞场景元宇宙技术重构
- 2024年
- 《当代修辞学》2023年6期,20000字人们每时每刻都活在当下亲历中。当下亲历的瞬间融记忆中的过去于当下之中,同时通过预见未来而把当下变成过去。过去一当下一未来之间的动态融合赋予人活着的意义。刚出生的婴儿能够通过多模态感官系统感知外部环境,同时也感知身体内部环境并做出反应。我们把婴儿这时能够亲历到的称为“感知环境世界”。
- 顾曰国张永伟
- 关键词:当代修辞学外部环境活在当下亲历
- 面向语文辞书编纂的词语依存搭配检索系统研究被引量:1
- 2022年
- 词语依存搭配是基于词语依存句法关系的搭配,有助于了解词语的含义和用法。在计算语言学和语料库语言学领域,依存搭配的相关研究成果颇丰,但还未能有效辅助语文辞书编纂。文章根据语文辞书编纂特点,提出词语搭配检索应具备的核心功能,研制了辅助语文辞书编纂的依存搭配检索系统,最后对如何使用该系统辅助语文辞书条目的释义和配例进行了演示。
- 张永伟马琼英
- 关键词:语文辞书释义配例
- 《新华字典》中异形词收录及使用情况分析被引量:3
- 2018年
- 《新华字典》以释字为根本,但也包含大量带注解的复音词。通常情况下,如果复音词是《第一批异形词整理表》不推荐的词形,《新华字典》会在左上角加*号,外加圆括号加以区分,有显性的标记。此外,《新华字典》中还有其他隐含形式的异形词。文章试图对《新华字典》中有标记的显性异形词及无标记的隐性异形词的收录情况进行分析,对释文中使用的不推荐词形进行分析,全面揭示《新华字典》中异形词收录及释文中不推荐词形使用的情况。在此基础上给出《新华字典》中异形词收录、使用的几点建议。文章采用的研究方法对处理其他字典的异形词也有一定的参考价值。
- 张永伟
- 关键词:《新华字典》异形词《第一批异形词整理表》
- 汉语辞书词条自动编纂调查研究--以ChatGPT为例
- 2024年
- 文章以ChatGPT为例,借助问卷考察了大语言模型在汉语辞书词条自动编纂中的表现。研究选取40个词目作为样本,充分考虑词性、词长、义项数的多样性,借助ChatGPT生成释文,并与《现代汉语词典》第7版进行对比分析。问卷调查显示,ChatGPT编纂的词条中有37.5%获得了更多受访者的认可,但整体质量距离全面超越传统辞书仍有差距。ChatGPT在单音字、单一词性词语的标注和单义项词语的释义方面具有优势,但对多音字、兼类词、多义词以及特殊语体词的词条编纂效果明显下降,也暴露出义项遗漏、释义不准确、举例模式化等问题。总体而言,ChatGPT在辞书编纂中展现了生成新义、快速编纂等优势,但严谨性、系统性不足,难以独立完成编纂任务。大语言模型正在不断升级中,未来宜持续关注并将其用作辞书编纂的辅助工具,通过人机互助提高辞书编纂速度,提升辞书编纂质量,推动汉语辞书智能化发展。
- 张永伟刘婷
- 关键词:辞书词条
- 多媒体、多模态语料库协作管理平台的设计与实现被引量:1
- 2022年
- 多媒体、多模态语料库协作管理平台服务于多媒体、多模态语料库建设,专供语料库建设者使用,支持多用户在线协作。平台拟帮助用户在建设多媒体、多模态语料库时降低门槛、节约成本、加速进程、提高入库语料质量。文章详细介绍了系统的研发背景、目标、架构、功能设计与实现,重点突出了对多媒体、多模态语料库的多维度支持和对语料库协作管理的支持,可为同类系统的研制提供参考借鉴。
- 张永伟刘沛鑫程璐顾曰国
- 关键词:多模态多媒体
- 异形词使用倾向值的计算与应用被引量:2
- 2021年
- 通用性原则是异形词整理的首要原则。本文将一组异形词中某一词形的使用概率称为异形词使用倾向值,系统阐述了异形词使用倾向值的计算方法、性质和优点,并举例说明了使用倾向值在评估异形词规范效果、确定异形词推荐词形、对潜在异形词进行甄别与预测等方面的作用。我们期望使用倾向值可以在更多的异形词相关研究中得以应用,在应用中有更多新发现,得出更科学的结论。
- 张永伟
- 关键词:异形词计算方法
- 成语图式构式表征:基于类例频率的研究被引量:2
- 2020年
- 本研究基于语料库中成语的类例频率统计,考察成语图式构式的表征问题。实验中要求被试判断随机呈现的四字材料是否为成语。实验关键材料是图式构式类频率不同但成语例频率和熟悉性都匹配的四字成语。结果显示,无论成语的类例频率和熟悉度高低,三个实验中均未出现成语加工的类频率效应。这一结果表明汉语成语的抽象图式构式表征并未固化,不是影响成语加工的表征单元。
- 孔令跃张永伟
- 关键词:成语
- 语文辞书在异形词规范中的作用——以含有非规范汉字的异形词处理为例
- 2020年
- 《第一批异形词整理表》附录中44组含有非规范汉字的异形词是涉及对错的问题,但相关研究较少。《现代汉语词典》对这44组异形词的处理可概括为三种类型,这些不同的处理方式是辞书语言文字规范功能的体现。《现代汉语词典》积极遵循语言文字规范,同时对规范做了更为合理的呈现,为规范的修订提供依据和参考。语文辞书同国家语言文字规范文件一起承担着语言文字规范功能。
- 张永伟
- 关键词:语文辞书异形词