一、方言机器识别技术研究(论文文献综述)
陆烁,丘国新,钱思宇,高乐妍[1](2021)在《面向语言障碍筛查的汉语儿童言语交际水平评估系统研发》文中研究表明中山大学中文系神经语言学教学实验室面向语言障碍筛查开发的汉语儿童言语交际水平评估系统,以一套固定程序作为引导,能在短时间内快速采集儿童的言语数据。基于这个评估范式,实验室采集了大量2~14岁儿童言语交际过程中的言语数据,从语音、能产性、流畅度、语法、语义、逻辑六大语言维度出发,细分为16项指标对语料进行人工标注和机器识别,建立起一个应用于语言能力评估和语言障碍筛查的汉语儿童言语数据库,可以精准评估汉语儿童的言语交际水平。目前该语料库储存了966名汉语儿童的言语数据,并对638名儿童的语料进行了标注。该语料库可以对儿童语言障碍的智能化筛查提供机器学习训练数据,也可以为研究汉语儿童语言习得和各类儿童语言障碍提供数据资源支持。
伍三威[2](2021)在《基于卷积神经网络的说话人识别系统研究》文中提出随着人机交互技术的发展,计算机对于语音信号的识别已逐渐成为现代生活中必不可少的一环,在智能家居、金融保险、公共安全、电子通讯领域都有越来越多的需求。随着深度学习的发展,说话人识别技术近年来进展突飞猛进,但是在文本无关的说话人识别任务中,依然存在着诸多难题和挑战,例如,实际应用中面临的短语音识别、方言识别、低资源识别、语音降噪、信道干扰消除等问题。本文主要基于卷积神经网络(CNN)搭建了三种说话人识别模型并加以融合,在短语音语种识别的场景(识别样本时长小于等于1秒)上得到更好的识别效果;通过拼接的方式,弥补已有说话人识别特征中缺失的时序依赖信息,验证对比预测编码(CPC)这种自监督学习方法提取到的特征在语种识别任务上的有效性。本文工作主要有以下几方面:第一,研究并实现了经典的机器学习的方法GMM-UBM(高斯混合模型-通用背景模型),通过EM(期望极大)算法和MAP(最大后验概率估计)自适应算法训练并提取得到I-vector特征,并通过几种不同的后端打分方式,cosine打分、逻辑回归打分、LDA(线性判别分析)打分、LDA+PLDA(概率线性判别分析)打分,得到EER(等错误率)最佳时的效果基线。第二,针对I-vector在大数据集和短语音识别上表现欠佳,且经典的深度学习模型D-vector和X-vector计算量大的问题,提出基于一维空洞卷积神经网络Encoder(编码器)的设计,来完成帧级别的说话人特征提取,并基于该编码器搭建出完整的基于卷积神经网络的说话人识别系统D-vector和X-vector的训练网络。训练完成后的测试效果(EER分别为13.85%和11.57%),均达到比经典的I-vector方法(EER最优16.87%)更好,验证了该卷积神经网络编码器结构的有效性。第三,为使现有的说话人识别系统(D-vector、X-vector)能够更好地结合帧与帧之间的依赖关系来实现说话人识别,本文基于卷积神经网络编码器及自回归模型GRU得到对比预测编码(Contrastive Predictive Coding,CPC),并在短语音语种识别的实验上验证该自监督学习的模型提取到的特征能够较好地补充现有的系统所提取到的说话人特征中缺失的时序信息。实验中拼接该CPC的Ct特征后,在原有的D-vector和X-vector基础上均达到更好的识别效果(EER 12.89%和11.09%)。
裴苏亚[3](2021)在《话语标记语“你看”的识别规则研究》文中研究说明话语标记语在中文分词和词性标注系统中的研究相对薄弱,有少数分词标注系统收录话语标记语的标识符。为提高分词系统的准确率,使机器正确识别话语标记语“你看”,文章对“你看”进行了语言学界定和分析,总结了面向中文信息处理的识别规则,并对识别规则进行验证。文章从语言学角度描写了“你看”的三种使用情况,包括行为义“你看”、认知义—征询标记和言语义—话语标记“你看”。分析了这三种类型“你看”的界定、特征以及做征询标记和话语标记的语用功能。结合语料库,本文又增加了“你看”的第四种使用类型,称为其他类。文章使用定量和定性相结合的方法,主要从共现字符和固定搭配字符两方面总结了行为义“你看”的主要识别规则;从后连接词性、后连接串、共现字符三方面总结了认知义—征询标记“你看”的主要识别规则;从前后连接词性、后连接串两方面总结了言语义—话语标记“你看”的部分识别规则;从前连接词性、前连接串两方面总结了其他类“你看”的主要识别规则。经过对语料的统计,得出行为义、认知义—征询标记、言语义—话语标记、其他类“你看”的占比分别为30.4%、1.4%、64.1%、4.2%,由此可知,“你看”作为话语标记使用的频率最高。由于话语标记“你看”的规则难以提取,文章使用排除法,以行为义、征询标记和其他类“你看”的规则为主,以话语标记“你看”的规则为辅,区分规则优先级,建立整体的识别规则。依据规则设计相应的算法,对两个语料库的验证语料进行人工封闭测试,得出查全率、查准率、F值均在90%左右,实验结果比较理想。文章对验证结果进行反思,发现行为义“你看”中现场性极强的一个小类规则性较弱。排除这一类“你看”,重新对中国传媒大学有声媒体语言语料进行验证,查准率和F值较之前分别提高了7.4%、3.7%。这说明文章对行为义中现场性极强的一类“你看”规则提取不够充分,这是文章的不足之处和今后要努力的方向。
更太加[4](2020)在《融合形态结构与语法关系的藏语语言模型》文中研究表明语言是现实生活中最主要的信息交流方式。语言模型是语言研究中的一项基础工作,能够提供有效的词表征以及词序列的概率化表示,可以应用于语音识别、机器翻译、手写体识别和句法分析等相关研究。目前,语言模型在英语、汉语和日语等语料相对充足语言领域已经取得了比较理想的效果。而针对藏语的相关研究仍处在初级阶段,由于藏语语料资源的匮乏和研究人员的稀少,严重制约了藏语语言模型的研究发展。在此背景下,本文从藏语自身的语言特点着手:一方面构建了藏语语料库,以验证本文研究结果的合理性;另一方面是从藏语形态结构出发,解决在有限的语料中获取更加有效的信息来补充资源缺乏的问题。藏语作为资源匮乏的语言之一,目前没有公开的、标准的音频和文本数据资源。根据藏语拉萨方言的特点和藏语文本的特殊性,本文考虑了音素平衡以及文本域问题,构建了藏语的音频和文本语料库。基于藏语句子中一些虚词接续错误和低频词问题,本文重点关注了藏语中后缀对虚词的影响,以及形态动词对低频词的影响。在上述基础上,首先,本文提出了藏语静态形态结构关系的语言模型。与其他语言不同,藏语中特有的静态形态结构关系(即后缀对虚词接续关系)会严重影响藏语句子的语义理解。具体地,除了字本身的信息之外,字的后缀信息能够使其更加准确接续正确的虚词。因此,本文将静态形态结构融入到字的信息中,以纠正句子中一些语法错误,从而使句子语义能够准确表达。其次,本文提出了藏语动态形态结构关系的语言模型。我们发现在语料中有一些动态形态结构关系(即藏语中的形态屈折变化词),这类词比较特殊且重要,对句子的语义会产生重要影响,尤其是在语音识别中的同音字,预测错误的可能性较大。由于词类中候选词越多,其对应的候选词权重越低,被选中的概率就越低。为此,我们对藏语中的形态动词进行加权,使其不但能够被分配到更高的词类中,而且能更加准确地表示句子语义。最后,本文提出了融合静态和动态形态结构的藏语语言模型。经统计发现,静态形态结构关系可以纠正句子中语法错误的问题,而动态形态结构可以使句子中形态动词的权重发生变化,这两种结构具有互补的关系,能够进一步增强对藏语句子语义的理解。我们有效融合了静态和动态形态结构,不仅考虑到后缀对虚词的影响,而且对形态动词进行了加权以增强句子的语义理解,比仅考虑单个特性的模型在性能上有所提升。综上所述,通过构建藏语语料库以及对其分析,我们发现语法和低频词问题。进而将后缀对虚词的语法问题以及形态动词对低频词的影响应用于藏语语言模型的研究中,可以有效提升藏语句子的识别和理解能力。除了语音识别,本文的工作还可被应用到手写体识别、机器翻译和句法分析等藏语自然语言处理的不同任务上,希望该工作能为藏语信息处理研究做出一点绵薄之力。
邓璐芗,许鑫[5](2021)在《数字人文人工智能平台的设计与实现——以ECNU-DHAI平台为例》文中提出当前的数字人文实践,主要由各组织和机构单独实施,以专题专项为主要建设模式,存在着难以应对海量多源异构资源数字化需求、重复建设、标准缺位制约数据关联和共享等问题。为此,本研究构建了实现机器自动化流程闭环和实践成果共享的数字人文人工智能平台,并对其基础层、平台层、服务层和应用层分别进行了系统的介绍。最后,以华东师范大学DHAI平台实践为例,对其架构设计、计算资源规划和演进、古籍文献自动识别和众包校对、深度着录应用进行了详细介?绍。
杨青[6](2020)在《影响普通话水平测试(PSC)成绩的因素分析》文中研究表明测试员在进行普通话水平测试时,有时不可避免地受到一些因素干扰,使测试成绩出现偏差,无法反映应试者的真实水平。承认普通话测评误差是真实存在的,不可避免,基于这种认识,试图总结测试员测试过程中影响测试成绩的因素,探讨如何能最大限度缩小这些因素对测试成绩的影响,使考生普通话水平测试成绩更加接近真实水平。
潘立馨[7](2019)在《基于迁移学习的低资源多语言的语音识别研究》文中认为自动语音识别技术发展至今日,无论是在传统混合语音识别架构还是新兴的端到端识别架构上,在声学语料充足、资源丰富的语言上,均已取得了不错的识别效果。而对于一些语料较为匮乏的低资源语言,缺乏转录语音训练数据这一核心问题,使得这些语种在搭建语音识别系统任务中仍然受到很大限制,其语音识别研究仍停留在较为初级的层面。本文的研究目的是利用迁移学习的思路,选择在端到端架构上,采用多语言语音识别技术提升低资源语言的语音识别性能。本文主要以实验室录制的藏语拉萨方言作为低资源目标语言,对其进行了以下研究:1.基于端到端架构的优势,提出了端到端的拉萨方言单语语音识别模型。在此基础上,将拉萨方言这种语言的独特性应用到该语音识别的任务中。首先,提出了这种低资源语言适应端到端架构的预训练策略,该策略能针对低资源语种训练不充分的问题进行明显改善;其次,本文挖掘藏语自身的独特性,首次将藏文部件(radical)作为高度压缩的声学建模单元进行建模,并和藏文字建模单元进行对比,以期提高语音识别系统的性能。实验显示,针对拉萨方言数据库,使用这种基于自注意力机制的端到端模型Transformer,在使用低资源语言适应端到端架构的预训练策略后,采用两种与发音词典无关的建模单元进行建模和解码,能够取得较为理想的结果。该方法能够在脱离发音词典、语言模型的情况下,快速建立低资源语音识别系统。在性能方面,单语的最佳结果比传统混合语音识别架构上深度神经网络模型的基线系统结果有相对6.3%的提升。2.基于迁移学习的思路,提出了端到端的拉萨方言多语言语音识别模型。首先,该模型将参与训练的全部语种的建模单元混合,其全部建模单元均采用与各语种发音词典无关的建模单元,因此完全摆脱了对发音词典的依赖,也不需要根据语种构建通用音子集,这对缺乏资源的低资源语种至关重要;其次,该模型将语种识别和语音识别双任务统一在单一模型中,无需预先进行语种切分,通过训练能够自动判别语种,直接支持多语言语音识别任务;最后,该模型采用端到端架构,不再需要传统混合模型架构中的高斯混合模型对齐及决策树聚类等流程,极大简化了多语言语音识别任务的流程。实验首先参考类似多语言语音识别的思想,进行拉萨方言的自我融合训练,即对藏语的两个建模粒度的识别系统进行系统融合,证明了两种建模粒度共同训练的模型性能要优于单一建模单元的训练模型。在此基础上,采用了与目标语言类似的共四种语言与目标语言的两种建模单元数据联合训练,搭建拉萨方言的多语言语音识别系统。其最佳结果比基线系统的结果有相对14.2%的提升。
杨晓敏[8](2019)在《不同汉语方言语音情绪韵律的识别研究》文中指出在语音情绪认知的跨文化研究中,不管是跨语种还是跨国别条件下,语音情绪的识别存在跨文化的一致性和群内优势效应。汉语方言一般表现为同语种内的发音变异。在汉语文化背景下的不同方言中,这种语音情绪识别的跨语种或跨国家特性是否同样存在?目前还没有研究给予证实。本研究使用透镜模型探究汉语方言语音情绪韵律跨文化识别,并用机器识别来验证情绪表达和识别的文化差异。实验一选取武汉和江苏被试来识别武汉和江苏地区的情绪语音,探究了武汉和江苏地区语音情绪识别的正确率和得分差异,实验二从声学特征角度入手分析了武汉和江苏语音情绪韵律在表达上的差异,实验三则利用支持向量机(SVM)来验证语音情绪表达模式和识别模式的匹配程度影响了跨文化情绪识别的差异性。结果表明:(1)武汉和江苏地区的被试对武汉和江苏在中性、高兴、愤怒、害怕和惊讶等五种情绪的语音韵律识别存在超出机遇水平的正确性即跨文化一致性,但不同方言区被试的识别也存在群内优势效应即跨文化差异性;(2)武汉和江苏的五种情绪语音在如语速、基频、频谱能量的具体声学特征上有系统差异,即不同地区方言的情绪表达方式有所不同;(3)根据每种方言特殊的情绪韵律声学特征进行机器学习和识别,同一方言文化下的语音情绪分类更准确,间接说明人们会在特定的方言文化背景下解码情绪表达。综合整个研究来看,不同方言的语音情绪韵律的表达和识别都存在差异,这种差异具体表现在发音时的音韵或语调变化上,证实了语言经验对跨文化情绪识别的影响,佐证了方言理论。
杜宜阳[9](2019)在《智能时代国际化城市的语言生活治理 ——以上海为例》文中进行了进一步梳理全球化时代,伴随更加频繁、剧烈的人口跨国流动而产生的语言超多样性,一方面为社会提供了更为丰富的语言资源,但同时也为如何协调更加复杂的语言关系、如何处理多语环境中的交际问题提出了新的挑战。与此同时,科技进步,特别是移动互联网和智能技术的发展为语言生活和语言治理带来的新的变量。在此背景下,探究国际化都市中语言生活可能面临的新现象与新挑战,特别是智能技术在多语交际中所能发挥的作用对城市语言生活的治理有着重要的理论意义和实践意义。本研究以上海五个外国人聚居区的公共空间为研究范围,以上海跨国移民和公共领域从业者为研究对象,提出以下三个研究问题:(1)上海城市语言生活中人们对语言资源的使用有何特点;(2)智能技术在城市语言生活中发挥怎样的作用;(3)智能时代国际化城市的语言生活治理如何实现。为回答上述研究问题,本研究遵循解释主义范式,以质性研究中的语言景观民族志与网络民族志为基本研究路径,从空间语库和个人交际语库两个角度,通过观察、访谈和实物分析等手段收集数据,以类属分析、情境分析和时刻分析等方法对收集到的数据进行归纳、整理和分析探究城市空间中的语言资源状况和人们对这些资源的使用过程。本研究有如下发现:(1)虽然上海的多语资源配置呈现层次性与变动性特征,但总体上普遍采用以英语为国际通用语的做法应对多语交际需求,空间语库和交际语库中其他语言资源配置较少,原因在于上海的多语交际需求总量少、分布散,公共领域的机构缺乏动力配置相应语言资源;(2)因语言不通而产生的多语交际问题,跨国移民和本地公共领域从业人员普遍使用超语实践作为替代性策略,满足了日常生活中大部分的交际需求,但超语实践的效果受到个人能动性与空间性的限制,不能完全解决多语交际中的问题;(3)移动应用和智能技术在上海的普及为人们提供了更丰富的语言资源,增强了人们通过超语实践进行多语交际的能力;因不同人应用相关资源和工具的效果千差万别,除了技术产品本身的限制外,个人使用语言资源解决交际问题的意识和能力是重要影响因素。基于以上发现,本研究提出:(1)对于高流动性和超多样性的国际化都市,加强空间语库中以物质形式为载体的语言资源的可用性与可及性是比提升本地民众外语能力更加可行和有效的做法;(2)培养和提升人们使用一切可用语言资源和工具(包括物质形式的资源)进行多语交际的能力和意识,将个人能动性驱动的随机超语实践通过语言政策的引导变为稳定的超语能力;(3)互联网和智能技术是人们多语交际时可调用的最重要资源与工具,因此培养人们超语能力的最核心内容就是他们运用智能设备、智能产品解决交际问题的能力。
更藏措毛[10](2019)在《基于深度神经网络的安多藏语语音识别》文中提出语音识别是模式识别领域中重要的研究分支,其目的是将人类语音信息转换为文本信息。在汉语和英语语音识别中,相比于传统的高斯混合模型-隐马尔科夫模型,深度神经网络的识别性能实现了质的飞跃。但目前有关藏语语音识别的研究较少,特别是藏语属于低资源语言且存在浊辅音趋于清化、元音有长短区别、单元音增多等特点,使得藏语的语音识别仍面临诸多挑战。在藏语的卫藏、康巴与安多三大方言中,针对卫藏方言的语音识别研究相对较多,有关安多方言与康巴方言的研究相对较少,特别是深度神经网络在安多藏语语音识别中的应用尚未深入研究。因此,本文从安多藏语声学模型结构出发,探讨了端对端双向长短时记忆网络在安多藏语语音识别中的应用。本文研究内容如下:1)语料库建立。收集了安多藏语中出现频率最高的1278个单音节词汇,对每个词汇采集藏语安多方言的语音样本,采样频率为16KHZ、量化精度为16bit且通过Cool Edit Pro软件在噪声不高于50dB的室内录制。2)预处理。对藏语安多方言语音信号进行预加重、分帧、加窗、预处理操作,消除由于人类本身发声器官和语音信号采集设备所带来的混叠、高次谐波失真、高频等因素对语音信号质量的影响。预处理操作使语音信号更均匀、平滑,确保在特征提取阶段提取更优质的参数,从而提高语音识别性能。3)特征提取。在安多藏语语音识别任务中,考虑藏语发音的特点,探讨了不同特征提取方法对系统性能的影响。本文分别采用传统梅尔频率倒谱系数和卷积神经网络两种方式提取特征。实验结果表明,应用卷积神经网络提取的特征效果优于梅尔频率倒谱系数特征。4)声学建模。双向长短期网络适合处理序列问题,链接时序分类技术不需要预先对数据进行标注、对齐处理以及后处理操作。因此将链接时序分类技术与双向长短时记忆网络相结合,实现了端对端的安多藏语声学建模。实验证明,基于双向长短时记忆网络端对端的安多藏语声学模型获得了较好的性能。
二、方言机器识别技术研究(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、方言机器识别技术研究(论文提纲范文)
(1)面向语言障碍筛查的汉语儿童言语交际水平评估系统研发(论文提纲范文)
一、引言 |
(一)儿童语言能力评估概况 |
(二)基于语料库建设的儿童语言发展评估 |
二、面向语言障碍筛查的汉语儿童言语交际评估方案 |
(一)设计思路 |
(二)固定引导程序 |
1. 图片内容复述 |
2. 视频内容复述 |
3. 自由发言 |
(三)数据采集方法 |
三、面向语言障碍筛查的汉语儿童言语交际水平数据库建设 |
(一)数据标注方法 |
1. 标注的前期处理及标注软件 |
2. 标注项目 |
3. 语音维度的标注 |
4. 语义维度的标注 |
5. 能产性维度的标注 |
6. 流畅性维度的标注 |
7. 语法维度的标注 |
8. 逻辑维度的标注 |
(二)汉语儿童言语交际水平数据库 |
四、汉语儿童言语交际水平评估系统应用前景 |
(一)结合机器深度学习的汉语儿童语言障碍智能快速筛查 |
(二)人工耳蜗植入儿童综合语言能力研究 |
1. 人工耳蜗植入儿童综合语言能力发展研究 |
2. 人工耳蜗植入儿童六大语言维度发展情况 |
五、总结 |
(2)基于卷积神经网络的说话人识别系统研究(论文提纲范文)
摘要 |
Abstract |
第一章 绪论 |
1.1 说话人识别系统的概念 |
1.2 说话人识别系统的研究背景 |
1.2.1 说话人识别的历史和现状 |
1.2.2 说话人识别的应用 |
1.3 说话人识别系统的关键 |
1.4 主要研究内容和结构 |
第二章 说话人识别系统的基本框架及模型 |
2.1 说话人识别的基本框架 |
2.2 语音特征的提取 |
2.2.1 语音数据的采集 |
2.2.2 特征参数提取 |
2.2.3 语音活性检测 |
2.3 传统说话人识别模型 |
2.3.1 GMM-UBM |
2.3.2 I-vector |
2.3.3 LDA/PLDA打分 |
2.4 本章小结 |
第三章 基于CNN的 D-vector和 X-vector说话人识别编码器设计 |
3.1 卷积神经网络与编码器 |
3.1.1 一维空洞卷积 |
3.1.2 编码器和Bottleneck特征 |
3.2 D-vector模型和特征 |
3.3 X-vector模型和特征 |
3.4 本章小结 |
第四章 基于CNN和 CPC特征融合的说话人识别系统设计 |
4.1 CPC模型和特征 |
4.1.1 自回归模型GRU |
4.1.2 基于CNN编码器的CPC模型 |
4.2 基于CPC特征融合的说话人识别 |
4.3 本章小结 |
第五章 短语音语种数据实验结果 |
5.1 实验数据和环境 |
5.2 打分方式和评价指标 |
5.2.1 cosine距离打分 |
5.2.2 逻辑回归打分 |
5.2.3 其它打分 |
5.2.4 评价指标 |
5.3 I-vector实验 |
5.4 D-vector和 X-vector实验 |
5.5 拼接CPC特征的说话人识别实验 |
5.6 实验结果分析 |
5.7 本章小结 |
第六章 总结与展望 |
参考文献 |
致谢 |
在学期间成果 |
(3)话语标记语“你看”的识别规则研究(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 选题缘由 |
1.2 研究目的及意义 |
1.2.1 研究目的 |
1.2.2 研究意义 |
1.3 研究对象 |
1.4 研究方法及创新点 |
1.5 语料来源 |
1.6 研究现状 |
第二章 “你看”的分类 |
2.1 行为义 |
2.2 认知义—征询标记 |
2.2.1 征询标记的界定和特征 |
2.2.2 征询标记“你看”的语用功能 |
2.3 言语义—话语标记 |
2.3.1 话语标记“你看”的界定和特征 |
2.3.2 话语标记“你看”的语用功能 |
2.4 其他 |
第三章 识别规则的提取 |
3.1 行为义“你看”的主要规则 |
3.1.1 固定搭配字符 |
3.1.2 共现字符 |
3.2 认知义—征询标记“你看”的主要规则 |
3.2.1 后连接词性 |
3.2.2 后连接串 |
3.2.3 共现字符 |
3.3 言语义—话语标记“你看”的部分规则 |
3.3.1 前后连接词性 |
3.3.2 后连接串 |
3.4 其他的主要规则 |
3.4.1 前连接词性 |
3.4.2 前连接串 |
第四章 规则的总结和验证 |
4.1 规则的总结 |
4.1.1 相关概念 |
4.1.2 流程设计 |
4.2 规则的验证 |
4.2.1 验证结果演示 |
4.2.2 验证结果分析 |
第五章 结语 |
参考文献 |
附录 |
附录1 |
附录2 |
附录3 |
附录4 |
附录5 |
附录6 |
附录7 |
附录8 |
附录9 |
附录10 |
致谢 |
(4)融合形态结构与语法关系的藏语语言模型(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 研究的现状 |
1.3 研究的内容和创新点 |
1.4 章节关系和安排 |
第2章 语言模型概述 |
2.1 语言模型的简介 |
2.1.1 N-gram语言模型 |
2.1.2 语言模型自适应方法 |
2.1.3 循环神经网络语言模型 |
2.2 藏语语言模型以及相关研究 |
2.2.1 资源丰富的语言 |
2.2.2 藏语以及藏语语言模型 |
2.2.3 藏语语言模型的研究与存在的问题 |
2.3 评价标准 |
2.3.1 困惑度 |
2.3.2 语音识别的词错误率 |
2.4 本章小结 |
第3章 藏语语料的构建和测试 |
3.1 拉萨方言语音数据库构建和测试 |
3.1.1 拉萨方言语音数据库构建 |
3.1.2 藏语音频语料库在不同音素集声学模型上的测试 |
3.2 藏语文本数据库构建和测试 |
3.2.1 藏语文本数据库构建 |
3.2.2 基于形态结构的组合基字藏语语言模型的测试 |
3.3 本章小结 |
第4章 基于静态形态结构的藏语语言模型 |
4.1 藏语虚词及相关研究 |
4.1.1 藏语虚词 |
4.1.2 现有研究中问题及贡献 |
4.2 藏语后缀对虚词的影响 |
4.2.1 藏语字符形态结构 |
4.2.2 后缀的作用以及语义影响 |
4.3 考虑后缀的藏语建模 |
4.3.1 标准的RNNLM |
4.3.2 藏文后缀特征融合 |
4.4 实验结果与分析 |
4.4.1 数据 |
4.4.2 结果 |
4.4.3 分析 |
4.5 本章小结 |
第5章 基于动态形态结构的藏语语言模型 |
5.1 引言 |
5.2 相关研究 |
5.3 藏语中形态动词的作用 |
5.3.1 藏语形态动词 |
5.3.2 基于类的藏语语言模型 |
5.4 基于形态动词的藏语语言模型 |
5.4.1 藏语语言模型中形态动词的重要性 |
5.4.2 离线学习通过字频率重新调整 |
5.4.3 在线调整权重 |
5.5 实验结果与分析 |
5.5.1 实验准备 |
5.5.2 结果 |
5.5.3 分析 |
5.6 本章小结 |
第6章 有效融合静态和动态形态结构的藏语语言模型 |
6.1 引言 |
6.2 语法关系和形态动词 |
6.2.1 藏语语法关系 |
6.2.2 形态动词对句子的影响 |
6.3 考虑语法和形态动词的藏语语言模型 |
6.3.1 RNNLM |
6.3.2 语法关系影响藏语语言模型 |
6.3.3 形态动词相关的藏语语言模型 |
6.3.4 静态和动态结构相结合的语言模型 |
6.4 实验结果与分析 |
6.4.1 困惑度评价 |
6.4.2 ASR evaluation |
6.4.3 分析 |
6.5 本章小结 |
第7章 总结与展望 |
7.1 研究工作的总结 |
7.2 未来展望 |
参考文献 |
附录 |
发表论文和参加科研情况说明 |
致谢 |
(5)数字人文人工智能平台的设计与实现——以ECNU-DHAI平台为例(论文提纲范文)
0 引言 |
1 数字人文研究现状和困境 |
(1)专题专项的建设模式,难以应对海量、多源异构资源的数字化。 |
(2)建设成果和经验未高度共享,重复实践难度高。 |
(3)机器自动化流程未闭环,人力资源投入巨大。 |
(4)标准缺位,制约数据关联和共享。 |
(5)人工智能技术学习成本高,掌握和应用难度大。 |
2 数字人文人工智能平台赋能数字人文研究 |
3 数字人文人工智能平台设计 |
3.1 架构设计 |
3.2 基础层 |
(1)计算。 |
(2)数据库。 |
(3)存储。 |
3.3 平台层 |
(1)减少通用服务的重复建设。 |
(2)引入最佳实践。 |
3.4 服务层 |
3.5 应用层 |
4 ECNU-DHAI平台实践 |
4.1 架构框架 |
4.2 基础计算资源和演进 |
4.3 融合机器学习的OCR识别 |
(1)字符切分 |
(2)字符识别 |
4.4 基于众包协作的任务机制 |
5 结论与展望 |
(6)影响普通话水平测试(PSC)成绩的因素分析(论文提纲范文)
一、主观原因 |
(一)个人评测水平不同 |
(二)情绪化评价 |
(三)偏见式评价 |
(四)相似性评价 |
(五)低区分度评价 |
二、客观原因 |
(一)试题的歧义性 |
(二)考试的信度 |
(三)试题的针对性 |
(四)管理制度方面 |
三、改进措施 |
(一)针对主观原因 |
(二)针对客观原因 |
(7)基于迁移学习的低资源多语言的语音识别研究(论文提纲范文)
摘要 |
abstract |
第1章 绪论 |
1.1 研究背景和意义 |
1.2 低资源语音识别的研究现状 |
1.3 本文研究内容和章节安排 |
第2章 自动语音识别基本方法 |
2.1 自动语音识别框架 |
2.1.1 混合语音识别框架 |
2.1.2 端到端的语音识别框架 |
2.2 多语言语音识别主流方法 |
2.2.1 通用音子集方法 |
2.2.2 共享隐层的混合语音识别方法 |
2.2.3 基于端到端的多语言语音识别 |
第3章 面向拉萨方言的低资源语音识别方法 |
3.1 基于端到端的单语Transformer模型 |
3.1.1 Transformer模型的整体结构 |
3.1.2 Transformer模型的重要组成 |
3.2 基于端到端的多语言Transformer模型 |
3.3 低资源语言的通用优化策略 |
3.3.1 预训练模型 |
3.3.2 高相关度语言初始化假设 |
3.4 基于藏文字的独特优化手段 |
3.4.1 藏文字的结构和发音特性 |
3.4.2 藏文部件建模单元 |
第4章 实验和结论 |
4.1 拉萨方言数据库 |
4.1.1 拉萨方言语音数据库 |
4.1.2 拉萨方言发音词典 |
4.1.3 拉萨方言语言模型 |
4.2 源语言语音数据库 |
4.3 拉萨方言混合语音识别系统 |
4.3.1 数据准备 |
4.3.2 特征提取 |
4.3.3 声学模型训练 |
4.3.4 解码 |
4.4 拉萨方言端到端单语语音识别系统 |
4.4.1 拉萨方言的建模单元 |
4.4.2 拉萨方言的随机初始化训练 |
4.4.3 源语言的预训练模型 |
4.4.4 带预训练的拉萨方言单语语音识别 |
4.5 拉萨方言自我融合语音识别系统 |
4.6 拉萨方言多语言语音识别系统 |
第5章 总结与展望 |
参考文献 |
发表论文和参加科研情况说明 |
致谢 |
(8)不同汉语方言语音情绪韵律的识别研究(论文提纲范文)
摘要 |
Abstract |
1.绪论 |
1.1 研究背景 |
2.文献综述 |
2.1 情绪的界定 |
2.2 语音情绪韵律的界定 |
2.3 语音情绪韵律识别的跨文化研究 |
2.4 语音情绪韵律识别的声学特征研究 |
2.5 语音情绪韵律识别的声学特征跨文化研究 |
2.6 语言经验对语音情绪识别的影响 |
2.7 基于情绪韵律声学特征跨文化差异的机器识别研究 |
3.问题提出和研究意义 |
3.1 问题提出 |
3.2 研究意义 |
3.2.1 理论意义 |
3.2.2 实践意义 |
4.研究内容 |
4.1 文字材料的收集和评定 |
4.2 实验一:不同方言区被试对方言情绪韵律识别的跨文化差异性 |
4.2.1 研究目的 |
4.2.2 研究假设 |
4.2.3 研究方法 |
4.2.4 研究结果 |
4.2.5 讨论 |
4.3 实验二:不同方言情绪韵律的声学特征差异 |
4.3.1 研究目的 |
4.3.2 研究假设 |
4.3.3 研究方法 |
4.3.4 研究结果 |
4.3.5 讨论 |
4.4 实验三:不同方言情绪语音的小样本机器识别 |
4.4.1 研究目的 |
4.4.2 实验设计 |
4.4.3 实验结果 |
4.4.4 讨论 |
5.总讨论 |
5.1 汉语方言语音情绪识别的区域性跨文化一致和不一致现象 |
5.2 汉语方言在表达情绪时的声学特征差异性及其原因 |
5.3 基于敏感性声学特征学习的汉语方言情绪韵律机器识别 |
5.4 问题价值 |
5.5 研究不足与展望 |
6 结论 |
参考文献 |
附录 评定语句的中性情绪 |
(9)智能时代国际化城市的语言生活治理 ——以上海为例(论文提纲范文)
致谢 |
摘要 |
Abstract |
第一章 导论 |
1.1 研究背景 |
1.2 研究问题 |
1.3 论文结构 |
1.4 小结 |
第二章 文献综述 |
2.1 全球化的社会语言学研究 |
2.1.1 移动性与超多样性:全球化时代城市语言生活的基本特点 |
2.1.2 交际语库与超语实践:全球化时代城市语言生活研究的新视角 |
2.1.3 都市超语现象与空间语库:城市语言生活研究的空间转向 |
2.2 国际化城市的语言生活治理研究 |
2.2.1 从规划到治理:语言政策研究的演进 |
2.2.2 移民语言生活:国际化城市语言生活治理的核心议题 |
2.2.3 语言景观民族志:城市语言生活治理研究的新路径 |
2.3 智能技术与语言生活 |
2.3.1 传统互联网的语言研究 |
2.3.2 移动数字交际 |
2.3.3 网络空间的语言政策 |
2.4 小结与讨论 |
2.4.1 本研究的理论视角 |
2.4.2 本研究的核心概念 |
第三章 研究设计 |
3.1 研究范式的选择 |
3.2 研究方法 |
3.2.1 资料收集 |
3.2.2 材料分析 |
3.3 研究范围 |
3.3.1 研究场景 |
3.3.2 研究对象 |
3.4 研究信度与效度 |
3.4.1 研究的信度 |
3.4.2 研究的效度 |
3.5 研究伦理 |
3.6 小结 |
第四章 上海城市语言生活的社会历史背景 |
4.1 早期上海的国际化与现代性 |
4.1.1 上海开埠与租界的建立 |
4.1.2 外来移民涌入与华洋杂居 |
4.1.3 上海的城市文化与多元性 |
4.2 新时代上海的全球化之路 |
4.2.1 上海的全球城市建设 |
4.2.2 上海的人才政策 |
4.2.3 上海国际社区的形成 |
4.3 上海的智能化之路 |
4.3.1 “互联网+”战略 |
4.3.2 移动互联网与智慧生活 |
4.3.3 智能技术与智能社会 |
4.4 上海的语言政策 |
4.4.1 宏观层面的语言文字法规 |
4.4.2 宏观语言政策中外语的定位 |
4.4.3 上海市层面的语言生活治理 |
4.5 小结 |
第五章 上海城市语言生活中语言资源使用的特点 |
5.1 上海城市空间中语言资源配置的特点 |
5.1.1 层次性 |
5.1.2 变动性 |
5.2 上海城市语言生活中语言资源使用的特点 |
5.2.1 超语实践作为交际策略 |
5.2.2 超语实践的空间性 |
5.3 城市语言生活中超语实践的限制因素 |
5.3.1 城市空间中资源配置的不确定性 |
5.3.2 机构语言政策的影响 |
5.4 小结 |
第六章 上海城市语言生活中的智能技术 |
6.1 网络空间中的语言资源 |
6.1.1 传统互联网中的语言资源 |
6.1.2 移动互联网中的语言资源 |
6.1.3 智能技术中的语言资源 |
6.2 智能技术在语言生活中的应用 |
6.2.1 突破交际的时空限制 |
6.2.2 转化交际需求 |
6.2.3 转换交际模态 |
6.3 语言生活中影响智能技术应用的因素 |
6.3.1 意识因素 |
6.3.2 知识因素 |
6.3.3 经验因素 |
6.4 小结与讨论 |
6.4.1 网络语言资源的全球性与本地性 |
6.4.2 企业外部语言政策的影响 |
第七章 面向全球化与智能化的城市语言生活治理 |
7.1 智能技术为国际化城市语言生活治理带来的机遇 |
7.1.1 丰富语言资源的可用性 |
7.1.2 提高语言资源的可及性 |
7.2 智能技术为国际化城市语言生活治理带来的挑战 |
7.2.1 从超语实践到超语能力 |
7.2.2 科技企业的语言政策 |
7.3 小结 |
第八章 结语 |
8.1 研究发现 |
8.2 主要贡献及创新 |
8.2.1 理论意义 |
8.2.2 实践意义 |
8.3 研究局限 |
8.4 结语 |
参考文献 |
附录1 在沪跨国移民访谈大纲 |
附录2 在沪跨国移民访谈转写节选 |
附录3 本地公共领域从业者访谈大纲 |
附录4 本地公共领域从业人员访谈转写稿节选 |
附录5 田野观察笔记节选 |
附录6 主要年份在沪外国常住人口 |
附录7 上海分年龄、性别及目的来华境外人口统计(节选) |
附录8 上海各地区境外人口户数与人口数统计(节选) |
附录9 上海各地区境外家庭户规模统计(节选) |
附录10 虹桥外国人服务站田野调查点 |
附录11 上海外国人展田野调查现场 |
附录12 联洋社区涉外服务站田野调查现场 |
附录13 碧云CCS社区开放日活动田野调查现场 |
附录14 CharityLink慈善活动田野调查现场 |
附录15 虹梅路老外街田野调查点 |
附录16 《上海市公共信息多语种服务手册》发布现场 |
(10)基于深度神经网络的安多藏语语音识别(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 研究背景 |
1.2 语音识别发展与研究现状 |
1.2.1 国内外研究历史 |
1.2.2 国内外研究现状 |
1.3 藏语语音识别发展及研究现状 |
1.4 主要内容和意义 |
1.4.1 主要内容 |
1.4.2 研究意义 |
1.5 论文的组织结构 |
第二章 基于卷积神经网络的特征提取 |
2.1 引言 |
2.2 深度神经网络 |
2.2.1 激活函数 |
2.2.2 损失函数 |
2.2.3 训练方法 |
2.3 卷积神经网络 |
2.4 本章小结 |
第三章 基于双向LSTM的端对端声学建模 |
3.1 引言 |
3.2 单向循环神经网络 |
3.2.1 循环神经网络的模型结构 |
3.2.2 循环神经网络的训练方法 |
3.2.3 长短时记忆网络 |
3.2.4 门控循环单元 |
3.3 双向循环神经网络 |
3.3.1 双向循环神经网络的模型结构 |
3.3.2 双向循环神经网络的训练方法 |
3.4 本章小结 |
第四章 基于深度神经网络的安多藏语语音识别 |
4.1 TensorFlow简介 |
4.2 基于深度神经网络的安多藏语语音识别系统 |
4.2.1 语料库介绍 |
4.2.2 安多藏语语音预处理 |
4.2.3 安多藏语语音特征提取 |
4.2.4 安多藏语声学建模 |
4.3 仿真实验与结果分析 |
4.3.1 对比MFCC方法与CNN方法特征提取 |
4.3.2 不同参数对于系统性能的影响 |
4.3.3 不同声学模型对系统性能的影响 |
4.3.4 对比MFCC与CNN对安多藏语系统性能的影响 |
4.3.5 基于深度神经网络安多藏语语音识别系统性能 |
4.4 本章小结 |
第五章 总结与展望 |
5.1 本文工作总结 |
5.2 未来工作展望 |
参考文献 |
致谢 |
个人简历 |
在校期间的研究成果及发表的学术论文 |
四、方言机器识别技术研究(论文参考文献)
- [1]面向语言障碍筛查的汉语儿童言语交际水平评估系统研发[J]. 陆烁,丘国新,钱思宇,高乐妍. 语言战略研究, 2021(06)
- [2]基于卷积神经网络的说话人识别系统研究[D]. 伍三威. 厦门理工学院, 2021(08)
- [3]话语标记语“你看”的识别规则研究[D]. 裴苏亚. 河北大学, 2021
- [4]融合形态结构与语法关系的藏语语言模型[D]. 更太加. 天津大学, 2020(01)
- [5]数字人文人工智能平台的设计与实现——以ECNU-DHAI平台为例[J]. 邓璐芗,许鑫. 图书馆杂志, 2021(03)
- [6]影响普通话水平测试(PSC)成绩的因素分析[J]. 杨青. 现代职业教育, 2020(16)
- [7]基于迁移学习的低资源多语言的语音识别研究[D]. 潘立馨. 天津大学, 2019(01)
- [8]不同汉语方言语音情绪韵律的识别研究[D]. 杨晓敏. 武汉大学, 2019(06)
- [9]智能时代国际化城市的语言生活治理 ——以上海为例[D]. 杜宜阳. 上海外国语大学, 2019(07)
- [10]基于深度神经网络的安多藏语语音识别[D]. 更藏措毛. 青海师范大学, 2019(01)