欢迎来到易发表网,发表咨询:400-808-1701 订阅咨询:400-808-1721

关于我们 期刊咨询 科普杂志

人工智能抢救濒危满语的研究与探索

时间:2022-11-08 15:12:12

关键词: 人工智能  满语  研究与探索 

摘要:运用计算机和人工智能技术做好语言调查和研究工作,加强调查和抢救力度,按照国家语保标准绘制满语电子地图,提供人口数量、语言分布、使用现状、濒危程度等信息,依托语音识别技术研发和完善田野调查软件,通过人工转录模型转录原生态满语语料,实现国际音标的自动记音、转写和标注,减少人工工作量,提高调查效率。

人工智能抢救濒危满语的研究与探索

一、濒危满语的调查与研究概况

我国民族众多,历史上各民族频繁交往交流,深入融合发展,是中华民族共同体的参与者和创造者。语言是人类特有的社会交际工具,每一种语言都存储着族群的源流历史、民族特征等,通过语言的使用,独具特色的文化代代相传,延续不绝[1]。满语既是满族历史上使用的语言,也是清代东北各民族的共同语,具有丰富的历史、文化内涵,在清代的政治、社会、文化以及各民族交往交流交融中发挥了重要的作用。东北地区大量的历史传说、民间故事、萨满祭祀、颂辞赞歌都是由满语承载的,人们口口相传,生生不息。特别是《尼山萨满》《萨大人传》等部级非物质文化遗产———满族说部等民间说唱文学,一直以氏族传承、血缘传承、萨满传承的方式口口相传,代代传诵,是中华民族优秀文化的重要组成部分[2]。此外,满语还在满文档案翻译、清代各民族交往交流等研究方面具有重要的作用,大量的满族历史文化和满文档案清晰展现了东北各民族与汉、蒙古等民族间交往交流,融合发展,共创中华民族共同体的光辉历程,通过满语与满文档案的相互印证,再现当时的语言和社会特点,为相关研究提供丰富的史料和佐证,保障清史、满族史以及东北边疆史等研究更加准确客观详尽。在新的历史条件下,探索运用人工智能抢救和保护濒危满语,对于深入挖掘满族历史文化,探索满通古斯诸族参与中华民族多元一体构成和发展规律,服务民族交往交流实践,深化民族团结,筑牢中华民族共同体意识等研究,具有重要的意义。满语与历史上的女真语一样,都是随着王朝的兴衰而变化的。清王朝兴起后,满语曾一度兴盛大江南北,享有极高的政治地位。辛亥革命后,满语退出了历史的舞台。当前,满文早已废弃,仅有少数专家学者能够使用,满语也处于濒临消亡的边缘。2009年,联合国教科文组织将满语列入了“极度濒临灭绝”语言的行列,2013年据有关媒体报道,真正懂满语的已不足百人,精通者不足10人[3]。时至今日,情况将更加严峻,仅有黑龙江的极少数高龄满族老人尚能使用,如不加快抢救和加大保护力度,原生态的满语将在这些老人百年之后彻底消亡。国内关于满语的调查与研究肇始于20世纪50年代,面对满语濒临消亡的危机,学术界加紧了抢救性调查和资料收集的步伐,形成了一大批研究成果,推动了满语保护与研究的深入进行。其中,金启琮对黑龙江省富裕县三家子的历史、文化以及满语进行了较为系统的调查和描写[4];王庆丰对黑河大五家子的满语进行了系统调查,对语音、词汇等情况进行了研究[5];赵杰还对泰来县依布气满族村的满语进行了系统的调查和研究,对相关问题进行了分析[6];这些代表性的成果,对于摸清满语分布状况、了解满语语言结构特点起到了重要的作用。针对满语日益濒危的现状,搜集满语录音录像语料、建立语料库成为研究的热点,2018年,赵阿平主持的国家社会科学基金重大项目“中国满通古斯语言语料数据库建设及研究”获得立项,拟通过搜集濒危满语、赫哲语等口语语料,建立相应的语料库,推动濒危满通古斯语的保护进程。[7]。此外,关于满语语音的实验研究也成为当前研究的新动向,其中,尹铁超、张力对满语元音a的音值进行了研究[8],李兵、胡伟对大五家子满语词重音分布情况进行了声学分析[9],王娣首次对黑河地区满语元音进行系统实验研究[10],这些成果为抢救濒危满语提供了理论探索和数据支持。当前,满语的智能化研究尚处于起步阶段,一些学者和科研机构对满语的数字化保护、语言复制等方面展开了探索。其中,祖漪清等人以科大讯飞多语种文语转换系统MTTS为平台,提出了用语言复制的方法记录锡伯语的思路,具有较强的针对性和可操作性[11];黄志强、李德新结合数字化保护有关理论、做法,对三家子满语资源整合利用、保护传承等问题进行了探讨[12];祖漪清、赵广立提出了利用人工智能技术研究濒危语言、方言的语音结构、语言结构,实现对一种语言的完整“复制”[13];2019年,科大讯飞研究人员还远赴黑龙江畔的四季屯,探访满语母语者何世环老人,采集满语语音数据,通过AI技术合成了清晰自然的满语语音[14],为运用人工智能抢救濒危满语的实践进行了积极的尝试。在国外,由于满语不是研究的热点,相关的成果不是很多,但在其他濒危语言保护方面取得了突出成绩。其中,美国谷歌公司的濒危语言项目(ELP),利用现代技术通过记录、保存和教育,为关注语言濒危的组织和个人服务[15]。澳大利亚研发了智能学习机器人,帮助土著儿童学习他们的语言,既能记录孩子们的语言技能,又可以协助老师追踪学习进度;新西兰开发了毛利语学习程序,不仅能回复信息,还能过滤语法错误[16]。这些研究为依靠科技力量抢救濒危满语开拓了思路,拓宽了视野,展示出了新的研究动态和方向。

二、运用人工智能抢救濒危满语

目前,依赖大规模语料库的语音识别和合成是比较成熟的技术,但对低资源语言而言,由于语料不够充足,语音识别性能会明显下降,语音合成效果也将受到影响。满语是一种濒危的语言,面临着语言资源不足、语料获取困难、发音规则缺乏等困难,是当前研究的难点,本文依托满语田野调查语料,参考相关研究成果,对满语的语音识别与合成进行了探索。在研究中,首先,对满语的形态结构和音节进行了分析,建立标注规则;然后,依托田野调查语料建立语料库,对满语的语音识别、满语转国际音标进行了研究,设计田野调查模型;最后;运用隐马尔可夫模型合成了满语短语语音,期望能够为濒危满语的抢救与保护提供一些参考。一是形态结构分析。满语是粘着型语言,有6个元音、25个辅音和10个专门拼写汉语借词的字母,自左向右行款直写,单词中所处位置不同,字母的书写形式也不同[17]。本文运用穆麟德夫转写方案,对满文文本进行矫正、统计和研究。满语具有丰富的形态变化,词干的各类接缀形态表示围绕词干的不同语法意义。根据满语形态变化,对满语的体词类(名词、形容词、数量词、代词),动词类(普通动词、助动词)等附加成分进行构型分析,找到词干和词缀的汉语意义。满语以音节为发音单位,词汇由一个或几个音节构成(V代表元音,C代表辅音),书面语主要有元音(V)、元音+辅音(VC)、辅音+元音(CV)、辅音+元音+辅音(CVC)、辅音+元音+元音(CVV)等音节类型[18]。口语的音节与此类似。通过形态结构和音节分析,掌握满语语音特点,并结合满语的元音和谐规律,将相同特性的词缀统一起来,便于运用国际音标标注。在人名、地名的音译上,运用《清汉对音字式》《满语姓氏词典》《满文地名词典》《六部成语词典》等工具书,创建满汉人名、地名、官职名称等词典以及标注规则。二是建立语料库。语料既是开展满语智能化研究的基础,也是语音识别和语音合成的主要材料。我们根据满语特点,设计了满语文本语料,选择黑龙江富裕县三家子屯满语母语者为发音合作人,得到原生态的满语录音语料。同时,还从黑龙江孙吴县四季屯何世环、富裕县三家子陶青兰和孟宪孝等田野调查语料中,选择了词汇、短语、句子等发音词汇,涵盖了日常交往、生产生活、时令节气、故事传说等内容,作为研究的语音语料,对这些语料用音频处理软件进行切分,同时检查所获语料的质量,做好语料清洗工作,不合格的及时删除和替换。语料保存的采样率为16kHz,采样精度为16位,命名方式为发音人+语料顺序,保存为单声道格式,以此为基础数据,建立满语语料库。在语料的标注方面,其一,完成书面语语料的拉丁转写,运用praat软件进行国际音标和汉语标注,对无书面语对应的方言词汇,运用汉语和国际音标进行单独标注;其二,将转写和国际音标标注后的语料译成所对应的发音音素,通过音素、音节和韵律等层次的标注,确定词汇、短语、句子之间关系和边界;其三,对标注后的语料进行人工校对,做好检查和纠正;其四,将标注后语料分为预备语料、训练语料及测试语料等三个部分,根据用途和语音编号分组,保存到语料库相应的目录下。三是语音识别。语音识别可以实现语音到文本的转换,其中,识别算法是核心和基础,目前主要的算法模型有模板匹配、隐马尔可夫和神经网络等,隐马尔可夫模型(HMM)由于功能强大,稳定性好得到了广泛的应用。运用隐马尔可夫模型时要首先提取参数,对模型进行训练和数据转换,而后将提取的参数训练为算法模型,以此对实验数据进行识别。语音识别主要包括语音的训练和识别两个阶段,本文根据满语特点,运用隐马尔可夫模型(HMM),通过编写脚本程序实现训练数据的孤立词识别,主要由五个步骤组成:第一步是语料处理,对满语语料库单音节语料进行特征分析、预处理,对训练语料进行同音分类,检测语音端点并打好时间标注,得到识别材料;第二步是提取语音特征,为了提升识别效果,可分别选取不同的特征参数、HMM状态数、MFCC系数等进行实验,对参数进行人工调节,获得最佳的参数组合,对训练数据提取MFCC特征参数;第三步是模型训练,运用MFCC参数建模,修改完善HTK软件包,用于提取语音特征,训练声学模型,建立识别样本模型库;第四步是模式匹配,对待识别语音进行预处理并提取特征参数,用训练好的模型匹配未作标记的待识别语音,得到识别结果;第五步是人工校验,对识别结果进行人工校验,提高识别的准确性。四是国际音标转录。满文实质上是一种拼音文字,语音和文字互相对应,有着一定的规律可循,可以依据相关规则实现从文本到国际音标的转换。目前,学界已有藏语[19]和维吾尔语[20]的研究成果,但满语的相关研究尚未发现。经过设计和处理,可以将满语和国际音标对应起来,每个满语字母对应相应的国际音标字符,本文以此设计了简单的满语—国际音标转录模型,实现满语到国际音标的转录功能,有三个模块组成:其一,音节处理模块。主要解决词内音节与相邻音节的关系,运用模块对满语词汇的音节拆分,分为五种常用音节类型,再将各音节拆分为元音和辅音,不常用的音节比照五种常用音节进行。其二,音标转换模块。通过满语转国际音标算法,将满语和国际音标的字符进行匹配,循环读取字符直至结束,通过转换算法,将满语词汇转换为国际音标,实现满语文本到国际音标的词汇级转换。其三,校对修正模块。设计自动校对模块,实现转换结果自动校对,同时运用人工进行再次校对和完善,删除错误的内容,增加国际音标附加符号等。本文运用语料库的实验数据,通过满语词汇进行转录实验,准确率达到了70%以上,提高了工作效率。五是田野调查模型。田野调查的基本工作是听音记音,听辨识别调查语料,用国际音标做好记录,使声音文件成为书面符号,以供学术研究使用。由于田野调查语料较多,记音任务繁重,容易产生人为谬误,影响调查和研究效果。当前,语音识别在汉语普通话等方面得到了广泛的应用,田野调查辅助系统相关研究也有了一定的进展,例如,刘航宇对基于HTK的计算机辅助田野调查系统进行了研究,在语音数据量充足的情况下,识别率可以达到80%左右[21]。充分借鉴相关研究成果,探索依托HTK技术开发满语计算机辅助田野调查系统,是具有一定研究可行性的。本文在满语语音识别和国际音标转录等研究基础上,设计了满语计算机辅助田野调查模型,以此实现田野调查语料词汇转换。模型由两个模块组成:其一,语音识别模块。将单音节看作孤立词,搭建识别模型,进行标注和识别。运用工具提取整理后实验语料的参数特征,进行模型训练,识别实验语料。其二,自动标注模块。改进相关算法,运用标注数据训练识别模型,完成待处理语料的标注,实现由语音到文本的转换。标注完成后,再进行人工校对和翻译,并附汉语译文和满文转写对照。实验表明,模型能够有效缩短记音和转写时间,提高了工作效率,但人工校对和汉语译文所用时间较多,需要在下一步的研究中进行改进和完善。六是语音合成。语音合成能够将文本转换为语音,主要有基于波形拼接、统计参数、深度神经网络等形式,其中基于拼接的语音合成,由于效果不够稳定、语音库构建周期长等原因,应用不够广泛。人们在研究中发现,基于隐马尔可夫模型(HMM)的语音合成技术性能成熟稳定,在各个领域得到了广泛的运用。赵建东等人结合蒙古语特性,设计了上下文属性集以及相应的用于模型聚类的属性问题集,实现了基于HMM的蒙古语语音合成[22]。当前,语音合成的研究和应用主要集中在汉语、英语等语言上,成果较多,技术成熟,应用广泛,而一些非通用语言的研究成果则相对较少,其中,赵立铉、杨鉴提出了基于BERT预训练语言模型的印尼语语音合成系统,也可用于其他低资源语言[23]。本文参考相关研究成果,以语料库原生态满语语料为训练数据,完成了文本标注,运用基于HMM的语音合成技术,合成了简单的满语语音。实现步骤为:其一,数据的预处理,分析处理语音数据,提取相关参数,采用HMM建模;其二,训练模型,对隐马尔可夫模型进行初始化,完成元音和辅音、上下文模型训练等工作,得到训练模型和决策树;其三,分析和转换文本,对相关的文本数据进行分析,完成文本的序列转换等工作;其四,语音的合成,通过训练模型处理实验数据,运用合成器合成满语语音,主要是短语语音。合成的语音与真实的满语发音相比,自然度和表现力不足,韵律节奏不够自然,音质不够高,但尚能辨别语义,说明该研究具有一定的可行性,可以此为基础开展后续研究。

三、启示和建议

通过本文的研究,我们深深地感到,濒危满语的抢救和保护是一项系统工程,不仅需要相关的专家学者、科研院所的积极参与,更需要加强人才培养,拓宽研究视野,改进研究方法,大力借助现代信息科技发展成果,为濒危满语焕发出新生命提供智力支持。一是培养专业人才。濒危语言的抢救和保护,是语言学、民族学、计算机科学等学科的综合,对研究者的知识结构、研究方法和手段提出了新的更高的要求。在具体研究中,相关数据的收集与处理、语料的翻译与标注、软件的设计与研发等都是专业性很强的工作,既需要懂满语的少数民族语言专业人才的参与,又需要熟悉计算机科学技术,特别是精通计算软件的人才通力合作,但现实情况是,有的满语文研究者不懂计算机技术,而计算机专业的人才不懂满语文,很多时间和工作都用在了沟通和交流之中,既懂满语言文化又懂计算机技术的人才非常缺乏,在一定程度上影响了研究的深入开展。为此,要加大相关的人才培养力度,大力培养既懂满语文又懂计算机技术的复合型人才,重视现代数字和科学技术与满语文基础工作的结合,面向未来培养学以致用的综合型人才[24]。可依托有关高校和科研机构,加强计算机科学、信息科学、语言学、满族语言历史文化等专业教育,培养出一批有技术、能操作、懂满语的复合型研究人才,深化人工智能的研究和应用,结合实际研发相关软件,提高濒危满语调查研究和抢救性保护的质量和效率。二是规范研究标准。当前,关于满语的调查记录和存档标准不一,规范不够明确详细,可操作性不够强,一些语言调查和研究的成果不能及时交流和共享。应针对满语研究的现状,抓紧制定相关工作规范,统一技术标准,对调查记录内容及方法,语料处理及语档、数据库建设,记录研究的成果形式等进行技术规范。可以参考借鉴李锦芳关于中国濒危语言认定及保护研究的工作规范[25],按照国家语保工程规范和语料库建设与加工要求,制定满语语料库建设标准,明确工作目标、原则方法、技术标准、存储格式等内容,按照规范做好濒危满语的调查和研究等工作。加强语料处理的数字化力度,制定语料采集、整理、分类以及转写、翻译、标注等技术标准和工作流程,为采集和处理语料提供参考和指导。制定语料库建设规范,按照标准格式进行录音录像,收集元数据,建立满语语音语料数据库,经技术处理后的语料要及时入库,分门别类建档存储,以便永久保存。三是加快抢救速度。运用计算机和人工智能技术做好语言调查和研究工作,加强调查和抢救力度,按照国家语保标准绘制满语电子地图,提供人口数量、语言分布、使用现状、濒危程度等信息,依托语音识别技术研发和完善田野调查软件,通过人工转录模型转录原生态满语语料,实现国际音标的自动记音、转写和标注,减少人工工作量,提高调查效率。加快声学实验和智能化研究步伐,运用相关软件提取声学参数,审辨确定音值,分析研究声学规律,形成满语语音声学数据库,为开展智能化研究提供理论和数据支持。参考借鉴国内外其他濒危语言研究成果,依托满语语音语料数据库,开发满语在线教学以及学习平台,增强学习的互动性和趣味性,提高学习效率。加强语言学与人工智能的协作,对满语语料进行精细标注,深入全面地研究语句的焦点、韵律和语篇等的语言学问题[26]。运用语音合成技术,以原生态满语语音为训练数据,基于隐马尔可夫模型合成满语语音,调整发音速度、韵律等信息,使合成语音更加真实自然,更具“人性化”,并及时充实到满语口语语料库之中,为濒危满语的科研教学、满族口传文化的研究开发等提供语料资源。四是建立语言博物馆。濒危语言消亡后很难再进行调查补充,相关的原始语料非常珍贵,不可复得。当前,一些早期的满语调查语料保存在研究者个人手中,仅供学术研究使用,开发利用的深度不够,没有成为社会共享资源,造成资源浪费。因此,可以参照夏威夷大学语言建档与保存计划等国内外濒危语言建档保护实践[27]。建立濒危满语网上博物馆,对田野调查语料和学术成果进行整合,在完成语音存档、记录和保留满语的“鲜活形态”的基础上,还要做好语料的再加工工作,研发转录软件,进行国际音标记音、转写,形成濒危满语的数字材料,并对所蕴含的历史文化信息进行深入研究,客观地再现满语的真实面貌。同时,满语的学习者可以根据规定的格式和要求,通过网络平台上传录音录像资料,充实语料馆藏;相关专家学者可依托网上博物馆开展满语田野调查,获取语料,同时对上传的语料进行转写、翻译和标注,形成能共享可用的语料数据,实现满语与满族口传文化的永久留存和典藏。我认为上述举措都应抓紧实施,刻不容缓。

作者:王娣 单位:黑龙江省社会科学院 历史研究所

优秀范文
相关期刊
相关文章