探秘云南省人工智能重点实验室:自主研发App实现108个语种互译
发布时间: 2024-05-28作者: 安博体育网页版登录
10月16日,中国第二十次全国代表大会在北京人民大会堂开幕。云南省南亚东南亚区域国际传播中心联合昆明理工大学云南省人工智能重点实验室(以下简称“实验室”)、小语智能信息科技(云南)有限公司,通过人工智能翻译,以小语AI主播形式,就缅甸读者关注的问题进行解答。
该实验室的前身是2005年成立的昆明理工大学智能信息处理重点实验室,2014年、2015年先后被遴选为云南省高校模式识别与智能计算重点实验室和云南省海量语言信息处理工程实验室。2019年,经由云南省科技厅批准,依托昆明理工大学建设云南省人工智能重点实验室,成为云南省首家以AI为研究方向的重点实验室,2021年省重点实验室考核评估等级为“优”。
在国际人才交流会召开前夕,记者来到昆明理工大学,探秘这个藏在高校里的神奇团队。
会议室里,嘉宾正在发言,身后的大屏幕上,中越老缅柬越六种语言同步显示着发言内容……
在实验室展示厅里,这套南亚东南亚多语言会议系统的快速反应令人惊喜。“这套系统在翻译缅甸语、老挝语等小语种方面非常准确流畅,比谷歌等搜索平台翻译的准确率高很多。”实验室常务副主任、昆明理工大学副教授、博士高盛祥满脸自豪。
工作人员点开缅甸语网站上一则关于自然灾害的报道,通过实验室研发的云岭翻译系统快速地翻译成中文,准确、流畅,一目了然。同一则消息经过其他在线翻译平台翻译,却出现了断句不当、词不达意,翻译出来的语句与新闻本身毫不相干,完全失真的情况。
高盛祥回忆,多年前,团队在建设南亚、东南亚语言语料库时,电脑键盘上没有匹配的语种字符,工作起来异常困难。为了加快速度,团队在全国寻找南亚、东南亚语言的文字识别软件,结果发现就没有。于是,高盛祥带领的团队决定自己研发。经过多年的积累和改进,实验室的南亚、东南亚语言OCR文字识别系统越来越成熟,在许多行业里得到了很好的运用。
高盛祥介绍,在研发过程中,实验室也曾面临很多难题,比如机器翻译等人工智能技术需要大规模标注语料,而懂南亚、东南亚语言的人少,语料构建的难度非常大,成本高。南亚、东南亚语言的形态很复杂,相关语言信息处理的科研机构少,词法句法解析等关键技术都不成熟,研发难度大。
针对这些困难,实验室申请了国家及省的多个项目,获得了数十项国家及省部级科研项目的支持,同时,培养和引进博士10余人,形成了稳定的南亚、东南亚语言信息处理技术团队,并组建了一支50余人的由小语种教师及留学生组成的语言专家团队,为语料采集、标注、语言评测、事件分析等提供语言服务支撑,还与清华大学、中科院自动化所、老挝国立大学、鹏城国家实验室、OPPO、小牛等高校、科研院所和企业建立了长期合作伙伴关系,联合开展研发和转化工作,突破技术难题,取得了很好的经济效益。
随着云南区位优势的凸显以及“一带一路”倡议的实施,实验室迎来了高光时刻,“面向南亚、东南亚的交流合作,都亟需打破语言壁垒,实现不同国家之间的语言互通。但越、老、缅、柬、泰、乌尔都语等南亚、东南亚语言都属于资源稀缺语言,机器翻译、跨语言信息检索、OCR文字识别、语音识别及合成等人工智能的关键技术都还不成熟,相关的软硬件产品很少,对产业的支撑作用还不明显。”高盛祥介绍,在这样的情况下,实验室开展语言语音信息处理研究,突破一系列关键技术,面向跨境旅游、跨境贸易、跨境商务交流、文化产品译制、国际传播分析、跨境大数据分析等应用场景研发智能翻译机、多语言会议同传系统等一系列软硬件产品。
目前,该团队研发的“云岭翻译”“小语洞听”“小语洞见”及“小语聊聊”等系列小语种智能产品已投入运用。其中,越、老、缅、柬、泰5种语言语料库规模在实验室都达到了千万级以上。这5国的语言翻译,已经完全达到实用化程度。据介绍,实验室在机器翻译、跨语言检索、语音识别、语音合成、图像OCR识别等方面开展深入研究,取得了多项研究成果,部分研究成果填补了领域空白,达到国际领先水平。基于系统的成熟,实验室已开发了扫描仪、扫描笔等多个产品。
据介绍,实验室研发的汉语—南亚、东南亚语言神经机器翻译平台及系统,填补了多项南亚、东南亚语言信息处理空白,在公安、网信、旅游、跨境合作、贸易谈判等领域得到较好应用。尤其是在2021年的瑞丽疫情防控中,为当地医生对缅甸籍确定诊出的病例的治疗,提供了强有力的支持。
自新冠疫情发生以来,瑞丽市长期处于疫情防控第一线,当地的干部群众和防疫工作人员承受了前所未有的压力。长期生活在当地的外籍边民,有的只会简单的中文,而当地懂缅语的工作人员却屈指可数。沟通不畅,严重影响了防疫工作进展,特别是医护人员,因为语言不通,在给外籍确定诊出的病例的治疗过程中,难度加大。
2021年4月4日,在瑞丽防控一线台由实验室自主研发的云岭翻译机。6天后,安卓版“云岭翻译瑞丽抗疫专用”App(以下简称“翻译App”)正式上线了。原来,智能翻译机数量有限,不能够满足抗疫人员的翻译需求。得知这一情况,实验室立即展开了翻译App的研发工作。连续几天的研发调试后,完成了安卓版翻译App的研发。这个专用的翻译App,为瑞丽抗疫提供了有力的支持和保证。
据了解,该翻译App支持汉语与缅甸语、越南语、泰语、老挝语等语种的双向翻译,第二代版本达到了108个语种的双向翻译。截至今年8月底,该款App累计翻译次数超过3000万次。
除了语言翻译,实验室还成功开发了云南省招生考试信息化管理与服务平台。该平台于2006年逐步投入应用,完成全省高考、中考、自考、成考等各类考生的报名、考务、报志愿、录取、报到等管理与服务功能,每年为100多万名考生、2.5万名管理用户、5000余所各类学校提供服务,能同时支撑39万名用户使用。该成果获得了云南省科技进步一等奖。
高盛祥介绍,试验室还制作了纳西东巴文字库,建立纳西象形文字符集,研发了纳西英文、纳西拼音、纳西中文3种纳西象形文字的输入法,这将对少数民族文化的保护与传承起到及其重要的作用。此外,图像识别也是实验室研究的方向之一。云南山体多而险峻,地形较为复杂,检查输电线路要消耗大量的人力、物力和财力。结合输电路巡维智能化需求,实验室研发的输电线路缺陷智能识别系统,支持输电线路图像质量判断、低质量图像高清化、图像内容校验,以及绝缘子自爆、污染等20余种缺陷的智能标注和识别,与传统人工巡检相比,智能识别系统只需根据图片就能作出正确判断,不仅确保了工人的安全,也提升了巡检水平。
“愿意学、能吃苦、有钻研精神,即便不是计算机专业的新生,我们也欢迎。”高盛祥介绍,目前团队里的非计算机专业学生有好几个。2019年,一名来自云南曲靖的小伙正式加入云南省人工智能重点实验室,他叫王琳钦,本科就读于兰州大学化学专业,跨专业考研进入昆明理工大学。经过实验室两年硕士阶段的培养,因表现优秀被实验室录取,进行硕博连读。目前,王琳钦博士二年级,参与语音合成、虚拟主播等研究工作。
为什么选择这个实验室?王琳钦说:“一是实验室在南亚—东南亚语言的自然语言处理与机器翻译、跨语言信息检索及舆情分析、语音图像等方面的研究属于顶尖水平。二是团队的务实精神。团队老师都是脚踏实地一步一步做起来的,所以团队的基础和底蕴都非常好,氛围也非常好。特别是加入团队后,每周一晚上的学术交流例会和周末课题进展讨论例会,让我受益匪浅。”
王琳钦回忆,研一的时候,他参与研发云南省招生考试信息化管理与服务平台,凌晨2点还在实验室里与老师及其他同学一起讨论研发思路,讨论系统的开发和调试。“那一段时间,我的成长与收获非常大,真正体会到了应该以什么样的态度和精神去认真做一件事情。”
王琳钦的经历也正是实验室“模块式教学”的实践。“培养和科研创新同等重要。”高盛祥介绍,实验室率先创新了“模块式教学”,探索多专业融合的信息学科人才教育培训模式,重组和优化专业培养方案,将不同专业的学生,依据能力需求来做模块化课程教学,提升了学生的创新能力。该成果还获得了云南省教学成果一等奖。
实验室还呈现出有层次的“梯形结构”,老师的学历都是硕士及以上,而从实验室毕业的学生,进入了阿里巴巴、百度、腾讯、搜狐、360等互联网知名企业。
据悉,实验室团队目前共有260余人,其中教授、副教授30余人,博士、硕士研究生200余人,拥有国家及省部级人才20余人,承担了国家及省部级项目100余项,在国内外高水平会议及期刊发表论文400余篇,其中SCIEI检索300余篇,授权发明专利80余项,登记软件著作权200余项,荣获省部级奖励10余项。