摄像头前,张益彬左右手交替挥舞,嘴角伴随手语动作微微上扬,一旁的显示屏上,“阳光总在风雨后”7个字立刻显示出来……
(资料图片)
张益彬是天津理工大学聋人工学院网络工程专业2019级学生,也是该校鲸言创益无障碍智能科技研发团队的成员。在这个近60人的团队中,超过一半成员是和张益彬一样的听障学生,他们用近5年时间构建起一个包含30余万条视频的语料库。如今,团队打造的“复杂场景下中国手语实时翻译系统”即将落地应用。
大胆尝试,将手语实时翻译为语音或文字
2006年,袁甜甜成为天津理工大学聋人工学院计算机系的一名教师,对她来说,教学最大的困难是交流障碍。
当时,语音识别软件尚未问世,学生又都是听障人士,袁甜甜只能硬着头皮自学手语,“一堂课下来,手舞足蹈,经常满头大汗,一望台下,学生们还是一脸茫然。”袁甜甜说,向学生传递信息很难,难上加难的是了解学生的想法。
第二次全国残疾人抽样调查数据显示,我国约有听障人士2780万人。“时至今日,手语仍是听障人士的‘母语’。”袁甜甜说,尽管近年来语音识别软件普及,但表达的逻辑出发点始终绕不开健听人,“对于听障人士来说,听懂是一方面,但他们最渴望的,还是被‘听见’。”
2016年底,手语识别系统的雏形开始在袁甜甜脑海中清晰起来。“听障人士在摄像头前打出手语,视频画面经过计算机的分析处理,转换为文字或者语音。”袁甜甜阐释设想,创新的逻辑出发点从健听人变成了听障人,也意味着没有成熟的方案可以借鉴。“这是一次关乎‘表达’的探险。”袁甜甜说。
构建算法,给计算机编一套手语教材
如果说“手语识别”和“语音识别”还有一些相似之处,那就是二者都必须依托于丰富的语料库。如今,语音识别语料库已十分成熟丰富,“语音的语料在自然状态下非常便于获取,但手语语料却非常少。”袁甜甜说。
“另外,语音是一种‘单信道’的形式,而手语是‘多信道’,计算机要识别的不只有动作,还有表情和场景。”袁甜甜介绍,从对数据采集的支撑程度看,我国目前手语语言学的体系性并不强,“手语方言”比比皆是,这就给数据采集造成了极大困难。
“要将设想变为现实,就要先确立标准。”袁甜甜说,她和团队成员确定了先易后难的思路,基于国家通用手语的标准采集数据,“简单来讲,我们翻译的是手语里的‘普通话’。”
王建源是聋人工学院网络工程专业2018级学生,也是鲸言创益团队的初创成员。他的工作是收集手语语料,这些语料便是视频画面。“招募志愿者,请他们来录视频,反反复复地录。”王建源“说”。
王建源从小在特殊学校求学,父母也都是听障人士,他从不避讳在健听人面前打出手语,因为他觉得手语很美。“但是,手语的美是复杂的,这个工程量太大了!”王建源笑着“说”。
两年时间里,王建源和团队其他成员几乎每天都准时出现在学院的实验室,有时忙到很晚,干脆席地而睡。如今,他们已经收集到30余万条语料,“经过测算对比,距离中国汉语水平考试的4级水平仅差100多个词了。”王建源介绍。
手语是一门视觉语言,有特定的语法、语序。手势、表情、肢体动作自由排列组合,表达的便是不同的意思。在袁甜甜的设想中,这套系统呈现的内容,不应该是由汉语单词罗列而成的句子,而是在输入端和输出端既要遵循手语语序、语境,也要符合汉语的表述逻辑。
天津理工大学计算机学院研一学生孙悦把自己在团队中的工作形容为“修桥”。“就拿‘阳光总在风雨后’这句话来说,手语的语序是‘风/雨/结束/阳光’,这显然让人看不懂。”孙悦说,她和伙伴们逐渐构建起一套手语识别算法框架模型,“通俗来说,就是我们给计算机编了一套‘手语教材’。”有了这套“教材”,丰富的语料库就有了用武之地,相当于找到了手语转换为汉语的规律,“桥”修通了,数据才能跑得顺畅。如今,这个模型已经基本能够实现“复杂场景下的手语实时翻译”。
搭建桥梁,手语翻译应用于更多场景
2019年,袁甜甜领衔的“复杂场景下中国手语实时翻译系统”入选工信部新一代人工智能产业创新重点任务揭榜项目,并获得国家资金支持,这也加快了整个团队前进的步伐。
去年5月,他们把研究成果带进了在天津举行的第五届世界智能大会的会场,获得点赞。“当时系统已经涵盖教育、法律、餐饮、交通等应用场景,在光线充足的环境下,识别率可达95%。”袁甜甜说,如今,这套系统还在升级,“我们的目标是100万条语料,基本覆盖社会生活的常用场景。”
最让张益彬难忘的是,去年10月,他和团队合力研发的项目《“鲸可语”——多模态连续手语自动标注识别系统》荣获第七届中国国际“互联网+”大学生创新创业大赛全国总决赛金奖,而自动标注识别是手语翻译的关键一环。这也证明了“张益彬们”的努力得到了国内科创界的高度关注。
闻讯而来的合作方越来越多,这让团队成员对于系统未来的应用场景有了无尽畅想。不久前,天津市急救中心也找到他们,希望引入这套系统。“经常碰到急救对象是听障人士,生命垂危之际,打字交流效率太低了,往往只能用手语表达。”袁甜甜说。
今年之内,这套系统将应用于天津理工大学的办公楼。到时,楼内大厅将出现一个交互机器人和一块交互大屏,所有听障人士都可以被“听见”。记者 李家鼎