AI技术,让我们“听”懂聋人
这个寒假,有一批失聪的大学生成了冬奥会的远程志愿者,他们来自天津理工大学聋人工学院。这些志愿者把电视新闻栏目的内容转换成手语顺序的文本,为冬奥会转播中需要的AI(人工智能)手语数字人提供大规模的语料支持。
袁甜甜,天津理工大学聋人工学院副院长,是这些听障大学生的老师,也是无障碍智能 科技 研发中心的成员。她介绍:“无障碍智能 科技 研发中心将为冬奥会的实况转播提供AI手语数字人的手语语料支持,我和学生们已经为此忙了两个多月。能够为冬奥会服务,我们充满了荣誉感。”
教AI认知手语
2021年,创办中国聋人高等工科特殊教育30年纪念大会上,一个“手语角”吸引了不少人驻足。只要在摄像头前打出手语,身后的显示屏上就会出现语意连贯的文字翻译。袁甜甜展示着这个被称为“复杂场景下中国手语实时翻译系统”的《“鲸可语”——多模态连续手语自动标注识别系统》项目(下称“鲸可语”)。据介绍,在光线充足且稳定的室内,系统对手语的识别率最高能达到95%,部分场景下可以实现“同步翻译”。研发这套系统的目的,是让每个健听人都能轻松地看懂手语。其自动标注识别系统“鲸可语”还获得了去年第七届中国国际“互联网+”大学生创新创业大赛主赛道的金奖。
王建源是研发团队的成员之一。他是聋人家庭长大的聋儿,听力损失严重,吐字发声非常困难,手语是他和这个世界打交道最初也最有效的方式。22年来,聋人的身份没有让他感到自卑;口不能言,也没耽误他成为一个妥妥的“学霸”;但如果你问他,因为听力障碍,从小到大遇到过哪些方面的不便,他会平静地在手机上打出四个字:方方面面——因为认识手语的人太少了。
一个最典型的例子是看病,如果没有手语翻译陪着,即便只是头疼脑热,像王建源这样的“手语族”也很难独自就医——绝大多数医生不会手语。
从1991年9月11日首批6名聋生入学到今天,天津理工大学聋人学院的老师们积累了很多与聋人沟通的经验。
袁甜甜学的是计算机专业,2006年研究生一毕业,她就在聋人工学院计算机科学与技术系工作。上班第一天,她面对的挑战就是学手语。通过看文字、读唇语,学生们能够了解老师,可是老师不能很快地了解学生。磕磕绊绊地学会了手语,袁甜甜记不清有多少次,凌晨一两点钟陪学生去看病,帮忙做手语翻译。
我国有2780万聋人,如何依靠 科技 的力量让 健康 人走进他们的世界?袁甜甜、王建源等人开始了“鲸可语”手语实时翻译系统的研发。
“鲸可语”手语实时翻译类似于手语版的“语音输入法”。只不过后者是输入语音、机器识别、转成文字,而前者是输入手语动作和表情、机器识别。
要把人工智能训练成一个合格的手语翻译,得把手势、表情、大肢体动作,通通从视频转化为数据,再“教”给计算机。所以,能充分理解、展示手语之美的听障生,是最适合给人工智能当“老师”的人。
很多国外团队建立的手语数据集无法支持复杂场景下的手语翻译,一个直接的原因,就是无法找到足够多的人在自然状态下采集手语。“而我们的团队背靠聋人工学院,很多成员本身就是手语使用者,在自然手语的采集上有优势。”袁甜甜说。
让健听人“读懂”听障人更重要
冬奥会中,袁甜甜团队服务的AI手语数字人,能够帮助聋人更好地理解健听人的表达,“鲸可语”手语识别和翻译则是借助 科技 的力量帮助健听人更好地理解聋人的表达。这两者之间有怎样的区别?
做AI手语数字人,是让聋人用熟悉的方式去理解健听人的表达方式,核心研发点是手语生成,而“鲸可语”手语识别和翻译的核心研发点是手语识别,“鲸可语”这项技术更难。“鲸可语”需要计算机视觉和自然语言识别处理两种技术:聋人的手语包括表情、手部动作,肢体动作,都需要计算机做融合识别,这是计算机识别技术;把计算机识别出来的信息用计算机程序再变成健听人所熟悉的语言模式,这是自然语言识别处理技术。AI手语数字人,某种程度上只涉及自然语言识别处理技术过程。从技术转化上看,AI手语数字人的产业落地时间会更短,数据上的投入相对较少,更容易将成果市场化。
“为什么一定要搞手语翻译呢?聋人听不到,现在有语音识别啊!有的聋人不会说话,拿手机打字不就行了吗?”曾经有一些企业向袁甜甜了解过正在开发中的手语实时翻译系统,想谈投资。但谈来谈去,他们却对项目的必要性产生了疑问,觉得手语翻译除了“做善事”没有其他意义。为什么还要倾心于“鲸可语”的研发和转化呢?
“在与学生交流的过程中,我知道对残障人士最好的关心就是平等。他们不是残障,只是与我们不一样。”袁甜甜说。
沟通永远是双向的。我们教听障人写字、认字,读唇语,他们在努力融入健听人的世界;我们健听人也要为听懂接纳听障人作出一点努力。
袁甜甜说,直到今天,手语仍然是许多听障人士最自然、高效的表达方式,“比写字、打字都快”。但为了促进无障碍交流,要求健听人都去学手语,显然不现实。“鲸可语”手语实时翻译系统就是利用高 科技 让健听人努力向听障人靠拢。