人民網(wǎng)健康·生活

AI手語主播上崗 助聽障人士觀冰雪賽事

2022年02月08日08:57 來源:科技日報

2月4日,央視新聞AI手語主播上崗,她將在冬奧會新聞播報、賽事直播和現(xiàn)場采訪中,為聽障人士送上實時手語翻譯服務(wù)。

這位由“百度智能云曦靈”數(shù)字人平臺打造的首個AI手語主播,已在剛剛開啟的冰雪賽事中上線,她提供的手語服務(wù),讓聽障人士可以快捷獲取賽事資訊,感受賽事精彩。

從“段子手”朱廣權(quán)與AI手語主播在線pk的視頻可看到,AI手語主播的“手速”沒有被朱廣權(quán)的超快語速難住。她的專業(yè)能力是怎樣練成的?

手語數(shù)字人的本質(zhì)是解決翻譯問題,難點在于,手語并非按照語言逐字翻譯,而要根據(jù)語句整體意思進行語言精煉和語序調(diào)整。同時,為幫助聽障人士更好理解,還需實時配合表情和唇語。

這就要求AI手語數(shù)字人必須解決信息凝練度、低時延和精細化三方面極其復(fù)雜的技術(shù)難題。也就是說,AI手語主播不僅要有高精度的數(shù)字人形象,更要擁有能夠語音識別、手語翻譯和手語表達的AI大腦。

AI手語主播的AI大腦依托于百度智能云。為保證AI手語主播具備高可懂度的手語表達能力和精準連貫的呈現(xiàn)效果,通過百度自主研發(fā)的機器翻譯技術(shù),百度智能云構(gòu)建出一套精確的手語翻譯引擎,可懂度達85%以上,媲美主流的中英、中日等方向的機器翻譯結(jié)果;結(jié)合百度自研的語音識別技術(shù),可將冰雪賽事的文字及音視頻內(nèi)容,快速精準地轉(zhuǎn)化為手語;通過專為手語優(yōu)化的自然動作引擎,完成AI手語主播的動作驅(qū)動,實時演繹為數(shù)字人的動作、表情和唇語;百度智能云基于《國家通用手語詞典》規(guī)范建立的規(guī)模龐大的手語動作庫,保證了手語表達的動作準確性;而用百度首創(chuàng)的4D掃描數(shù)據(jù)進行訓(xùn)練,可讓AI手語主播的表情自然生動,口型生成準確度高達98.5%。如此復(fù)雜的數(shù)字人研發(fā),百度智能云只用了不到2個月。

目前,數(shù)字人尚未實現(xiàn)規(guī)模化產(chǎn)業(yè)落地,主要原因在于制作技術(shù)門檻高、周期長、成本高。百度集團副總裁吳甜曾說:“百度希望通過領(lǐng)先的全棧AI能力,把虛擬人的生產(chǎn)周期縮短到小時級別,降低生產(chǎn)成本,并且用AI驅(qū)動生成內(nèi)容!

2021年12月,百度發(fā)布了集數(shù)字人生產(chǎn)、內(nèi)容創(chuàng)作、業(yè)務(wù)配置服務(wù)為一體的智能數(shù)字人平臺“百度智能云曦靈”,基于人像驅(qū)動、智能對話、語音交互、智能推薦四大技術(shù)引擎,讓數(shù)字人“能聽、能說、能理解、可互動”,讓相關(guān)企業(yè)能以低成本快速定制2D卡通、真人形象及3D卡通、超寫實數(shù)字人像,實現(xiàn)對話服務(wù)、內(nèi)容創(chuàng)作全流程業(yè)務(wù)配置,極大降低了數(shù)字人開發(fā)難度。

比如,在百度智能云曦靈平臺上傳一張照片,就能快速生成一個可被AI驅(qū)動的2D數(shù)字人像。如今,2D數(shù)字人的生產(chǎn)流程已從一個星期縮短到半個小時,3D數(shù)字人的生成也已從兩三個月壓縮到一兩周的時間。

與此同時,數(shù)字人個性化功能開發(fā)也更加完善。比如,通過輕量化模型訓(xùn)練,用戶說20句話即可生成屬于自己音色的數(shù)字人。百度AI人機交互實驗室負責人李士巖說:“我們近一兩年的奮斗目標是通過百度智能云曦靈平臺的開放,讓每個人、每一家企業(yè)實現(xiàn)數(shù)字人自由。”

據(jù)了解,百度智能云曦靈已為諸多行業(yè)提供了一站式虛擬主持人、虛擬員工、虛擬偶像、品牌代言人的創(chuàng)建與運營服務(wù)。(劉 艷)

(責編:喬業(yè)瓊、李源)


相關(guān)新聞