您的位置：首頁 >智能 >

索尼數(shù)字人研究：畫質(zhì)超逼真，面部表情與身體動(dòng)作保持協(xié)調(diào)

2023-01-11 05:29:46 來源：騰訊網(wǎng)

近年來，3D動(dòng)捕、數(shù)字虛擬人等技術(shù)受到越來越多關(guān)注，它不僅可以應(yīng)用于電影場景，游戲、社交等領(lǐng)域也開始采用。相比于過去高成本、高門檻的全身動(dòng)捕技術(shù)，現(xiàn)在制作基于動(dòng)捕的虛擬人越來越容易，不需要過高的成本或是專業(yè)技術(shù)知識(shí)，一些簡易、自動(dòng)化的動(dòng)捕方案就足夠普通創(chuàng)作者使用。

近期，索尼也公布了一項(xiàng)基于機(jī)器學(xué)習(xí)的3D虛擬人和動(dòng)捕方案，該方案可逼真模擬人類面部表情和行為的3D建模技術(shù)，通過忠實(shí)重現(xiàn)人類特征，來推動(dòng)虛擬社交。

索尼指出，數(shù)字人是基于真人特征的3D模型，它在虛擬場景中可模擬人的自然外觀和行為。近年來，越來越多的企業(yè)開始接觸數(shù)字人技術(shù)，并將它用于廣告、客服、游戲等場景。當(dāng)然，并不是所有數(shù)字人都能完全還原人的特征，它們的還原程度取決于用途，比如在CG電影中，對(duì)于數(shù)字人的逼真度會(huì)要求更高。索尼認(rèn)為，隨著CG渲染技術(shù)不斷提升，虛擬化身的質(zhì)量越來越好，因此恐怖谷問題正在得到解決。

(資料圖)

索尼的目標(biāo)，是開發(fā)一種仿佛真實(shí)存在的數(shù)字人，這種數(shù)字人具有存在感，讓人感覺它仿佛就在身邊。換句話說，就是利用數(shù)字技術(shù)來復(fù)制真人。結(jié)合AI算法后，它可以和真人互動(dòng)，甚至和真人難以區(qū)分。其研發(fā)重點(diǎn)是突出數(shù)字人的個(gè)性表達(dá)，比如重現(xiàn)人臉皺紋和表情的特征變化，抓住人獨(dú)一無二的特點(diǎn)。從自然交互的角度來看，索尼也注重?cái)?shù)字人的眼神與用戶的互動(dòng)，數(shù)字人不會(huì)盯著用戶，而是模仿人眼和頭部自然動(dòng)作。

數(shù)字人核心技術(shù)

構(gòu)成數(shù)字人的核心技術(shù)包括：面部動(dòng)捕、面部肌肉模擬、面部肌肉動(dòng)作和身體協(xié)調(diào)性?；谌四樈壎ǖ拿娌縿?dòng)畫也需要這些步驟，模擬人臉表情變化是一個(gè)復(fù)雜的過程，要想忠實(shí)重現(xiàn)、綁定人臉面部動(dòng)作，需要高端的面部動(dòng)捕技術(shù)。而且，復(fù)雜的面部動(dòng)捕難以控制，在制作動(dòng)畫時(shí)將需要高超的技術(shù)。為了簡化基于動(dòng)捕的人臉表情模擬過程，索尼研發(fā)了一種更加智能的工作流程，特點(diǎn)是無需傳統(tǒng)的面部綁定方案，并降低了制作動(dòng)畫的工作量。

據(jù)了解，面部動(dòng)捕技術(shù)可準(zhǔn)確追蹤表演者臉部各部分運(yùn)動(dòng)，并驅(qū)動(dòng)CG模型去模擬這種運(yùn)動(dòng)。捕捉面部變形數(shù)據(jù)需要詳細(xì)的三位信息，才能準(zhǔn)確呈現(xiàn)肌肉伸展、收縮，以及由此產(chǎn)生的皺紋等細(xì)微運(yùn)動(dòng)。

而索尼的方案，簡單來講就是用動(dòng)捕技術(shù)捕捉真人演員的表情，并根據(jù)捕捉到的數(shù)據(jù)生成人臉CG模型，以及面部動(dòng)態(tài)變形效果。此外，還分析了各種面部表情模式，并提取了重現(xiàn)這些表情需要運(yùn)動(dòng)的面部區(qū)域。這些區(qū)域大約有100個(gè)，包括眼睛和嘴唇輪廓部位，在捕捉這些區(qū)域的3D信息后，索尼對(duì)它們的位置進(jìn)行了標(biāo)記。

在捕捉人臉3D信息時(shí)，索尼使用了多臺(tái)同步的攝像機(jī)從多角度拍攝，并推算3D運(yùn)動(dòng)信息。不過，部分面部表情變化可能會(huì)導(dǎo)致標(biāo)記檢測(cè)失敗或遮擋，因此該系統(tǒng)還利用光流，以及不同的攝像頭角度來提升信息獲取的穩(wěn)定性。

接下來，索尼使用真人表演視頻作為訓(xùn)練數(shù)據(jù)，培訓(xùn)了可精準(zhǔn)檢測(cè)眼睛、嘴唇運(yùn)動(dòng)的系統(tǒng)。索尼指出，每一幀動(dòng)捕的準(zhǔn)確性都決定了下一幀的準(zhǔn)確性，因此該系統(tǒng)還需要不斷完善，提高整體水平。

索尼開始使用頭戴式攝像頭（HMC）來拍攝演員的面部表情，相比于傳統(tǒng)的固定機(jī)位拍攝，HMC的好處是可以追隨演員，演員無需尋找攝像頭，可以更加自由、靈活的運(yùn)動(dòng)。索尼表示：捕捉到自然運(yùn)動(dòng)的人體姿態(tài)后，才能渲染出完整的數(shù)字人，因此HMC是捕捉自然運(yùn)動(dòng)數(shù)據(jù)不可缺少的工具。

不過，演員可戴在頭上的HMC攝像頭數(shù)量有限，面部捕捉的角度、覆蓋面積比固定機(jī)位更少。因此，準(zhǔn)確捕捉3D面部數(shù)據(jù)、識(shí)別3D標(biāo)記則尤為重要。為了訓(xùn)練良好的3D預(yù)測(cè)算法，索尼使用固定機(jī)位和HMC預(yù)先捕捉人臉數(shù)據(jù)，其中包括面部表情、3D標(biāo)記等等。算法通過這些數(shù)據(jù)去學(xué)習(xí)表情和面部運(yùn)動(dòng)之間的相關(guān)性，后續(xù)只需要HMC的數(shù)據(jù)就可預(yù)測(cè)3D面部運(yùn)動(dòng)，準(zhǔn)確性足夠接近傳統(tǒng)的固定機(jī)位方案。

模擬面部變形

在捕捉人臉3D標(biāo)記信息后，索尼的動(dòng)捕系統(tǒng)根據(jù)眼瞼、嘴唇輪廓信息來模擬面部變形，并動(dòng)態(tài)渲染在3D模型上。渲染面部變形的流程是：根據(jù)幾何函數(shù)模擬面部表情、用機(jī)器學(xué)習(xí)模型將面部表情個(gè)性化、細(xì)節(jié)微調(diào)、疊加紋理。首先第一步，3D面部動(dòng)作、眼瞼輪廓需要準(zhǔn)確定位，才能確保后續(xù)面部變形合理。因此，索尼設(shè)定了一個(gè)具有幾何約束的能量函數(shù)，可根據(jù)3D面部數(shù)據(jù)來調(diào)整面部模型的整體形態(tài)。

另外，由于人臉表情變化引起的皮膚拉伸、收縮、皺紋和肌肉隆起程度因人而異，因此索尼利用十幾種面部表情模式來訓(xùn)練個(gè)性化的機(jī)器學(xué)習(xí)模型，這些模型可根據(jù)人臉特征，來將3D面部表情個(gè)性化，重現(xiàn)用戶的個(gè)人特征。

細(xì)節(jié)方面，該機(jī)器學(xué)習(xí)模型將人臉區(qū)域的伸長、收縮程度作為特征值，并根據(jù)幾何變形模型與真實(shí)值之間的差距回歸，從而輸出具有個(gè)人特征的面部變形。

面部變形的最后一步，就是引入眼瞼、嘴唇、口腔形狀變形算法，對(duì)面部模型進(jìn)行額外處理。這一步是為了糾正面部變形可能產(chǎn)生的誤差，確保眼瞼覆蓋眼球（避免眼球和眼瞼出現(xiàn)間隙，或眼球穿模眼皮）、自然的口腔形狀變化等特征。在眼瞼處理部分，該算法重點(diǎn)是避免眼瞼接觸眼球，而嘴唇處理部分，則側(cè)重于幾何約束，確保面部捕捉到的嘴唇輪廓與3D模型的嘴唇形狀匹配。

面部和身體集成

完成3D面部動(dòng)作模擬后，下一步便是將面部與身體姿態(tài)集成，并協(xié)調(diào)面部表情和身體動(dòng)作。如果面部和身體分開運(yùn)動(dòng)，會(huì)顯得不自然，因此索尼開發(fā)了面部和身體一體化算法，可模擬全身自然運(yùn)動(dòng)。

索尼指出，目前市面上的動(dòng)捕方案主要用于模擬人體模型的運(yùn)動(dòng)和變形，人體3D信息通過光學(xué)方案捕捉，并且在頸部、腿部、手臂等處添加標(biāo)記來定位骨骼姿態(tài)，生成人體網(wǎng)格，從而模擬人體形狀。相比之下，索尼的方案側(cè)重于模擬頸部形狀，頸部的動(dòng)作會(huì)同時(shí)受到面部和身體運(yùn)動(dòng)影響，比如頸骨運(yùn)動(dòng)決定面部方向，下頜運(yùn)動(dòng)決定嘴巴運(yùn)動(dòng)。

于是，索尼構(gòu)建了一個(gè)全身姿態(tài)模擬系統(tǒng)，將HMC數(shù)據(jù)和身體動(dòng)作捕捉同步，并根據(jù)這些數(shù)據(jù)來預(yù)測(cè)頸部形狀。據(jù)悉，索尼預(yù)先創(chuàng)建了結(jié)合多種嘴型、面部方位的大量訓(xùn)練數(shù)據(jù)，并從中提取了潛在的頸部形狀。在實(shí)際預(yù)測(cè)中，頸部模型組合了多種數(shù)據(jù)，包括下頜運(yùn)動(dòng)、頸部方向。

索尼表示：該頸部模擬模型可重現(xiàn)自然的面部和身體動(dòng)作，目前訓(xùn)練改模型需要大量訓(xùn)練數(shù)據(jù)，后續(xù)將想辦法減少對(duì)數(shù)據(jù)的依賴。

總之，索尼的數(shù)字人模擬方案實(shí)現(xiàn)了自動(dòng)化的人臉表情模擬，這大大減少了前期創(chuàng)作工作，允許創(chuàng)作者交付更高質(zhì)量產(chǎn)品。更重要的是，該方案可根據(jù)不同人的特征去模擬運(yùn)動(dòng)，好處是看起來非常自然。索尼表示：隨著3D虛擬技術(shù)發(fā)展，數(shù)字人將會(huì)被更多人所熟知，輕松創(chuàng)建Avatar的需求將逐步增加。未來，希望可以將這項(xiàng)幾乎應(yīng)用于消費(fèi)級(jí)市場，比如電影、游戲等領(lǐng)域。參考：sony

關(guān)鍵詞：索尼數(shù)字人研究畫質(zhì)超逼真面部表情與身體動(dòng)作保持協(xié)調(diào) 動(dòng)作捕捉