未來甚至可以對嗅覺、味覺、心理學等難以量化的信號進行融合,實現多個模態的聯合分析,將推進深度學習從感知智能升級為認知智能,在更多場景、更多業務上輔助 人類工作。 一方面,多模態融合能夠推動人機交互模式的升級,人機交互過程中可以從視覺、聽覺、觸覺等多方面體會機器的情感和表達的語義,通過圖文、語音、動作等多方式 互動,從整體上提高人機交互的自然度和精確度。 另一方面,多模態融合技術,能夠對人體的形態、表情和功能進行模擬仿真,打造出高度擬人化的虛擬形象,像真人一樣與人溝通互動,不斷提升交互體驗。 目前數字人在功能分類上,一類是內容播報的靜態型數字人,我們常見AI虛擬主播就是屬於這種類型;另一類可以實時對話的交互型數字人,在實時對話過程中完成語音、 語義、視覺的理解和合成,因此更具挑戰。 未來的多模態數字人應當具備類似人的看、聽、說和知識邏輯的能力,在“人工智能更像人”這個進程中更進一步。