國際學士院(全球)

AI深度學習技術正從語音、文字、視覺等單模態向學習多模態智能學習發展

2021/01/19

人工智慧

未來甚至可以對嗅覺、味覺、心理學等難以量化的信號進行融合，實現多個模態的聯合分析，將推進深度學習從感知智能升級為認知智能，在更多場景、更多業務上輔助人類工作。一方面，多模態融合能夠推動人機交互模式的升級，人機交互過程中可以從視覺、聽覺、觸覺等多方面體會機器的情感和表達的語義，通過圖文、語音、動作等多方式互動，從整體上提高人機交互的自然度和精確度。另一方面，多模態融合技術，能夠對人體的形態、表情和功能進行模擬仿真，打造出高度擬人化的虛擬形象，像真人一樣與人溝通互動，不斷提升交互體驗。目前數字人在功能分類上，一類是內容播報的靜態型數字人，我們常見AI虛擬主播就是屬於這種類型；另一類可以實時對話的交互型數字人，在實時對話過程中完成語音、語義、視覺的理解和合成，因此更具挑戰。未來的多模態數字人應當具備類似人的看、聽、說和知識邏輯的能力，在“人工智能更像人”這個進程中更進一步。

上一篇：2022年以後，FinFET結構將被GAA結構所取代下一篇：人機交互更加註重情感體驗

聯合國(W.U.U)IAE產學研Top 1%產學研碩博教授審議申請