
In complexe omgevingen kunnen mensen de betekenis van spraak beter begrijpen dan AI, omdat we niet alleen onze oren maar ook onze ogen gebruiken.
We zien bijvoorbeeld iemands mond bewegen en kunnen intuïtief weten dat het geluid dat we horen van die persoon moet komen.
Meta AI werkt aan een nieuw AI -dialoogsysteem, dat is om AI te leren ook te leren subtiele correlaties te herkennen tussen wat het ziet en hoort in een gesprek.
VisualVoice leert op een vergelijkbare manier als mensen leren nieuwe vaardigheden te beheersen, waardoor audiovisuele spraakscheiding mogelijk is door visuele en auditieve aanwijzingen te leren van niet-gelabelde video's.
Voor machines creëert dit een betere perceptie, terwijl de menselijke perceptie verbetert.
Stel je voor dat je kunt deelnemen aan groepsbijeenkomsten in de metaverse met collega's van over de hele wereld, zich bij kleinere groepsbijeenkomsten aansluiten terwijl ze door de virtuele ruimte bewegen, waarin de geluidsvergerechten en timbres in de scène volgens de omgeving dienovereenkomstig aanpassen.
Dat wil zeggen, het kan tegelijkertijd audio-, video- en tekstinformatie verkrijgen en heeft een rijker model voor het begrip van het milieu, waardoor gebruikers een "zeer wow" geluidservaring kunnen hebben.
Posttijd: Jul-20-2022