
I komplexa miljöer kan människor förstå innebörden av tal bättre än AI, eftersom vi inte bara använder våra öron utan också våra ögon.
Till exempel ser vi någons mun röra sig och kan intuitivt veta att ljudet vi hör måste komma från den personen.
Meta AI arbetar med ett nytt AI -dialogsystem, som är att lära AI att också lära sig att känna igen subtila korrelationer mellan vad den ser och hör i en konversation.
Visualvoice lär sig på liknande sätt som hur människor lär sig att behärska nya färdigheter, vilket möjliggör audiovisuell talseparation genom att lära sig visuella och auditiva ledtrådar från omärkta videor.
För maskiner skapar detta bättre uppfattning, medan mänsklig uppfattning förbättras.
Föreställ dig att du kan delta i gruppmöten i Metaverse med kollegor från hela världen och gå med i mindre gruppmöten när de rör sig genom det virtuella utrymmet, under vilket ljudet reverbs och timbres i scenen gör enligt miljön anpassas i enlighet därmed.
Det vill säga att det kan få ljud-, video- och textinformation samtidigt och har en rikare miljöförståelsemodell, vilket gör att användare kan ha en "mycket wow" -upplevelse.
Posttid: JUL-20-2022