• 2024-09-05

AI löser ”cocktailpartyproblemet” och visar sig vara användbar i domstol

AI löser ”cocktailpartyproblemet” och visar sig vara användbar i domstol

Getty ImagesI grupper skärmar människor bort prat runt dem – och nu kan tekniken göra detsamma. Det är det ständiga ”cocktailparty-problemet” – att stå i ett rum fullt av människor, dricka i handen och försöka höra vad din medgäst säger. människor är anmärkningsvärt skickliga på att föra en konversation med en person samtidigt som de filtrerar bort konkurrerande röster. Men, kanske överraskande nog, är det en färdighet som tekniken tills nyligen inte har kunnat replikera. Och det spelar roll när det gäller att använda ljudbevis i rättsfall. Röster i bakgrunden kan göra det svårt att vara säker på vem som talar och vad som sägs, vilket potentiellt gör inspelningar värdelösa. Elingenjör Keith McElveen, grundare och teknisk chef för Wave Sciences, blev intresserad av problemet när han arbetade för den amerikanska regeringen om ett krigsbrottsfall.” Det vi försökte ta reda på var vem som beordrade massakern på civila. En del av bevisen inkluderade inspelningar med ett gäng röster som alla pratade på en gång – och det var då jag fick reda på vad ”cocktailpartyproblemet” var. var”, säger han.” Jag hade lyckats ta bort ljud som billjud eller luftkonditioneringsapparater eller fläktar från tal, men när jag började försöka ta bort tal från tal visade det sig inte bara vara ett mycket svårt problem, det var ett av de klassiska svåra problemen inom akustik ”Ljud studsar runt ett rum, och det är matematiskt hemskt att lösa.” Paul CheneyKeith McElveen grundade Wave Sciences 2008 för att fokusera på ”cocktailparty-problemet” Svaret, säger han, var att använda AI för att försöka lokalisera och sålla bort alla konkurrerande ljud baserat på var de ursprungligen kom ifrån i ett rum. Detta betyder inte bara andra människor som kanske talar – det finns också en betydande mängd störningar från hur ljud reflekteras runt ett rum, där måltalarens röst hörs både direkt och indirekt. I en perfekt ekofri kammare – en helt fri från ekon – skulle en mikrofon per högtalare räcka för att fånga upp vad alla sa; men i ett verkligt rum kräver problemet också en mikrofon för varje reflekterat ljud. Mr McElveen grundade Wave Sciences 2009, i hopp om att utveckla en teknik som kan separera överlappande röster. Inledningsvis använde företaget ett stort antal mikrofoner i vad som kallas array beamforming. Men feedback från potentiella kommersiella partners var att systemet krävde för många mikrofoner för att kostnaden skulle ge bra resultat i många situationer – och inte skulle prestera alls i många andra.” Den vanliga refrängen var att om vi kunde komma på en lösning som åtgärdade dessa problem, de skulle vara mycket intresserade, säger McElveen. Och han tillägger: ”Vi visste att det måste finnas en lösning, eftersom du kan göra det med bara två öron.” Företaget löste till slut problemet problem efter 10 år av internt finansierad forskning och lämnade in en patentansökan i september 2019.Keith McElveenDet tog Wave Sciences 10 år att lösa ”cocktailpartyproblemet”Det de hade kommit på var en AI som kan analysera hur ljudet studsar runt i ett rum innan vi når mikrofonen eller örat.” Vi fångar ljudet när det kommer till varje mikrofon, backar för att ta reda på var det kom ifrån, och sedan undertrycker vi i huvudsak alla ljud som inte kan ha kommit från där personen sitter ”, säger Mr McElveen. Effekten är i vissa avseenden jämförbar med när en kamera fokuserar på ett motiv och suddar ut förgrunden och bakgrunden. ”Resultaten låter inte kristallklart när du bara kan använda en mycket brusig inspelning för att lära av, men de är fortfarande fantastisk.” Tekniken hade sin första verkliga rättsmedicinska användning i ett amerikanskt mordfall, där bevisen som den kunde tillhandahålla visade sig vara centrala för fällande domar. Efter att två mördare greps för att ha dödat en man ville FBI bevisa att de hade blivit anställd av en familj som gick igenom en vårdnadstvist FBI ordnade för att lura familjen att tro att de blev utpressade för sin inblandning – och sedan lutade sig tillbaka för att se reaktionen. FBI att få tillgång till personliga möten i två restauranger var en annan sak. Men domstolen godkände användningen av Wave Sciences algoritm, vilket betyder att ljudet gick från att vara otillåtet till ett avgörande bevis. Sedan dess har andra statliga laboratorier. , inklusive i Storbritannien, har satt den genom ett antal tester. Företaget marknadsför nu tekniken till den amerikanska militären, som har använt den för att analysera ekolodssignaler. Den kan också ha tillämpningar i gisslanförhandlingar och självmordsscenarier, säger McElveen, för att se till att båda sidor av en konversation kan höras – inte bara förhandlaren med en megafon. Sent förra året släppte företaget en mjukvaruapplikation som använder sin inlärningsalgoritm för användning av statliga labb som utför ljudkriminalteknik och akustisk analys. Getty Images Så småningom vill Wave lansera versioner av sin produkt för användning i smarta högtalare. Så småningom siktar man på att introducera skräddarsydda versioner av sin produkt för användning i ljudinspelningskit, röstgränssnitt för bilar, smarta högtalare, förstärkt och virtuell verklighet, ekolod och hörapparater . Så om du till exempel pratar med din bil eller smarta högtalare skulle det inte spela någon roll om det var mycket ljud runt dig, enheten skulle fortfarande kunna urskilja vad du sa. AI används redan inom andra områden av kriminalteknik, enligt kriminaltekniker Terri Armenta från Forensic Science Academy.”ML [machine learning] modeller analyserar röstmönster för att fastställa talarens identitet, en process som är särskilt användbar i brottsutredningar där röstbevis måste autentiseras”, säger hon. ”Dessutom kan AI-verktyg upptäcka manipulationer eller ändringar i ljudinspelningar, vilket säkerställer integriteten hos bevis som presenteras. i domstol.” Och AI har också tagit sig in i andra aspekter av ljudanalys också. BoschSamarjit Das med SoundSee som kan förutsäga en bils funktionsfel innan det händer Bosch har en teknologi som heter SoundSee, som använder ljudsignalbehandlingsalgoritmer för att analysera, för till exempel en motors ljud för att förutsäga ett fel innan det inträffar.” Traditionella ljudsignalbehandlingsmöjligheter saknar förmågan att förstå ljud på det sätt som vi människor gör”, säger Dr Samarjit Das, chef för forskning och teknik på Bosch USA. ”Audio AI möjliggör djupare förståelse och semantisk tolkning av ljudet av saker omkring oss bättre än någonsin tidigare – till exempel miljöljud eller ljudsignaler från maskiner.” Nyare tester av Wave Sciences-algoritmen har visat att, även med bara två mikrofoner, tekniken kan prestera lika bra som det mänskliga örat – bättre när fler mikrofoner läggs till. Och de avslöjade också något annat.” Matematiken i alla våra test visar anmärkningsvärda likheter med mänsklig hörsel. Det finns små konstigheter med vad vår algoritm kan göra, och hur exakt den kan göra det, som häpnadsväckande liknar några av de konstigheter som finns i mänsklig hörsel, säger McElveen.” Vi misstänker att den mänskliga hjärnan kan använda samma matematik – att när vi löste cocktailpartyproblemet kan vi ha snubblat över vad som verkligen händer i hjärnan.”