Bittersweet Lessons in Music AI Research
Neural Instrument Synthesis, Multi-modal Representations, Symbolic Music Generation
Tid: Fr 2026-03-27 kl 15.00
Plats: F3 (Flodis), Lindstedtsvägen 26 & 28, Sweden
Videolänk: https://kth-se.zoom.us/j/64932870406
Språk: Engelska
Ämnesområde: Tal- och musikkommunikation
Respondent: Nicolas Jonason , Tal, musik och hörsel
Opponent: Associate Professor Gus Xia, Mohamed bin Zayed University of Artificial Intelligence, Abu Dhabi, United Arab Emirates
Handledare: Associate professor Bob Sturm, Tal, musik och hörsel
QC 20260306
Abstract
Denna avhandling utforskar AI-tekniker inom tre områden relaterade till musikskapande: neural instrumentsyntes, multimodala representationer och symbolisk musikgenerering. Inom neural instrumentsyntes utforskar vi arkitekturförändringar och överföringsinlärning för att tillämpa neurala syntesmetoder på instrument där lite data finns tillgänglig. Vi övergår sedan till zero-shot-ljudtillämpningar av multimodala representationer, inklusive textguidad ljudekvalisering, visualisering av instrumentljud och textdriven synthesizerprogrammering. Inom symbolisk musik föreslår vi superponerade språkmodeller, en generalisering av maskerade språkmodeller för kontrollerbar generering och redigering av musik med event-attribut-domänbegränsningar. Vi experimenterar sedan med textdriven musikgenerering och redigering med LLM:er förstärkta med ett retrieval-system för att hämta relevanta few-shot-exempel, ett tidigt tecken på att LLM:er kan utmana domänspecifika metoder för symbolisk musikgenerering. Vi överbryggar sedan de symboliska och ljuddomänerna genom att använda en ljuddomänmodell av mänskliga preferenser som belöningssignal för att finjustera en symbolisk musikgenereringsmodell, och producerar musik som enligt preferensmodellen är bättre än Mozart. I en reflektion kring vårt arbete lyfter vi datatillgänglighet som den avgörande faktorn för musik-AI:s förmågor, och att mycket av vårt arbete kan ses som capability arbitrage: en omdirigering av förmågor från datarika domäner mot datafattiga domäner. Vi avslutar med att spekulera kring framtida AI-förmågor för musikskapande med hänsyn till det massiva isberg av data som fortfarande inte nyttjas.