Till innehåll på sidan
Till KTH:s startsida

Bittersweet Lessons in Music AI Research

Neural Instrument Synthesis, Multi-modal Representations, Symbolic Music Generation

Tid: Fr 2026-03-27 kl 15.00

Plats: F3 (Flodis), Lindstedtsvägen 26 & 28, Sweden

Videolänk: https://kth-se.zoom.us/j/64932870406

Språk: Engelska

Ämnesområde: Tal- och musikkommunikation

Respondent: Nicolas Jonason , Tal, musik och hörsel

Opponent: Associate Professor Gus Xia, Mohamed bin Zayed University of Artificial Intelligence, Abu Dhabi, United Arab Emirates

Handledare: Associate professor Bob Sturm, Tal, musik och hörsel

Exportera till kalender

QC 20260306

Abstract

Denna avhandling utforskar AI-tekniker inom tre områden relaterade till musikskapande: neural instrumentsyntes, multimodala representationer och symbolisk musikgenerering. Inom neural instrumentsyntes utforskar vi arkitekturförändringar och överföringsinlärning för att tillämpa neurala syntesmetoder på instrument där lite data finns tillgänglig. Vi övergår sedan till zero-shot-ljudtillämpningar av multimodala representationer, inklusive textguidad ljudekvalisering, visualisering av instrumentljud och textdriven synthesizerprogrammering. Inom symbolisk musik föreslår vi superponerade språkmodeller, en generalisering av maskerade språkmodeller för kontrollerbar generering och redigering av musik med event-attribut-domänbegränsningar. Vi experimenterar sedan med textdriven musikgenerering och redigering med LLM:er förstärkta med ett retrieval-system för att hämta relevanta few-shot-exempel, ett tidigt tecken på att LLM:er kan utmana domänspecifika metoder för symbolisk musikgenerering. Vi överbryggar sedan de symboliska och ljuddomänerna genom att använda en ljuddomänmodell av mänskliga preferenser som belöningssignal för att finjustera en symbolisk musikgenereringsmodell, och producerar musik som enligt preferensmodellen är bättre än Mozart. I en reflektion kring vårt arbete lyfter vi datatillgänglighet som den avgörande faktorn för musik-AI:s förmågor, och att mycket av vårt arbete kan ses som capability arbitrage: en omdirigering av förmågor från datarika domäner mot datafattiga domäner. Vi avslutar med att spekulera kring framtida AI-förmågor för musikskapande med hänsyn till det massiva isberg av data som fortfarande inte nyttjas.

Link to DiVA