Manifolds of Learning
Tid: Fr 2026-02-06 kl 14.00
Plats: F3 (Flodis), Lindstedtsvägen 26 & 28, Stockholm
Språk: Engelska
Ämnesområde: Tillämpad matematik och beräkningsmatematik
Respondent: Vahid Shahverdi , Algebra, kombinatorik och topologi
Opponent: Mireille Boutin,
Handledare: Kathlén Kohn, Algebra, kombinatorik och topologi; Joakim Andén, Matematik (Avd.)
QC 2025-12-15
Abstract
Neuronnät är centrala för modern maskininlärning, med tillämpningar som sträcker sig från datorseende till naturlig språkbearbetning. Trots deras framgång är de matematiska grunderna inte väletablerade. I kärnan av varje sådan modell finns en träningsprocedur som syftar till att lösa ett icke-konvext optimeringsproblem med många potentiella lösningar, ändå hittar optimeringsalgoritmer ofta parametrar som inte bara anpassar sig till data utan också generaliserar väl till osedda exempel. Varför neuronnät uppvisar detta gynnsamma beteende, och hur arkitektoniska val påverkar det, är fortfarande grundläggande öppna frågor som kräver nya matematiska verktyg.
Denna avhandling föreslår en lovande ansats, neuroalgebraisk geometri, vars forskningsprogram är att studera neuronnät genom algebraisk geometri. I detta ramverk ersätts icke-linjäriteter såsom aktiveringsfunktioner med algebraiska motsvarigheter, till exempel polynom, så att de resulterande modellerna blir mer lämpade för rigorös algebro-geometrisk analys. Eftersom polynom är universella approximatorer kan metoderna som utvecklas inom neuroalgebraisk geometri (genom att ta de relevanta gränsvärdena) sträcka sig bortom polynomvärlden och därmed överbrygga klyftan mellan algebraiska modeller och praktiska neuronnät.
Genom neuroalgebraisk geometri studerar vi funktionsrummet som parameteriseras av en given neuronnätsarkitektur, vilket vi kallar neuromångfald. Dess dimension och volym återspeglar hur rik modellen är och hur väl den kan generalisera från data. Singulära punkter, platser där neuromångfalden inte är reguljär, karakteriserar implicita bias som uppstår under träning. Analysen av parameteriseringsavbildningen relaterar till neuronnätets identifierbarhet, en egenskap som är avgörande för utformningen av ekvivarianta arkitekturer där datasymmetrier kodas in i modellen. Att betrakta optimering ur detta geometriska perspektiv kopplar förlustfunktionens landskap till den underliggande strukturen hos neuromångfalden. Den algebraiska miljön gör dessa analyser mer genomförbara eftersom det omgivande rummet för neuromångfalden blir ändligtdimensionellt.
Huvudmålet med denna avhandling är att analysera funktionaliteten hos två viktiga arkitekturer, flerlagersperceptroner (MLP:er) och faltningsnätverk (CNN:er), genom algebraisk geometri.
I Artikel A presenterar vi ett ståndpunktsdokument som introducerar och motiverar det framväxande forskningsområdet neuroalgebraisk geometri. Vi konstruerar en ordbok mellan algebro-geometriska begrepp (såsom dimension, grad och singulariteter) och centrala fenomen i maskininlärning (inklusive samplingskomplexitet, expressivitet och implicit bias). Samtidigt ger artikeln en koncis litteraturöversikt och argumenterar för nya kopplingar i skärningspunkten mellan algebraisk geometri och maskininlärning.
I Artikel B undersöker vi linjära faltningsnät med en kanal och endimensionella filter. Genom att studera deras neuromångfald anger vi dess dimension och singulariteter. Genom att betrakta optimering med kvadratisk förlust, visar vi vidare att de kritiska punkterna för parameteriseringen som motsvarar spuriösa punkter inte attraheras av gradientbaserad optimering när alla stegstorlekar (eng. strides) är större än ett.
I Artikel C, som fortsätter undersökningen från Artikel B, introducerar vi en rekursiv algoritm som genererar de polynomekvationer som definierar Zariski-slutningen av neuromångfalden för linjära faltningsnät. Vi ger vidare det exakta antalet (komplexa) kritiska punkter som uppstår när dessa nät tränas med kvadratisk förlust och generiska data.
I Artikel D undersöker vi linjära invarianta och ekvivarianta nätverk under permutationsgrupper. Vi bestämmer dimension, grad och singulärmängd hos neuromångfalden för dessa modeller. Därefter analyserar vi antalet (komplexa) kritiska punkter som kan uppstå under träning. Vidare visar vi att neuromångfalden för linjära ekvivarianta nätverk består av många irreducibla komponenter som inte kan parameteriseras av en enda fix arkitektur, och därmed avgör arkitekturvalet vilken irreducibel komponent vi parameteriserar.
I Artikel E, som är vår första utforskning av icke-linjära aktiveringsfunktioner, analyserar vi faltningsnät med en kanal och endimensionella filter med monom som aktiveringsfunktioner. Vi visar att dess neuromångfald, när den projektiviseras, är birationell med en Segre--Veronese-varietet, ett välkänt objekt inom klassisk algebraisk geometri. Vi beskriver därefter dess algebraiska invarianter såsom dimension och grad och karakteriserar dess singulära punkter, inklusive deras typer. Slutligen ger vi en exakt formel för antalet (komplexa) kritiska punkter som uppstår vid träning med generiska data under optimering med kvadratisk förlust.
I Artikel F undersöker vi både MLP:er och CNN:er med generiska polynom som aktiveringsfunktioner. Vi bevisar att inga kontinuerliga symmetrier finns i någon av modellerna, det vill säga den generiska fibern av parameteriseringen är ändlig. Följaktligen sammanfaller neuromångfaldernas dimension med antalet parametrar. Vidare visar vi att det i båda modellerna finns vissa delnätverk som motsvarar singulära punkter i neuromångfalden. Slutligen är parametrarna associerade med dessa delnätverk, för CNN:er, inte kritiskt exponerade, medan de för MLP:er är kritiskt exponerade, vilket innebär att de uppträder som kritiska punkter för förlustfunktionen med nollskild sannolikhet över datafördelningen.
Även om huvudinriktningen i denna avhandling rör geometri och optimering av neuronnät har det perspektiv som utvecklas här, där inlärningsproblem ramas in som algebraisk optimering över strukturerade mängder, också motiverat en ny ansats till ett klassiskt problem inom signalbehandling.
I Artikel G behandlar vi flerreferensorientering (MRA), ett problem där flera brusiga observationer av en endimensionell signal finns tillgängliga, var och en utsatt för en okänd cirkulär förskjutning. Målet är att rekonstruera den underliggande signalen upp till cirkulär förskjutning. Vi introducerar en ny algoritm som minimerar en avståndsfunktion definierad på mångfalden av signaler vars andra ordningens moment överensstämmer med dem som skattas från observationerna. Vi analyserar optimeringsproblemet både för ändlig och oändlig datamängd. I det senare visar vi att den sanna signalen alltid är en kritisk punkt för förlustfunktionen, och våra empiriska resultat visar att den motsvarar ett globalt minimum.