Maskinindlæring og kunstig intelligens ville ikke være mulig uden de statistiske modeller, der understøtter deres analytiske evner. En Cornell -statistiker og hans kollega har udviklet en revolutionær ny metode til at analysere komplekse datasæt, der er mere fleksible, nøjagtige og lette at bruge.
Dan Kowal, lektor i statistik og datavidenskab, en delt afdeling i College of Agriculture and Life Sciences og Cornell Ann S. Bowers College of Computing and Information Science, er hovedforfatter af “Monte Carlo Inferens for Semiparametric Bayesian Regression,” som blev offentliggjort 1. oktober i Journal of the American Statistical Association. Medforfatteren er Bohan Wu, nu ph.d. studerende ved Columbia University.
“Denne metode giver folk mere magt, når de arbejder med rodede data og forsøger at løsne kompleksiteten af forskellige effekter,” sagde Kowal. “Jeg vil have, at folk skal bruge pålidelige modeller, så de virkelig kan drille signalet fra støjen. Vi har fundet empirisk, at denne metode kan gøre det på tværs af en bred vifte af forskellige datatyper, distributioner og indstillinger. Det er nøjagtigt den slags af bidrag, der begejstrer mig som statistiker. “
Bayesiansk regressionsanalyse gør det muligt for forskere at forudsige en række resultater i stedet for et enkelt skøn. Kowals model er specifikt designet til at analysere “messier data”, der ikke passer godt ind i en klokkekurve, sagde han. Det kan analysere og fremsætte forudsigelser om en lang række emner, herunder udnyttelse af sundhedsvæsenet, familieindkomster, finansielle markeder og klimaarrangementer.
For eksempel beder læger undertiden deres patienter om selvrapportering om deres mentale sundhed med spørgsmål som “Hvor mange dage i de sidste 30 dage var din mentale sundhed ikke god?” Et stort antal mennesker svarer “0” og et andet stort antal svar “30”, og resten estimerer generelt ved at svare på trin på 5 eller 7, sagde Kowal.
“Med data som dette får du disse pigge i svaret, der handler mere om selvrapporteringen end de handler om selve dataene,” sagde han.
“Hvis jeg prøver at planlægge for sundhedsvæsenets kapacitet, skulle jeg ikke tage beslutninger baseret på, om folk svarer 14 mod 15 mod 16. Men at have modeller, der kan strække sig passende eller komprimere disse klumpede datapunkter muliggør din analyse At give mere mening og i sidste ende være mere nyttig. “
Kowals nye metode er også lettere for forskere at bruge. Bayesianske regressionsanalyser kræver typisk anvendelse af en kompleks algoritme (kaldet Markov -kæde Monte Carlo), der kræver en enorm mængde computerkraft og multiple diagnostik for at sikre, at algoritmen i sig selv ikke går i stykker. Kowals metode undgår den algoritme.
“Når folk bruger Markov -kæden Monte Carlo, er de nødt til at gøre alle former for diagnostik for at sikre, at tingene fungerer godt. Algoritmen kræver sin egen indsats, uafhængig af modellen og de data, du virkelig interesserer dig for,” sagde han. “I dette papir omgår vi faktisk fuldstændigt det, men bevarer stadig modelfleksibilitet og nøjagtighed ved at forudsige resultater.”
Kowal har opbygget et websted med dokumentation og eksempler på, hvordan man bruger sin nye metode, og han har offentliggjort gratis, downloadbar software på Cran, det førende websted til open source-programmering til statistisk computing.