Hands-on kundeanalyse

6 min read

Konkurransen om å kjenne sine kunder best og bry seg mest tiltar. Bedre BI- og analyseresultater ligger høyt på ønskelistene til svært mange beslutningstagere, enten det er i toppledelsen eller i kundefront. Det er et rush for å bli mer data- og analysedrevet, noe vi ser tydelig i anbudsforespørslene til IT-prosjekter i alle bransjer.

Så er det som vanlig mange veier til Roma, og hverken bestillere eller leverandører har omforente syn på hva som er den billigste eller beste veien dit. Her skal vi kort vise en pragmatisk og generisk tilnærming til analyse av kjøpsadferd ved å bruke en kombinasjon av supervised og un-supervised learning.

Anta at du er en analytiker og at du ønsker å se på nettrafikken på hjemmesidene til firmaet ditt. Der skal du analysere den observerte kjøpsadferden forbundet med et gitt produkt.

Dataene er simulerte og består av 6.500 fiktive besøkende som i snitt har en kjøpsrate på 20 %. I tillegg til et binært flagg som indikerer hvorvidt den besøkende la inn en bestilling på produktet, så har vi blant annet disse variablene:

  • Reklame: Hvorvidt den besøkende ble møtt med reklamebudskap 1.
  • Reklame2: Hvorvidt den besøkende ble møtt med reklamebudskap 2.
  • TidligereKundeforhold: Hvorvidt den besøkende er en tidligere kunde.
  • TeknologiInteresse: Hvorvidt den besøkende er interessert i teknologi.
  • TidligereKlage: Hvorvidt den besøkende har hatt en tidligere klagesak hos oss.
  • Bebyggelse: Et mål som indikerer i hvilken grad bostedet til den besøkende er tettbebygd.

Alle analysene og visualiseringen er for øvrig gjort ved hjelp av SAS Visual Statistics på Viya-plattformen, det vil si i en cloud-løsning. Tilnærmingen er ellers agnostisk med hensyn på teknologi, men det er oppløftende å se at også SAS har etablert og hurtig utvikler skytjenester. De har også lyktes godt med organisering av arbeidsflyt, verktøy og metodikk i et effektivt GUI.

Så: Over til analysearbeidet!

Utlede sannsynlighetsverdier: Supervised Learning
Dataene mates inn i en logistisk regresjonsmodell der indikatoren på bestilling av produktet er målvariabel og de andre variablene i listen over behandles som forklaringsvariabler.

Figuren over viser at alle parameterestimatene, med unntak av Bebyggelse, er signifikant forskjellig fra null. Dette, sammen med ROC-kurven og R-kvadratverdien, indikerer at modellen evner til å skille mellom besøkende med lav og høy tilbøyelighet til å kjøpe produktet. Man kan lett skrive tykke bøker om nyansene som ligger i å enten forkaste eller beholde variabler i regresjonsmodeller, men her slår vi oss til ro med å forkaste Bebyggelse.

Den logistiske regresjonsmodellen kan nå brukes til å berike grunnlagsdataene våre, eksempelvis ved å tilordne en kjøpssannsynlighet til enhver besøkende som er representert i dataene.

Datadrevet segmentering: Un-supervised Learning
Videre kan vi utføre en datadrevet segmentering av de besøkende. Her bruker vi tre andre variabler, nemlig Alder, Utdanningsnivå og Inntekt. En vanlig motivasjon for en slik segmentering er å legge til rette for god kommunikasjon med markedsavdeling. Det er betraktelig enklere å snakke om håndfaste kundesegmenter til fordel for korrelasjoner og sammenhenger som først kommer til syne i et multidimensjonalt rom! En metode for å oppnå dette er å kjøre en k-means grupperingsalgoritme på dataene der vi ber om fire segmenter. Resultatet kan visualiseres med et sankeydiagram.

Dette er de fire segmentene grupperingsalgoritmen foreslår. La oss som eksempel se på hvordan vi kan tolke segment 3 (grønn) og 4 (blå).

  • De besøkende i segment 4 ser ut til å ha høy alder, lav inntekt og middels til høy utdannelse. Denne gruppen representerer hovedsakelig pensjonister, så la oss kalle segmentet nettopp
  • Segment 3 har lav alder, høy inntekt og høy utdannelse. Dette segmentet representerer unge som har fullført utdannelsen sin og gått inn i høytlønnende yrker. La oss enkelt og greit kalle denne gruppen Unge Lovende.

Tilsvarende betraktninger ble brukt for å navngi segment Student (1) og Midt i Livet (2).

Vi kan berike grunnlagsdataene våre ved å utlede en segmentvariabel slik at hver enkelt besøkende blir plassert i nøyaktig et av de fire segmentene. Hvor kult er ikke dette: med noen få tastetrykk har vi kollapset et tredimensjonalt rom (alder, inntekt og utdannelse) til enkle segmenter som egner seg til både oppfølgning og visualisering.

Til slutt: En kombinasjon
Nå har vi altså beriket dataene våre med informasjon som ikke var der i utgangspunktet, gjennom at de besøkende har blitt tildelt både et segment og en kjøpssannsynlighet.

Figuren over viser at den observerte kjøpsraten varierer betraktelig på tvers av segmentene, noe som indikerer av segmentvariabelen kan være en ny og nyttig forklaringsvariabel i regresjonsmodellen vår. Nær 38 % av de besøkende i Unge Lovende har kjøpt produktet, mens tilsvarende tall for Midt i Livet er på om lag 3 %.

Et alternativt bruk av segmentene er å lage separate regresjonsmodeller per segment, i stedet for å bruke dem som forklaringsvariabler. Motivasjonen bak den siste fremgangsmåten er igjen å legge til rette for god kommunikasjon ved å beholde fokuset på segmentene. Ved å gjøre dette kan man formidle statistiske funn ved å presentere dem i en kontekst som er gjenkjennbar i andre deler av organisasjonen. Vi gjemmer ikke bort segmentene i regresjonsmodellen, men bruker heller regresjonsmodellen til å berike segmentene.

Figuren over visualiserer resultatet av å kjøre regresjonsmodellen vår mot hvert av de fire segmentene. Til eksempel kan vi se at for Pensjonister så er kun variabelen TeknologiInteresse signifikant forskjellig fra null (-gitt ved fargen grønn), mens for Unge Lovende og Midt i livet så er det kun variablene for tidligere klagesak og bebyggelse som ikke er signifikant (-gitt med fargen blå). R-kvadratverdien for hvert segment, gitt ved søylediagrammet, indikerer at vi har bedre forklaringsevne blant Pensjonister sammenlignet med Studenter.

Her er det mange potensielle oppfølgingsspørsmål, men det som er fint er hvor naturlig de kan falle ut av figuren. Hvorfor er det slik at reklame-variablene ser ut til å ikke ha noen signifikans i modellen blant Pensjonister, mens de er viktige i alle andre segmenter? Kan det tyde på at vi kan bli flinkere til å tilpasse et reklame-budskap mot denne gruppen.

Oppsummering
La oss stoppe der, det er en myriade tilnærminger for å analysere disse dataene og her har vi bare skrapt i overflaten og vist en arbeidsflyt. Men likevel, her er en liten oppsummering av hva vi har gjort, for det er i bunn og grunn ganske mye! Det siste kan være lett å glemme nå som moderne analyseverktøy gjør det stadig enklere og raskere for oss å kjøre analyser.

  • Vi har beriket dataene med en regresjonsmodell. Denne modellen kan tilordne kjøpssannsynligheter, samt belyse hvorvidt sammenhengene vi ser skyldes tilfeldigheter eller om det er et uttrykk for samvariasjon mellom variabler som forteller oss noe viktig om de besøkende.
  • Vi har utført datadrevet segmentering, noe som i stor grad kan bidra til å forenkle komplekse korrelasjoner i multidimensjonale rom, til endimensjonale gruppevariabler. I dette innlegget gikk vi fra et tredimensjonalt rom til en segmentvariabel, men det er ingenting som står i veien for å segmentere betraktelig mer avanserte kundestrukturer!
  • Til sist kombinerte vi regresjonsmodellen og segmenteringen for å kunne rette fokuset mot noen funn som i utgangspunktet kan være vanskelig å se.

Poenget med denne øvelsen er å repetere at finnes det data, så finnes det verktøy og tilnærminger for datadrevet analyse. Verktøyenes tilgjengelighet (-skyløsninger etableres på minutter), bedre arbeidsflyt og god støtte for ikke-spesialister gjør terskelen for å starte mye lavere. Eller mer presist: Det er ingen grunn til å vente med å lage rapporter om fremtiden!

 

About Sverre Thommesen

Sverre Thommesen er SAS-konsulent og har arbeidet med analytisk CRM og visualisering hos Sparebank1 SMN før han begynte i NextBridge. Han har sivilingeniørutdanning fra NTNU og EPFL (Sveits) innen industriell matematikk og statistikk. Han har jobbet med choice-modellering (modeller for kundeadferd) og levetidsanalyse (LTV, Kaplan-Meier m.m).