Livstidsverdi og levetidsanalyse

10 min read

En kundes CLV, eller livstidsverdi på norsk, er nåverdien av hele det fremtidige kundeforholdet. I en CLV-analyse estimerer vi denne nåverdien forhver enkelt kunde, og får samtidig innsikt i hvilke faktorer som driver kundeverdien. Prosessen med å beregne CLV består av mange steg, som krever både forretningsinnsikt, kundedata og statistiske metoder.

oystein-sorensen

Øystein Sørensen, Data Scientist,
NextBridge Analytics

 

 

 

 

Resultatet av en CLV-analyse kan hjelpe til å besvare spørsmål som mange salg- og markedsavdelinger stiller seg:

  • Hvilke kunder bør vi bruke mest ressurser på å beholde?
    • Er det lønnsomt å redusere prisen for å beholde enkelte kunder?
    • Hva slags kundedialog er mest effektivt for å hindre avgang?
  • Hvilke kunder har potensial for å utvikles, slik at de blir mer lønnsomme?
  • Hvor mye bør vi bruke på å rekruttere nye kunder (cost of aquisition)?
    • Kan salgskanalen fortelle noe om kundeverdien?
  • Hva er verdien av hele kundebasen?
    • Gupta og Lehmann argumenterer i Journal of Relationship Marketing for CLV som et verktøy for verdsetting av selskaper (Gupta and Lehmann 2006).
  • Hva er effektene av mulige framtidige hendelser?
    • Hva om økt konkurranse presser prisene ned, slik at lønnsomheten per kunde synker – hva har dette å si for livstidsverdien?
    • Hva er effekten av en generell økning eller reduksjon i avgangsraten, som følge av endret kjøpekraft eller preferanser blant kundene?

Definisjonen av CLV

For å beregne en kundes livstidsverdi trenger vi å estimere hvor lenge kundeforholdet kommer til å vare, eller tilsvarende, kundens sannsynlighet for avgang i løpet av et gitt tidsintervall (f.eks. måned, kvartal eller år, avhengig av bransje). For eksemplets skyld skal vi bruke måneder som tidsintervall i denne artikkelen. La oss kalle avgangsraten t måneder fra nå for r_t.

Vi trenger også netto kunderesultat, altså hvor mye vi tjener på kundeforholdet i løpet av en måned. Typisk er dette summen av alle inntekter kunden generer minus alle variable kostnader. La oss kalle kunderesultatet t måneder fra nå for P_t.

Til slutt, siden ei krone i dag er mer verdt enn ei krone i morgen, trenger trenger vi en diskonteringsrente. Å sette denne er en vitenskap i seg selv, men ikke hovedfokus i dette innlegget. Vi kaller den årlige diskonteringsrenta for d, slik at den månedlige diskonteringsrenta blir d/12.

Når alt dette er på plass, beregner vi livstidsverdien til kunden med formelen:


clv7

Denne formelen summerer netto kunderesultat over nn måneder framover, men tar samtidig hensyn til faren for avgang og det faktum at inntekter langt fram i tid har lavere nåverdi enn inntekter i dag. For en detaljert diskusjon om CLV, samt alternative beregningsmåter, anbefales artikkelen til Berger og Nasr (Berger and Nasr 1998).

Levetidsanalyse

En første hunch for å beregne avgangssannsynligheten rtrt vil muligens være å finne ut hvor stor andel av kundene som historisk har gått til avgang hver måned. Har man noen store kundesegmenter, f.eks. basert på demografiske data og produktsammensetning, kan man på denne måten estimere avgangssannsynligheten per segment.

Denne framgangsmåten er ikke nødvendigvis feil, men blir ofte en overforenkling. Noen av utfordringene knyttet til å bruke gjennomsnittlig levetid er:

  • Man kan beregne avgangssannsynligheten for hele kundebasen, eller gjøre den mer detaljert ved å dele kundene inn i segmenter. En betingelse for å gjøre dette er at segmentene er tilstrekkelig store, slik at tilstrekkelig mange i segmentet allerede har gått til avgang. Prediksjoner på kundenivå, eller med veldig små segmenter, er ikke mulig.
  • For alle kundene som ennå ikke har gått til avgang, vet vi bare at kundeforholdet varer minst like lenge som det har vart fram til nå. Ved å kun se på andelen kunder som går til avgang hver måned, eller tilsvarende å se på gjennomsnittlig varighet av kundeforhold, ignorerer vi alle kundeforholdene som ennå ikke har gått til avgang.
  • Spesifikke hendelser hos kunden gi et forvarsel om en avgang, som f.eks. endring i produktsammensetning eller bruksatferd. Dette vil ikke fanges opp av en slik analyse.

Målet med analysen bør være å skape størst mulig verdi ut av virksomhetens kundedata, og derfor bør vi ta steget forbi bruk av historiske avgangsrater eller levetider, og heller ta i bruk prediksjonsmodeller.

Mange virksomheter har i dag mye historiske data om kunden, som kan brukes til å lage modellere sammenhengen mellom kundens egenskaper og kundens avgangsrisiko. Vi kan dermed predikere avganssannsynligheten for hver enkelt kunde. Modellene kan også avdekke hendelser som typisk skjer i forkant av en avgang, som f.eks. endringer i kundeatferd, slik at disse kan brukes som varsler om en fare for avgang.

Levetidsanalyse skiller seg andre områder innen statistikk og machine learning ved at dataene er sensurert. Sensurering betyr her at for alle kundeforholdene som fortsatt ikke har gått til avgang, så vet vi faktisk ikke varigheten av kundeforholdet. I tillegg til sensurering, vil forklaringsvariablene typisk forandre seg over tid. Kunder endrer stadig vekk ting som adresse, atferd eller produktsammensetning, og derfor levetidsanalyse krever at holder orden på disse endringene, slik at vi vet kundens data i dag, men også hvordan kundens data så ut i tidligere perioder.

 

clv

Dataene i levetidsanalyse skiller seg fra data brukt i f.eks. klassifikasjonsproblemer. Hver kunde har typisk én rad med data per måned, og en del av observasjonene er sensurert.

Kaplan-Meier-estimatoren

Kanskje den mest brukte metoden innenfor levetidsanalyse er Kaplan-Meier-estimatoren. Denne estimerer hvor stor andel av kundene i et segment som fortsatt er bevart etter t måneder, kalt overlevelsesfunksjonen S(t). Kaplan-Meier-estimatoren kan ikke gi én estimert levetid per kunde, men er avhengig av at vi definerer segmenter. Fordelen med denne framfor kun å bruke historiske avgangsrater er at

  • Kaplan-Meier-estimatoren tar hensyn til at dataene er sensurert, og gir derfor avgangsrisikoer som er statistisk korrekte.
  • Dersom avgangsrisikoen endrer seg med kundeforholdets varighet, f.eks. ved at de som har vært kunder lenge er mer lojale, vil Kaplan-Meier-estimatoren fange opp dette. Denne lojalitetseffekten ser vi f.eks. i den grønne kurven i figuren nedenfor.
  • Vi får direkte tilgang til konfidensintervall for avgangsrisikoen, og kan teste om forskjellen i avgangsrisiko mellom to segmenter er statistisk signifikant.

Figuren nedenfor illustrerer Kaplan-Meier-estimat for to ulike kundesegmenter. Eksemplene i denne artikkelen er generert i R, men også SAS har implementert alle de viktige metodene innenfor levetidsanalyse.

clv2

Kaplan-Meier-estimat av andelen kunder i hvert segment som fortsatt har et kundeforhold etter antall måneder som er gitt på x-aksen. De stiplede linjene viser 95 % konfidensintervaller.

Den årvåkne leser har kanskje merket seg at Kaplan-Meier-estimatoren estimerer andelen S(t) som fortsatt er kunde etter tt måneder. Det vi trenger i CLV-formelen er derimot avgangsrisikoen rtrt etter t måneder, som vi kan finne ved å derivere S(t).

Cox-regresjon

Cox’ proportional hazards model er en prediksjonsmodell for levetidsdata som kan estimere avgangsrisikoen rtrt individuelt for hver enkelt kunde. Modellen ble introdusert av Sir David Cox i 1972, og har vært brukt svært mye innenfor medisin (hvilke faktorer påvirker individers levetid). Cox-modellen er også velegnet til å predikere levetid av kundeforhold: Boken Analytics in a Big Data World av analytics-professoren Bart Baesens(Baesens 2014) inneholder et helt kapittel om levetidsanalyse, og et use case innen telekom er beskrevet av (Wong 2011).

Som navnet tilsier, er premisset i en Cox-modell at hver kundes hasard er proporsjonal med en baseline-hasarden. Hasarden h(t) er sannsynligheten for avgang i måned t, gitt at kundeforholdet har vart helt fram til måned t-1, altså en betinget sannsynlighet. Hvis x representerer en vektor med alle dataene til en kunde, er hasarden til kunden gitt ved

h(t) = h0(t) exp(x’ β)

Regresjonskoeffisientene β estimeres ved hjelp av historiske data for å gi best mulig modelltilpasning. Baseline-hasarden h0(t) kan sammenlignes med skjæringspunktet i en vanlig lineær regresjon. I mange tilfeller vil vi ha mye kundedata, slik at x består av variabler som alder, adresse, brukshistorikk, atferd, mottatt kundekommunikasjon og produktsammensetning. Dette gir oss muligheten til å beregne én hasard per kunde, som tar hensyn til alle dataene til kunden. Fra hasarden kan vi så regne ut avgangsriskoen r_t. I tillegg til rene prediksjoner, kan også Cox-modellen gi oss nyttig innsikt, som f.eks.

  • Hva skjer med avgangsrisikoen etter at kunden har mottatt en e-postutsendelse?
  • Hva skjer med avgangsrisikoen når kunden nylig har byttet adresse?
  • Hvilke produkter indikerer høy eller lav avgangsrisiko?

Basert på dette, kan vi forstå sammenhenger som ikke ville kommet fram om vi kun så på gjennomsnittlig avgangsrate i segmenter. I tillegg hjelper det oss å foreslå tiltak som kan gjøre kundene mer lojale, såkalt prescriptive analytics.

Machine learning-metoder som boosted trees og splines kan brukes for å gjøre Cox-modellen enda mer nøyaktig. Slike metoder øker samtidig risikoen for overtilpasning, og dette gjør arbeidet med tilpasning av Cox-modeller til en krevende øvelse.

Figuren under viser hva som typisk er resultatet av en Cox-regresjon. Her har vi beregnet en forventet levetid per kunde.

clv3

Bruk i praksis

Nå vi har beregnet forventet levetid og har månedlig nettoinntekt per kunde, kan vi plotte disse to mot hverandre. Dette er vist i figuren under.  clv5

Basert på denne oversikten, kan vi raskt få oversikt over ulike kundegrupper. I figuren nedenfor viser vi et eksempel på operativ bruk av kunderesultat og forventet levetid.

  • Øverst til venstre ser vi lønnsomme kunder med lav forventet levetid. Dette er typisk kunder som man ønsker å påvirke med lojalitetsskapende aktiviteter, og dermed flytte lengre til høyre i figuren.
  • Øverst til høyre ser vi lønnsomme kunder med lang forventet levetid. Dette er gullkundene, som vi selvsagt ønsker å ta vare på.
  • Nederst til høyre ligger de ulønnsomme kundene med lang forventet levetid. I dette eksemplet taper vi penger på å ha disse kundene. Disse kundene ønsker vi å gjøre mer lønnsomme ved å flytte dem oppover i figuren, kanskje ved å forsøke å krysselge lønnsomme produkter, eller å øke prisen.
  • Kundene nederst til venstre er ulønnsomme og illojale. Også dette kan være en gruppe der man kan forsøke på kryssalg av mer lønnsomme produkter. Alternativt kan det være lønnsom å la disse kundene gå til avgang.

clv6

I denne artikkelen har jeg fokusert mest på beregningen av levetid, og tatt det for gitt at vi har tilgang til nettoinntekten, eller kunderesultatet, per kunde. Å finne dette krever oversikt over inntekter og kostnader knyttet til kundens produkter, og også her står man overfor mange valg når det gjelder hvor detaljert modellen skal være.

Det finnes selvsagt også andre måter å regne ut levetiden og livstidsverdien på, men det jeg har presentert her er antagelig det mest vanlige.

Hilsen Øystein

Referanser

Baesens, Bart. 2014. Analytics in a Big Data World. Wiley.

Berger, Paul D., and Nada I. Nasr. 1998. “Customer Lifetime Value: Marking Models and Applications.” Journal of Interactive Marketing 12 (1).

Gupta, Sunil, and Donald R. Lehmann. 2006. “Customer Lifetime Value and Firm Valuation.” Journal of Relationship Marketing 5 (2-3): 87–110.

Wong, Ken Kwong-Kay. 2011. “Using Cox Regression to Model Customer Time to Churn in the Wireless Telecommunications Industry.” Journal of Targeting, Measurement and Analysis for Marketing 19 (1): 37–43.

Om Øystein:

Øystein er en data scientist med lidenskap for å benytte machine learning til å løse reelle forretningsutfordringer. Han har en mastergrad innen Environmental Physics and Renewable Energy og en PhD innen Biostatistics. I tillegg til PhD-jobbingen har Øystein jobbet to år som data scientist i Storebrand sin markedsavdeling. Øystein er junior verdensmester i orientering, og gir seg ikke før kartet stemmer med terrenget! 
Teknologier: Hadoop, Microsoft Azure Cortana Intelligence Suite, Microsoft SQL Server,Python, R, SAS
Roller: Analytiker/data scientist, Utvikler

About Arne Rosness

Arne er redaktør av BI-blogg.