Voor het derde jaar op rij namen teams van Positive Thinking Company Germany deel aan de Hackathon georganiseerd door onze partner SAS. Deze deelname wordt gekenmerkt door de keuze van een belangrijk humanitair onderwerp, het bouwen van een end-to-end dataproduct met als doel elk individu beter te informeren over de milieurisico’s waarmee ze worden geconfronteerd, en de manier om zichzelf te beschermen met microverzekeringen, en een overwinning in de categorie Machine Learning. Alles wat je moet weten staat in dit artikel.
The 2022 SAS Hackathon
In overeenstemming met de SAS-kernwaarden, wil de SAS Hackathon deelnemers wereldwijd inspireren om nieuwsgierig, gepassioneerd en verantwoordelijk te zijn. Dit jaar namen zeventig gekwalificeerde teams van over de hele wereld deel aan het evenement in maart van dit jaar. Elk team had toegang tot een SAS-mentor, een leerportaal en de mogelijkheid om moderne technieken uit te proberen, zoals machine learning, natuurlijke taalverwerking, computervisie, datavisualisatie en IoT op SAS Viya, mogelijk gemaakt door Microsoft Azure.
Voor hun derde opeenvolgende deelname koos ons internationale team (uit Duitsland, België en Luxemburg) van datawetenschappers ervoor om een duurzaam en humanitair onderwerp te behandelen waar ze veel om geven: het bouwen van een end-to-end dataproduct gericht op bewustmaking en het helpen van individuen in India om hun klimaatgerelateerde risico’s te beoordelen, terwijl microverzekeringen in staat worden gesteld bijzonder kwetsbare mensen te identificeren en contact met hen op te nemen met de benodigde dekking.
We weten allemaal dat technologie ook kan en moet worden gebruikt voor humanitaire en duurzame projecten. Dit project, dat in slechts enkele weken is voltooid, is het bewijs dat technologie met de juiste investering, de juiste kennis en de juiste inzet de wereld kan verbeteren.
Het uiteindelijke doel van de SAS Hackathon is om scherpe geesten met verschillende achtergronden samen te brengen om een commercieel levensvatbare oplossing te creëren voor echte problemen. Het is een leerervaring, een incubator en een proef om wereldveranderende ideeën op de markt te brengen.
– Einar Halvorsen, Global Hackathon Lead at SAS
Onze use case: Kwetsbare boeren en duurzaamheid centraal stellen
De verzekeringsgegevens die we hebben gebruikt, zijn aangeleverd door SAS en zijn echte gegevens van een microverzekering voor tractorvoertuigen gericht op boeren met een laag inkomen in India. Onze aanpak kan echter worden veralgemeend naar andere verzekeringen buiten tractoren en andere regio’s in de wereld.
De dataset bevat 28 geanonimiseerde parameters en een binaire churn-variabele. Het dekt 763.000 klanten, van die 65% heeft de verzekering opgezegd. De meeste klanten zijn van middelbare leeftijd en bevinden zich in 25 staten in India.
Naast de verzekeringsgegevens zijn we vooral geïnteresseerd in de effecten van klimaatverandering op het schaderisico. Om de gegeven dataset te verrijken, hebben we openbaar beschikbare gegevens over verzekeringsschade en meteorologische gegevens en klimaatveranderingsvoorspellingen voor de jaren 1950 – 2100 toegevoegd.
Deze dataset diende om een model te trainen in SAS Model Studio, ontworpen om verloopgebeurtenissen te voorspellen. Churn-analyse is het proces waarbij gegevens worden gebruikt om te begrijpen waarom klanten zijn gestopt met het gebruik van een dienst, in ons geval: verzekering. We identificeren kenmerken die klanten bepalen die de verzekering waarschijnlijk zullen opzeggen en voorspellen de churnkans voor elke klant.
Na het draaien van verschillende Machine Learning modellen (incl. AutoML) is het beste model gekozen. Het kampioen Gradient Boosting-model presteerde beter dan onder andere de random forest- en logistische regressiemodellen en behaalde een F1-score van meer dan 80% voor het voorspellen van de kans op klantverloop per klant.
Met behulp van modelinterpretatiefuncties konden we de belangrijkste factoren bepalen die leiden tot klantverloop en het beste model voor ons geval.
De variabelen met de grootste impact op het opzeggingspercentage zijn no-claimbonus, woonstaat, leeftijd van het contract en de leeftijd van het voertuig. De factoren die tot klantverloop hebben geleid, werden gebruikt om klanten te identificeren en aan te spreken door hen hun individuele klimaatrisico’s te laten zien.
Dashboard Afbeelding 1 – Verkennende tab Verzekeringsgegevens:
Deze interactieve datavisualisatie informeert over de belangrijkste parameters van de dataset. Het is bedoeld om ontwikkelaars en verzekeringen te informeren en maakt het mogelijk om onderlinge afhankelijkheden te onderzoeken.
Dashboard Figuur 2 – het tabblad Klimaatkaart:
Op basis van historische gegevens worden projecties van de belangrijkste klimaatindicatoren geïllustreerd in de tijd en in de geografische regio. Dit interactieve dashboard is gebouwd voor zowel verzekeringen als klanten en maakt het mogelijk om klimaatontwikkelingen, zoals temperatuur en neerslag, te verkennen. Bovendien zijn het relatieve risico per staat en de verwachte toename van klimaatgerelateerde schade geaggregeerde indices die helpen om individuen te informeren over hun specifieke risico.
Dashboard Afbeelding 3 – het tabblad Persoonlijke risicobeoordeling:
De (potentiële) klant wordt gevraagd om persoonlijke informatie over zijn socio-economische situatie te verstrekken, op basis waarvan geïndividualiseerde informatie wordt verstrekt. Zoals de verwachte veranderingen in het klimaat en de bijbehorende risico’s van de woonstaat, maar ook de persoonlijke relatieve risicoscore. Dit laatste geeft een indicatie van het individuele risicopotentieel in vergelijking met de hele bevolking, wat helpt om de noodzaak om verzekerd te zijn te begrijpen voor de meest kwetsbaren. Ten slotte geeft de persoonlijke churn-kans aan hoe waarschijnlijk het is dat een klant een verzekering opzegt op basis van zijn status en is bedoeld om het bewustzijn van dit risico te vergroten. Er worden gepersonaliseerde berichten getoond voor mensen met een hoog risico en die zijn bedoeld om hen te helpen verzekerd te zijn.
Met behulp van de datagestuurde inhoudsfunctie in SAS VA hebben we een op JavaScript gebaseerd interactief invoerformulier geïmplementeerd met een vervolgkeuzemenu voor elke vraag voor de klant. Er kunnen extra velden verschijnen afhankelijk van de invoer van de vorige vragen. Deze informatie over het sociaal-economische profiel van de persoon werd in ons model ingevoerd en samen met weer-, klimaat- en geografische gegevens werden gebruikt om een persoonlijke relatieve risicoscore en de verwachte schadetoename in dollars te berekenen. Dit werd geïmplementeerd door de invoergegevens door te geven aan een python-script waar een model de respectieve scores berekent en het resultaat weer in SAS laadt.
Door deze use case tot leven te brengen, kunnen we de veerkracht van blootgestelde boeren in India tegen klimaatverandering verbeteren.
De SAS Hackathon-ervaring van binnenuit
Deelnemen aan een Hackathon als deze is een geweldige kans voor onze medewerkers om hun geavanceerde kennis en vaardigheden op het gebied van data en analyse in de praktijk te brengen en te werken aan nieuwe soorten use cases. Het is natuurlijk een mooie kans om met elkaar samen te werken en te ontdekken hoe ver ze kunnen gaan door ergens met hart en ziel voor te gaan.
“Het was heel spannend om aan dit evenement deel te nemen. We hadden een geweldige tijd, we waren soms erg gestrest, maar wat een werk volbracht! Geweldig teamwerk”
– Igor Shapiro, SAS Expert
“Dit was een leuke en dankbare taak! Elk lid kan creatief zijn, evolueren en veel leren. We brengen ons motto echt in de praktijk door samen te werken aan een betere wereld!”
– Lars Krieger, PhD SAS Expert
Namens de hele Positive Thinking Company vieren we de deelname van ons team aan deze Hackathon, hun overwinning in de categorie Machine Learning en het aangaan van de uitdaging om een duurzame use case te behandelen. Initiatieven als deze doen ons meer dan ooit geloven dat samenwerking de wereld verbetert.