Data-challenge maatschappelijke spanning

Waar en wanneer kunnen maatschappelijke spanningen leiden tot escalaties?Het Ministerie van Binnenlandse Zaken en Koninkrijksrelaties vroeg DUiDT deze cases binnen de door haar georganiseerde Data Challenge te begeleiden. Andere cases richtte de aandacht op o.a. duurzame inkoop, bezettingsgraad van kantoorruimtes, en verzuim. De casus ‘maatschappelijke spanningen’ had als doel om meer zicht te krijgen op de beschikbaarheid en bruikbaarheid van datasets (open data en social media) voor het verklaren en voorspellen van escalaties van maatschappelijke spanningen op laag-geografisch niveau (wijken). Daaraan gekoppeld was het doel om zicht te krijgen op de mogelijkheden om andersoortige datasets (open data en social media) te koppelen op laag-geografisch niveau (wijken) en deze te gebruiken als basis voor een voorspellende tool voor gemeenten. Uiteindelijk moest de challenge een aantal zinvolle en kansrijke vervolgstappen identificeren ten behoeve van het ontwikkelen van een tool voor gemeenten.

Voedingsbodem, Vonk en Voorspeller
De data challenge omvatte drie deelprojecten die vooraf, tijdens en na afloop van een van de drie bijeenkomsten werden verkend. Tijdens het deelproject “De Voedingsbodem” ging de aandacht uit naar de vraag welke open datasets beschikbaar zijn met indicatoren die vanuit de theorie gerelateerd worden aan maatschappelijke spanningen én informatie bevatten op laag-geografisch niveau die te ontsluiten is via een digitale landkaart. Vervolgens is in het deelproject “De Vonk” gekeken naar hoe hoe online interacties rondom maatschappelijk spanningsvolle issues zijn te verzamelen en analyseren op laag-geografisch niveau (wijk/buurt) die te ontsluiten is via een digitale landkaart. Tot slot is in het deelproject “De voorspeller” gekeken naar de vraag hoe open data bronnen en online interacties op wijkniveau zijn te koppelen en te ontsluiten via een digitale kaart en of deze koppeling een beter dreigingsbeeld van nieuwe escalaties biedt?

De casus ‘maatschappelijke spanningen’ leverde veel inzicht op. Hieronder beschrijven we de belangrijkste daarvan per deelproject, aangevuld met enkele inzichten rondom de vereiste data-vaardigheden en het privacy-aspect.

Inzichten
Vooral het CBS heeft uiteenlopende datasets over demografie en sociaal-economische status op laag-georgafisch niveau (wijk/buurt) beschikbaar als open data bestanden. Dat geldt niet voor datasets over zorggebruik/gezondheid. Datasets over beleving/onvrede en sociaal kapitaal zijn niet, nauwelijks of alleen als steekproef-data beschikbaar op laag-geografisch niveau.

Via online monitoringstools is een grote hoeveelheid openbare online interacties vanaf 2009 beschikbaar. Zoeken en filteren van de interacties is alleen mogelijk op basis van tekstuele search queries. Deze zijn alleen te filteren op gemeentenaam. CBS-wijkencodes worden daarbij niet gebruikt. GPS-gegevens ontbreken bijna altijd. Geo-codering vindt hoofdzakelijk plaats op basis van plaatsnamen in de berichten en niet op basis van een ‘slimmere’ semantiek i.c.m. machine learning technologie

Het koppelen van datasets is lastig door verschillen in laag-geografisch niveaus en niet systematisch gebruik van de CBS wijkencodes. Doordat belangrijke datasets over beleving, sociaal kapitaal en onvrede ontbreken, is de voorspellende waarde nog weinig betrouwbaar. Bijkomend probleem is dat de invloed van sommige indicatoren en datasets op ‘maatschappelijke spanning’ niet of slechts beperkt onderzocht is.

De vrij beschikbare datasets verschillen in zowel de inhoud, opmaak en het data-format. Het harmoniseren van deze datasets vraagt daarom al vrij snel verdiepte kennis van zowel de datasets zelf alsook vaardigheden om de harmonisering praktisch uit te voeren. Daarnaast geldt dat een zinvolle inhoudelijke analyse van de datasets met online interacties (‘vonk’) een stevig begrip van het maatschappelijk issue (in dit geval maatschappelijke spanningen) een belangrijke voorwaarde blijft.

In de analyse van datasets in beide delen spelen privacy-issues. Zo worden in sommige datasets gegevens weggelaten bij te lage aantallen en zorgt dat vervolgens voor een probleem in de weging. Online interacties zijn alleen analyseerbaar als die in het openbare deel van het internet worden geplaatst. Doordat ze altijd gekoppeld aan de actoren die de interacties plaatsten komen in (netwerk)analyses als vanzelf individuen in beeld.

Vervolgstappen
Naar aanleiding van alle ervaringen en inzichten is tot slot een viertal suggesties voor ‘verkennende’ vervolgstappen gedaan. Dat gaat o.a. om de vraag hoe ook aanvullende gemeentelijke datasets over sociaal kapitaal en onvrede/beleving op wijkniveau kunnen worden benut (wat is beschikbaar, welke kwaliteit , etc.). Daarnaast is het belangrijk om een integraal wegingsmodel te ontwikkelen op basis van aanvullend onderzoek naar o.a. de relatie van indicatoren in die datasets en hun invloed/effect op groei en/of escalatie van maatschappelijke spanningen. Een derde verkenning richt zich op het ontwikkelen van nieuwe analysemogelijkheden van online dynamiek. Het moet mogelijk zijn om interacties te filteren op lager geografisch niveau, op meer dan alleen plaatsnamen (ook op stichtingen, verenigingen, events -> meer semantisch dus), op de herkomst (vanuit of over een wijk), en op type afzender (inwoners of van bezoekers van een wijk). De verkenningen leiden tot een proof of concept die kan worden getoetst op praktische haalbaarheid en inhoudelijke relevantie om (verrijkte) datasets te verzamelen, wegen, en visualiseren.