1. Het concept van gegevensmaskering
Gegevensmaskering, ook wel datamasking genoemd, is een technische methode om gevoelige gegevens zoals mobiele telefoonnummers, bankpasnummers en andere informatie te converteren, te wijzigen of te verbergen, mits er specifieke maskeringsregels en -richtlijnen zijn vastgesteld. Deze techniek wordt voornamelijk gebruikt om te voorkomen dat gevoelige gegevens rechtstreeks in onbetrouwbare omgevingen terechtkomen.
Principe van datamaskering: Datamaskering moet de oorspronkelijke kenmerken van de gegevens, de bedrijfsregels en de relevantie van de gegevens behouden, zodat de daaropvolgende ontwikkeling, testen en data-analyse niet door de maskering worden beïnvloed. Zorg voor consistentie en validiteit van de gegevens vóór en na de maskering.
2. Classificatie van gegevensmaskering
Gegevensmaskering kan worden onderverdeeld in statische gegevensmaskering (SDM) en dynamische gegevensmaskering (DDM).
Statische gegevensmaskering (SDM)Statische datamasking vereist de oprichting van een nieuwe, niet-productieomgeving met een aparte database, die is afgeschermd van de productieomgeving. Gevoelige gegevens worden uit de productiedatabase gehaald en vervolgens opgeslagen in de niet-productiedatabase. Op deze manier worden de geanonimiseerde gegevens geïsoleerd van de productieomgeving, wat voldoet aan de bedrijfsbehoeften en de veiligheid van de productiedata waarborgt.
Dynamische gegevensmaskering (DDM)Het wordt over het algemeen in de productieomgeving gebruikt om gevoelige gegevens in realtime te anonimiseren. Soms zijn verschillende niveaus van maskering nodig om dezelfde gevoelige gegevens in verschillende situaties te kunnen lezen. Verschillende rollen en machtigingen kunnen bijvoorbeeld verschillende maskeringsschema's implementeren.
Toepassing voor het rapporteren van gegevens en het maskeren van gegevensproducten
Dergelijke scenario's omvatten met name interne producten voor gegevensmonitoring of billboards, externe servicegegevensproducten en rapporten gebaseerd op data-analyse, zoals bedrijfsrapporten en projectevaluaties.
3. Oplossing voor gegevensmaskering
Gangbare methoden voor gegevensmaskering zijn onder andere: ongeldigverklaring, willekeurige waarde, gegevensvervanging, symmetrische encryptie, gemiddelde waarde, verschuiving en afronding, enzovoort.
OngeldigverklaringInvalidatie verwijst naar het versleutelen, inkorten of verbergen van gevoelige gegevens. Bij deze methode worden de werkelijke gegevens meestal vervangen door speciale symbolen (zoals *). De bewerking is eenvoudig, maar gebruikers kunnen de oorspronkelijke opmaak van de gegevens niet achterhalen, wat gevolgen kan hebben voor latere toepassingen van de gegevens.
willekeurige waardeDe term 'willekeurige waarde' verwijst naar het willekeurig vervangen van gevoelige gegevens (cijfers vervangen getallen, letters vervangen letters en tekens vervangen tekens). Deze maskeringsmethode zorgt ervoor dat de opmaak van gevoelige gegevens tot op zekere hoogte behouden blijft en vergemakkelijkt de latere verwerking ervan. Maskeringswoordenboeken kunnen nodig zijn voor bepaalde betekenisvolle woorden, zoals namen van personen en plaatsen.
GegevensvervangingGegevensvervanging is vergelijkbaar met het maskeren van null- en willekeurige waarden, met dit verschil dat in plaats van speciale tekens of willekeurige waarden, de maskerende gegevens worden vervangen door een specifieke waarde.
Symmetrische encryptieSymmetrische encryptie is een speciale, omkeerbare maskeringsmethode. Het versleutelt gevoelige gegevens met behulp van encryptiesleutels en algoritmen. De versleutelde tekst is qua logische structuur consistent met de oorspronkelijke gegevens.
GemiddeldHet gemiddelde schema wordt vaak gebruikt in statistische scenario's. Voor numerieke gegevens berekenen we eerst het gemiddelde en verdelen we vervolgens de genormaliseerde waarden willekeurig rond het gemiddelde, waardoor de som van de gegevens constant blijft.
Verschuiving en afrondingDeze methode wijzigt de digitale gegevens door middel van een willekeurige verschuiving. De afronding van de offset zorgt voor een benaderende authenticiteit van het bereik, terwijl de veiligheid van de gegevens behouden blijft. Dit resultaat benadert de werkelijke gegevens beter dan eerdere methoden en is van groot belang voor big data-analyse.
Het aanbevolen modelML-NPB-5660" voor de gegevensmaskering
4. Veelgebruikte datamaskeringstechnieken
(1). Statistische technieken
Gegevenssteekproeven en gegevensaggregatie
- Gegevensselectie: De analyse en evaluatie van de oorspronkelijke dataset door een representatieve subset van de dataset te selecteren, is een belangrijke methode om de effectiviteit van anonimiseringstechnieken te verbeteren.
- Gegevensaggregatie: Als een verzameling statistische technieken (zoals optellen, tellen, middelen, maximum en minimum) toegepast op kenmerken in microdata, is het resultaat representatief voor alle records in de oorspronkelijke dataset.
(2). Cryptografie
Cryptografie is een veelgebruikte methode om desensibilisatie te verminderen of de effectiviteit ervan te vergroten. Verschillende soorten encryptiealgoritmen kunnen verschillende desensibilisatie-effecten bereiken.
- Deterministische encryptie: Een niet-willekeurige symmetrische encryptie. Deze verwerkt doorgaans ID-gegevens en kan de versleutelde tekst indien nodig ontsleutelen en terugzetten naar de oorspronkelijke ID, maar de sleutel moet wel goed beveiligd zijn.
- Onomkeerbare versleuteling: De hashfunctie wordt gebruikt om gegevens te verwerken, meestal voor ID-gegevens. Deze gegevens kunnen niet direct worden ontsleuteld en de relatie tussen de gegevens moet worden bewaard. Bovendien kan er door de eigenschappen van de hashfunctie een gegevensbotsing optreden.
- Homomorfe encryptie: Hierbij wordt gebruikgemaakt van een homomorf algoritme voor de versleutelde tekst. Het kenmerk hiervan is dat het resultaat van de versleutelde tekstbewerking na decryptie hetzelfde is als dat van de onversleutelde tekstbewerking. Daarom wordt het vaak gebruikt voor de verwerking van numerieke velden, maar vanwege prestatieoverwegingen wordt het niet veel toegepast.
(3). Systeemtechnologie
De onderdrukkingstechnologie verwijdert of schermt gegevens af die niet voldoen aan de privacybeschermingseisen, maar publiceert deze niet.
- Maskering: dit verwijst naar de meest voorkomende methode om de waarde van een attribuut te maskeren, zoals het nummer van de tegenstander, het plaatsen van een asterisk op de identiteitskaart of het afkorten van het adres.
- Lokale onderdrukking: verwijst naar het proces van het verwijderen van specifieke attribuutwaarden (kolommen), het verwijderen van niet-essentiële gegevensvelden;
- Recordonderdrukking: verwijst naar het proces van het verwijderen van specifieke records (rijen), het verwijderen van niet-essentiële gegevensrecords.
(4). Pseudoniemtechnologie
Pseudomanning is een techniek voor het anonimiseren van gegevens waarbij een pseudoniem wordt gebruikt ter vervanging van een directe identificator (of andere gevoelige identificator). Pseudoniemtechnieken creëren unieke identificatoren voor elk individueel informatiesubject, in plaats van directe of gevoelige identificatoren.
Het kan onafhankelijk willekeurige waarden genereren die overeenkomen met de oorspronkelijke ID, de mappingtabel opslaan en de toegang tot de mappingtabel strikt controleren.
- Je kunt ook encryptie gebruiken om pseudoniemen te genereren, maar je moet de decryptiesleutel wel goed bewaren;
Deze technologie wordt veel gebruikt in situaties met een groot aantal onafhankelijke data-gebruikers, zoals OpenID in een open platformscenario, waar verschillende ontwikkelaars verschillende OpenID's verkrijgen voor dezelfde gebruiker.
(5). Generalisatietechnieken
Generalisatietechnieken verwijzen naar anonimiseringstechnieken die de granulariteit van geselecteerde attributen in een dataset verminderen en een meer algemene en abstracte beschrijving van de data opleveren. Generalisatietechnologie is eenvoudig te implementeren en kan de authenticiteit van gegevens op recordniveau beschermen. Het wordt veelvuldig gebruikt in dataproducten of datarapporten.
- Afronding: hierbij wordt een afrondingsgrondslag gekozen voor het geselecteerde kenmerk, zoals naar boven of naar beneden afronden, wat resulteert in de getallen 100, 500, 1K en 10K.
- Codeertechnieken voor boven- en ondergrens: Vervang waarden boven (of onder) de drempelwaarde door een drempelwaarde die het bovenste (of onderste) niveau vertegenwoordigt, wat resulteert in "boven X" of "onder X".
(6). Randomisatietechnieken
Randomisatie is een vorm van anonimiseringstechniek waarbij de waarde van een attribuut wordt gewijzigd door middel van randomisatie, zodat de waarde na randomisatie verschilt van de oorspronkelijke, werkelijke waarde. Dit proces vermindert de mogelijkheid voor een aanvaller om een attribuutwaarde af te leiden uit andere attribuutwaarden in hetzelfde gegevensrecord, maar beïnvloedt de authenticiteit van de resulterende gegevens. Dit is met name het geval bij testgegevens in een productieomgeving.
Geplaatst op: 27 september 2022



