1. Het concept van datamaskering
Datamaskering wordt ook wel data masking genoemd. Het is een technische methode om gevoelige gegevens, zoals mobiele telefoonnummers, bankpasnummers en andere informatie, te converteren, te wijzigen of te verbergen wanneer we daarvoor regels en beleid hebben opgesteld. Deze techniek wordt voornamelijk gebruikt om te voorkomen dat gevoelige gegevens direct in onbetrouwbare omgevingen worden gebruikt.
Principe van datamaskering: Datamaskering moet de oorspronkelijke datakenmerken, bedrijfsregels en datarelevantie behouden om ervoor te zorgen dat de daaropvolgende ontwikkeling, tests en data-analyse niet worden beïnvloed door maskering. Zorg voor consistentie en validiteit van de data vóór en na maskering.
2. Classificatie van gegevensmaskering
Gegevensmaskering kan worden onderverdeeld in statische gegevensmaskering (SDM) en dynamische gegevensmaskering (DDM).
Statische gegevensmaskering (SDM): Voor statische gegevensmaskering is het opzetten van een nieuwe database in een niet-productieomgeving vereist voor isolatie van de productieomgeving. Gevoelige gegevens worden uit de productiedatabase geëxtraheerd en vervolgens opgeslagen in de niet-productiedatabase. Op deze manier worden de gedesensibiliseerde gegevens geïsoleerd van de productieomgeving, wat voldoet aan de bedrijfsbehoeften en de beveiliging van productiegegevens waarborgt.
Dynamische gegevensmaskering (DDM):Het wordt over het algemeen gebruikt in de productieomgeving om gevoelige gegevens in realtime te desensibiliseren. Soms zijn verschillende niveaus van maskering vereist om dezelfde gevoelige gegevens in verschillende situaties te lezen. Verschillende rollen en rechten kunnen bijvoorbeeld verschillende maskeringsschema's implementeren.
Toepassing voor het rapporteren van gegevens en het maskeren van gegevensproducten
Zulke scenario's omvatten voornamelijk interne producten voor gegevensbewaking of billboards, externe servicegegevensproducten en rapporten op basis van gegevensanalyse, zoals bedrijfsrapporten en projectbeoordelingen.
3. Oplossing voor gegevensmaskering
Veelvoorkomende methoden voor gegevensmaskering zijn onder meer: ongeldigverklaring, willekeurige waarde, gegevensvervanging, symmetrische encryptie, gemiddelde waarde, offset en afronding, etc.
Ongeldigverklaring:Invalideren verwijst naar het versleutelen, afkappen of verbergen van gevoelige gegevens. Hierbij worden echte gegevens meestal vervangen door speciale symbolen (zoals *). De bewerking is eenvoudig, maar gebruikers kunnen de indeling van de oorspronkelijke gegevens niet kennen, wat van invloed kan zijn op latere gegevenstoepassingen.
Willekeurige waarde:De willekeurige waarde verwijst naar de willekeurige vervanging van gevoelige gegevens (cijfers worden vervangen door getallen, letters door letters en tekens door tekens). Deze maskeringsmethode waarborgt de opmaak van gevoelige gegevens tot op zekere hoogte en vergemakkelijkt de latere toepassing ervan. Maskeringswoordenboeken kunnen nodig zijn voor sommige betekenisvolle woorden, zoals namen van personen en plaatsen.
Gegevensvervanging:Het vervangen van gegevens lijkt op het maskeren van nul- en willekeurige waarden. Het verschil is dat in plaats van speciale tekens of willekeurige waarden de maskergegevens worden vervangen door een specifieke waarde.
Symmetrische encryptieSymmetrische encryptie is een speciale omkeerbare maskeringsmethode. Het versleutelt gevoelige gegevens met behulp van encryptiesleutels en algoritmen. De ciphertext-indeling is consistent met de oorspronkelijke gegevens in logische regels.
Gemiddeld: Het gemiddelde schema wordt vaak gebruikt in statistische scenario's. Voor numerieke gegevens berekenen we eerst het gemiddelde en verdelen we vervolgens de gedesensibiliseerde waarden willekeurig rond het gemiddelde, waardoor de som van de gegevens constant blijft.
Offset en afronding:Deze methode wijzigt de digitale gegevens door willekeurige verschuiving. De offset-afronding garandeert de geschatte authenticiteit van het bereik, terwijl de beveiliging van de gegevens behouden blijft. Deze ligt dichter bij de werkelijke gegevens dan bij de vorige methoden, en is van groot belang in het scenario van big data-analyse.
Het aanbevelingsmodelML-NPB-5660"voor de gegevensmaskering
4. Veelgebruikte technieken voor gegevensmaskering
(1). Statistische technieken
Gegevensbemonstering en gegevensaggregatie
- Gegevensbemonstering: Het analyseren en evalueren van de oorspronkelijke gegevensset door een representatieve subset van de gegevensset te selecteren, is een belangrijke methode om de effectiviteit van anonimiseringstechnieken te verbeteren.
- Gegevensaggregatie: Als verzameling van statistische technieken (zoals sommatie, telling, middeling, maximum en minimum) toegepast op kenmerken in microdata, is het resultaat representatief voor alle records in de oorspronkelijke gegevensset.
(2). Cryptografie
Cryptografie is een veelgebruikte methode om desensibilisatie te desensibiliseren of de effectiviteit ervan te verbeteren. Verschillende soorten encryptie-algoritmen kunnen verschillende desensibilisatie-effecten bereiken.
- Deterministische encryptie: een niet-willekeurige symmetrische encryptie. Deze verwerkt doorgaans ID-gegevens en kan de cijfertekst indien nodig decoderen en terugzetten naar de oorspronkelijke ID, maar de sleutel moet wel goed beveiligd zijn.
- Onomkeerbare encryptie: De hashfunctie wordt gebruikt om gegevens te verwerken, wat meestal gebeurt bij ID-gegevens. Deze kunnen niet direct worden ontsleuteld en de mappingrelatie moet worden opgeslagen. Bovendien kan er door de hashfunctie een databotsing optreden.
- Homomorfe encryptie: Er wordt gebruikgemaakt van het homomorfe algoritme voor vercijferde tekst. Het kenmerk hiervan is dat het resultaat van de vercijferde tekstbewerking na decodering hetzelfde is als dat van de platte tekstbewerking. Het wordt daarom vaak gebruikt voor de verwerking van numerieke velden, maar om prestatieredenen wordt het niet veel gebruikt.
(3). Systeemtechnologie
Met de onderdrukkingstechnologie worden gegevens die niet aan de privacybescherming voldoen, verwijderd of afgeschermd, maar niet gepubliceerd.
- Maskeren: dit is de meest voorkomende desensibilisatiemethode om de waarde van een kenmerk te maskeren. Bijvoorbeeld het nummer van de tegenstander, de identiteitskaart wordt gemarkeerd met een asterisk of het adres wordt afgekapt.
- Lokale onderdrukking: verwijst naar het proces van het verwijderen van specifieke attribuutwaarden (kolommen), het verwijderen van niet-essentiële gegevensvelden;
- Recordonderdrukking: verwijst naar het proces van het verwijderen van specifieke records (rijen), het verwijderen van niet-essentiële gegevensrecords.
(4). Pseudoniemtechnologie
Pseudomanning is een anonimiseringstechniek waarbij een pseudoniem wordt gebruikt ter vervanging van een directe identificatie (of andere gevoelige identificatie). Pseudoniemtechnieken creëren unieke identificatiegegevens voor elk individueel informatiesubject, in plaats van directe of gevoelige identificatiegegevens.
- Het kan onafhankelijk willekeurige waarden genereren die overeenkomen met de oorspronkelijke ID, de toewijzingstabel opslaan en de toegang tot de toewijzingstabel strikt beheren.
- U kunt ook encryptie gebruiken om pseudoniemen te produceren, maar u moet de decryptiesleutel goed bewaren.
Deze technologie wordt veel gebruikt in het geval van een groot aantal onafhankelijke datagebruikers, zoals OpenID in het openplatformscenario, waarbij verschillende ontwikkelaars verschillende OpenID's voor dezelfde gebruiker verkrijgen.
(5). Generalisatietechnieken
Generalisatietechniek verwijst naar een de-identificatietechniek die de granulariteit van geselecteerde attributen in een dataset vermindert en een meer algemene en abstracte beschrijving van de data biedt. Generalisatietechnologie is eenvoudig te implementeren en kan de authenticiteit van data op recordniveau beschermen. Het wordt vaak gebruikt in dataproducten of datarapporten.
- Afronding: hierbij wordt een afrondingsbasis voor het geselecteerde kenmerk geselecteerd, zoals forensisch onderzoek naar boven of beneden, wat resulteert in de resultaten 100, 500, 1K en 10K
- Technieken voor codering van boven- en ondergrens: Vervang waarden boven (of onder) de drempelwaarde door een drempelwaarde die het hoogste (of laagste) niveau vertegenwoordigt, wat resulteert in een resultaat van "boven X" of "onder X".
(6). Randomisatietechnieken
Randomisatietechnologie, een soort de-identificatietechniek, verwijst naar het wijzigen van de waarde van een attribuut door middel van randomisatie, zodat de waarde na randomisatie verschilt van de oorspronkelijke werkelijke waarde. Dit proces beperkt de mogelijkheid voor een aanvaller om een attribuutwaarde af te leiden uit andere attribuutwaarden in dezelfde datarecord, maar beïnvloedt de authenticiteit van de resulterende gegevens, wat vaak voorkomt bij productietestgegevens.
Plaatsingstijd: 27-09-2022