1. Het concept van gegevensmaskering
Datamaskering wordt ook wel datamaskering genoemd. Het is een technische methode om gevoelige gegevens, zoals mobiel telefoonnummer, bankkaartnummer en andere informatie, om te zetten, te wijzigen of af te dekken wanneer we maskeringsregels en -beleid hebben gegeven. Deze techniek wordt vooral gebruikt om te voorkomen dat gevoelige gegevens direct in onbetrouwbare omgevingen worden gebruikt.
Principe van gegevensmaskering: Bij het maskeren van gegevens moeten de oorspronkelijke gegevenskenmerken, bedrijfsregels en gegevensrelevantie behouden blijven om ervoor te zorgen dat de daaropvolgende ontwikkeling, het testen en de gegevensanalyse niet door het maskeren worden beïnvloed. Garandeer de consistentie en geldigheid van gegevens voor en na het maskeren.
2. Classificatie van gegevensmaskering
Datamaskering kan worden onderverdeeld in statische datamaskering (SDM) en dynamische datamaskering (DDM).
Statische gegevensmaskering (SDM): Statische gegevensmaskering vereist het opzetten van een nieuwe niet-productieomgevingsdatabase voor isolatie van de productieomgeving. Gevoelige gegevens worden uit de productiedatabase gehaald en vervolgens opgeslagen in de niet-productiedatabase. Op deze manier worden de ongevoelig gemaakte gegevens geïsoleerd van de productieomgeving, die voldoet aan de zakelijke behoeften en de veiligheid van productiegegevens garandeert.
Dynamische gegevensmaskering (DDM): Het wordt over het algemeen gebruikt in de productieomgeving om gevoelige gegevens in realtime ongevoelig te maken. Soms zijn verschillende maskeringsniveaus nodig om dezelfde gevoelige gegevens in verschillende situaties te lezen. Verschillende rollen en machtigingen kunnen bijvoorbeeld verschillende maskeringsschema's implementeren.
Datarapportage en applicatie voor het maskeren van dataproducten
Dergelijke scenario's omvatten voornamelijk interne datamonitoringproducten of billboards, externe servicedataproducten en rapporten op basis van data-analyse, zoals bedrijfsrapporten en projectbeoordeling.
3. Oplossing voor gegevensmaskering
Veel voorkomende gegevensmaskeringsschema's zijn onder meer: ongeldigverklaring, willekeurige waarde, gegevensvervanging, symmetrische codering, gemiddelde waarde, offset en afronding, enz.
Ongeldigheid: Ongeldigverklaring verwijst naar het versleutelen, afkappen of verbergen van gevoelige gegevens. Dit schema vervangt meestal echte gegevens door speciale symbolen (zoals *). De bediening is eenvoudig, maar gebruikers kunnen het formaat van de originele gegevens niet kennen, wat van invloed kan zijn op volgende gegevenstoepassingen.
Willekeurige waarde: De willekeurige waarde verwijst naar de willekeurige vervanging van gevoelige gegevens (cijfers vervangen cijfers, letters vervangen letters en tekens vervangen tekens). Deze maskeermethode waarborgt tot op zekere hoogte het formaat van gevoelige gegevens en vergemakkelijkt de daaropvolgende gegevenstoepassing. Voor sommige betekenisvolle woorden, zoals namen van mensen en plaatsen, kunnen maskerende woordenboeken nodig zijn.
Vervanging van gegevens: Gegevensvervanging is vergelijkbaar met het maskeren van null- en willekeurige waarden, behalve dat in plaats van speciale tekens of willekeurige waarden te gebruiken, de maskerende gegevens worden vervangen door een specifieke waarde.
Symmetrische codering: Symmetrische codering is een speciale omkeerbare maskeermethode. Het codeert gevoelige gegevens via encryptiesleutels en algoritmen. Het cijfertekstformaat is consistent met de originele gegevens in logische regels.
Gemiddeld: Het gemiddelde schema wordt vaak gebruikt in statistische scenario's. Voor numerieke gegevens berekenen we eerst hun gemiddelde en verdelen vervolgens de ongevoelig gemaakte waarden willekeurig rond het gemiddelde, waardoor de som van de gegevens constant blijft.
Offset en afronding: Deze methode wijzigt de digitale gegevens door middel van willekeurige verschuiving. De offset-afronding garandeert de geschatte authenticiteit van het bereik, terwijl de veiligheid van de gegevens behouden blijft, die dichter bij de echte gegevens ligt dan de vorige schema's, en van groot belang is in het scenario van big data-analyse.
Het aanbevolen model "ML-NPB-5660" voor de gegevensmaskering
4. Veelgebruikte technieken voor het maskeren van gegevens
(1). Statistische technieken
Gegevensbemonstering en gegevensaggregatie
- Gegevensbemonstering: De analyse en evaluatie van de oorspronkelijke dataset door een representatieve subset van de dataset te selecteren is een belangrijke methode om de effectiviteit van de-identificatietechnieken te verbeteren.
- Gegevensaggregatie: Als een verzameling statistische technieken (zoals optellen, tellen, middelen, maximum en minimum) toegepast op attributen in microdata, is het resultaat representatief voor alle records in de originele dataset.
(2). Cryptografie
Cryptografie is een veelgebruikte methode om desensibilisatie te desensibiliseren of de effectiviteit ervan te vergroten. Verschillende soorten versleutelingsalgoritmen kunnen verschillende desensibilisatie-effecten bereiken.
- Deterministische encryptie: een niet-willekeurige symmetrische encryptie. Het verwerkt doorgaans ID-gegevens en kan indien nodig de cijfertekst ontsleutelen en herstellen naar de oorspronkelijke ID, maar de sleutel moet goed worden beschermd.
- Onomkeerbare codering: de hash-functie wordt gebruikt om gegevens te verwerken, die meestal worden gebruikt voor ID-gegevens. Het kan niet direct worden gedecodeerd en de mappingrelatie moet worden opgeslagen. Bovendien kan er, vanwege de functie van de hashfunctie, databotsing optreden.
- Homomorfe codering: er wordt gebruik gemaakt van het homomorfe algoritme met cijfertekst. Het kenmerk ervan is dat het resultaat van de cijfertekstbewerking hetzelfde is als dat van de leesbare tekstbewerking na decodering. Daarom wordt het vaak gebruikt om numerieke velden te verwerken, maar om prestatieredenen wordt het niet veel gebruikt.
(3). Systeem Technologie
De onderdrukkingstechnologie verwijdert of schermt gegevensitems af die niet aan de privacybescherming voldoen, maar publiceert deze niet.
- Maskeren: het verwijst naar de meest gebruikelijke desensibilisatiemethode om de attribuutwaarde te maskeren, zoals het nummer van de tegenstander, de identiteitskaart is gemarkeerd met een asterisk of het adres is afgekapt.
- Lokale onderdrukking: verwijst naar het proces van het verwijderen van specifieke attribuutwaarden (kolommen), het verwijderen van niet-essentiële gegevensvelden;
- Recordonderdrukking: verwijst naar het proces van het verwijderen van specifieke records (rijen), het verwijderen van niet-essentiële gegevensrecords.
(4). Pseudoniem Technologie
Pseudomanning is een de-identificatietechniek waarbij een pseudoniem wordt gebruikt ter vervanging van een directe identificatie (of een andere gevoelige identificatie). Pseudoniemtechnieken creëren unieke identificatoren voor elk individueel informatieonderwerp, in plaats van directe of gevoelige identificatoren.
- Het kan onafhankelijk willekeurige waarden genereren die overeenkomen met de originele ID, de toewijzingstabel opslaan en de toegang tot de toewijzingstabel strikt controleren.
- U kunt ook encryptie gebruiken om pseudoniemen te produceren, maar u moet de decryptiesleutel wel goed bewaren;
Deze technologie wordt veel gebruikt bij een groot aantal onafhankelijke datagebruikers, zoals OpenID in het open platformscenario, waarbij verschillende ontwikkelaars verschillende Openids verkrijgen voor dezelfde gebruiker.
(5). Generalisatietechnieken
Generalisatietechniek verwijst naar een de-identificatietechniek die de granulariteit van geselecteerde attributen in een dataset vermindert en een meer algemene en abstracte beschrijving van de gegevens biedt. Generalisatietechnologie is eenvoudig te implementeren en kan de authenticiteit van gegevens op recordniveau beschermen. Het wordt vaak gebruikt in dataproducten of datarapporten.
- Afronding: omvat het selecteren van een afrondingsbasis voor het geselecteerde attribuut, zoals forensisch onderzoek naar boven of naar beneden, wat de resultaten 100, 500, 1K en 10K oplevert
- Bovenste en onderste coderingstechnieken: vervang waarden boven (of onder) de drempelwaarde door een drempelwaarde die het bovenste (of onderste) niveau vertegenwoordigt, wat een resultaat oplevert van "boven X" of "onder X"
(6). Randomisatietechnieken
Als een soort de-identificatietechniek verwijst randomisatietechnologie naar het wijzigen van de waarde van een attribuut door middel van randomisatie, zodat de waarde na randomisatie verschilt van de oorspronkelijke werkelijke waarde. Dit proces vermindert de mogelijkheid van een aanvaller om een attribuutwaarde af te leiden uit andere attribuutwaarden in hetzelfde gegevensrecord, maar beïnvloedt de authenticiteit van de resulterende gegevens, wat gebruikelijk is bij productietestgegevens.
Posttijd: 27 september 2022