1. მონაცემთა ნიღბის კონცეფცია
მონაცემთა შენიღბვა ასევე ცნობილია, როგორც მონაცემთა შენიღბვა. ეს არის ტექნიკური მეთოდი ისეთი მგრძნობიარე მონაცემების, როგორიცაა მობილური ტელეფონის ნომერი, საბანკო ბარათის ნომერი და სხვა ინფორმაცია, კონვერტაციის, შეცვლის ან დაფარვისთვის, როდესაც ჩვენ გვაქვს დადგენილი შენიღბვის წესები და პოლიტიკა. ეს ტექნიკა ძირითადად გამოიყენება მგრძნობიარე მონაცემების არასანდო გარემოში უშუალოდ გამოყენების თავიდან ასაცილებლად.
მონაცემთა ნიღბის პრინციპი: მონაცემთა ნიღბის გამოყენებამ უნდა შეინარჩუნოს მონაცემთა ორიგინალური მახასიათებლები, ბიზნეს წესები და მონაცემთა შესაბამისობა იმის უზრუნველსაყოფად, რომ ნიღბის გამოყენება გავლენას არ მოახდენს მონაცემთა შემდგომ შემუშავებაზე, ტესტირებასა და ანალიზზე. უზრუნველყოს მონაცემთა თანმიმდევრულობა და ვალიდურობა ნიღბის გამოყენებამდე და მის შემდეგ.
2. მონაცემთა ნიღბის კლასიფიკაცია
მონაცემთა ნიღბის დაყოფა შეიძლება სტატიკურ მონაცემთა ნიღბად (SDM) და დინამიურ მონაცემთა ნიღბად (DDM) ქცევებად.
სტატიკური მონაცემების შენიღბვა (SDM)სტატიკური მონაცემების შენიღბვა მოითხოვს ახალი არასაწარმოო გარემოს მონაცემთა ბაზის შექმნას საწარმოო გარემოდან იზოლირებისთვის. მგრძნობიარე მონაცემები ამოღებულია საწარმოო მონაცემთა ბაზიდან და შემდეგ ინახება არასაწარმოო მონაცემთა ბაზაში. ამ გზით, დესენსიბილიზებული მონაცემები იზოლირებულია საწარმოო გარემოდან, რაც აკმაყოფილებს ბიზნეს საჭიროებებს და უზრუნველყოფს საწარმოო მონაცემების უსაფრთხოებას.
დინამიური მონაცემების შენიღბვა (DDM)ის, როგორც წესი, გამოიყენება საწარმოო გარემოში მგრძნობიარე მონაცემების რეალურ დროში დესენსიბილიზაციისთვის. ზოგჯერ, ერთი და იგივე მგრძნობიარე მონაცემების სხვადასხვა სიტუაციაში წასაკითხად საჭიროა ნიღბის სხვადასხვა დონე. მაგალითად, სხვადასხვა როლებმა და ნებართვებმა შეიძლება განახორციელონ ნიღბის სხვადასხვა სქემა.
მონაცემთა ანგარიშგებისა და მონაცემთა პროდუქტების შენიღბვის აპლიკაცია
ასეთი სცენარები ძირითადად მოიცავს შიდა მონაცემთა მონიტორინგის პროდუქტებს ან ბილბორდებს, გარე მომსახურების მონაცემთა პროდუქტებს და მონაცემთა ანალიზზე დაფუძნებულ ანგარიშებს, როგორიცაა ბიზნეს ანგარიშები და პროექტის მიმოხილვა.
3. მონაცემთა შენიღბვის გადაწყვეტა
მონაცემთა ნიღბის გავრცელებული სქემებია: ბათილად ცნობა, შემთხვევითი მნიშვნელობა, მონაცემთა ჩანაცვლება, სიმეტრიული დაშიფვრა, საშუალო მნიშვნელობა, ოფსეტი და დამრგვალება და ა.შ.
ბათილად ცნობაინვალიდაცია გულისხმობს მგრძნობიარე მონაცემების დაშიფვრას, შეკვეცას ან დამალვას. ეს სქემა, როგორც წესი, რეალურ მონაცემებს სპეციალური სიმბოლოებით (მაგალითად, *) ცვლის. ოპერაცია მარტივია, მაგრამ მომხმარებლებს არ შეუძლიათ ორიგინალური მონაცემების ფორმატის ცოდნა, რამაც შეიძლება გავლენა მოახდინოს შემდგომ მონაცემთა აპლიკაციებზე.
შემთხვევითი მნიშვნელობაშემთხვევითი მნიშვნელობა გულისხმობს მგრძნობიარე მონაცემების შემთხვევით ჩანაცვლებას (რიცხვები ცვლის ციფრებს, ასოები ცვლის ასოებს და სიმბოლოები ცვლის სიმბოლოებს). ნიღბის ეს მეთოდი გარკვეულწილად უზრუნველყოფს მგრძნობიარე მონაცემების ფორმატს და ხელს შეუწყობს მონაცემთა შემდგომ გამოყენებას. ნიღბის ლექსიკონები შეიძლება საჭირო გახდეს ზოგიერთი მნიშვნელოვანი სიტყვისთვის, როგორიცაა ადამიანებისა და ადგილების სახელები.
მონაცემთა ჩანაცვლებამონაცემთა ჩანაცვლება მსგავსია ნულოვანი და შემთხვევითი მნიშვნელობების შენიღბვისა, გარდა იმისა, რომ სპეციალური სიმბოლოების ან შემთხვევითი მნიშვნელობების გამოყენების ნაცვლად, შენიღბვის მონაცემები იცვლება კონკრეტული მნიშვნელობით.
სიმეტრიული დაშიფვრასიმეტრიული დაშიფვრა არის სპეციალური შექცევადი ნიღბის მეთოდი. ის კონფიდენციალურ მონაცემებს დაშიფვრის გასაღებებისა და ალგორითმების მეშვეობით შიფრავს. შიფრული ტექსტის ფორმატი ლოგიკურ წესებში ორიგინალურ მონაცემებს შეესაბამება.
საშუალოსაშუალო მნიშვნელობის სქემა ხშირად გამოიყენება სტატისტიკურ სცენარებში. რიცხვითი მონაცემებისთვის, ჩვენ ჯერ ვიანგარიშებთ მათ საშუალო მნიშვნელობას, შემდეგ კი შემთხვევით ვანაწილებთ დესენსიბილიზებული მნიშვნელობების საშუალო მაჩვენებლის გარშემო, რითაც მონაცემთა ჯამი მუდმივად რჩება.
ოფსეტი და დამრგვალებაეს მეთოდი ციფრულ მონაცემებს შემთხვევითი წანაცვლებით ცვლის. ოფსეტური დამრგვალება უზრუნველყოფს დიაპაზონის სავარაუდო ავთენტურობას, ამავდროულად ინარჩუნებს მონაცემთა უსაფრთხოებას, რომელიც წინა სქემებთან შედარებით უფრო ახლოსაა რეალურ მონაცემებთან და დიდი მნიშვნელობა აქვს დიდი მონაცემების ანალიზის სცენარში.
რეკომენდებული მოდელი"ML-NPB-5660"მონაცემთა ნიღბისთვის"
4. მონაცემთა ნიღბის ხშირად გამოყენებული ტექნიკა
(1). სტატისტიკური ტექნიკები
მონაცემთა შერჩევა და მონაცემთა აგრეგაცია
- მონაცემთა შერჩევა: მონაცემთა წარმომადგენლობითი ქვესიმრავლის შერჩევით საწყისი მონაცემთა ნაკრების ანალიზი და შეფასება დეიდენტიფიკაციის ტექნიკის ეფექტურობის გასაუმჯობესებლად მნიშვნელოვანი მეთოდია.
- მონაცემთა აგრეგაცია: მიკრომონაცემებში ატრიბუტებზე გამოყენებული სტატისტიკური ტექნიკის ერთობლიობის (როგორიცაა შეჯამება, დათვლა, საშუალოდ გამოთვლა, მაქსიმალური და მინიმალური) შედეგი წარმოადგენს თავდაპირველი მონაცემთა ნაკრების ყველა ჩანაწერს.
(2). კრიპტოგრაფია
კრიპტოგრაფია დესენსიბილიზაციის დესენსიბილიზაციის ან მისი ეფექტურობის გაზრდის გავრცელებული მეთოდია. სხვადასხვა ტიპის დაშიფვრის ალგორითმებს შეუძლიათ დესენსიბილიზაციის სხვადასხვა ეფექტის მიღწევა.
- დეტერმინისტული დაშიფვრა: არაშემთხვევითი სიმეტრიული დაშიფვრა. ის, როგორც წესი, ამუშავებს ID მონაცემებს და საჭიროების შემთხვევაში შეუძლია შიფრული ტექსტის გაშიფვრა და აღდგენა ორიგინალ ID-ზე, მაგრამ გასაღები სათანადოდ უნდა იყოს დაცული.
- შეუქცევადი დაშიფვრა: მონაცემების დასამუშავებლად გამოიყენება ჰეშ ფუნქცია, რომელიც ჩვეულებრივ გამოიყენება ID მონაცემებისთვის. მისი პირდაპირ გაშიფვრა შეუძლებელია და შესაბამისობის ურთიერთობა უნდა შეინახოს. გარდა ამისა, ჰეშ ფუნქციის თავისებურებების გამო, შეიძლება მოხდეს მონაცემთა კოლიზი.
- ჰომომორფული დაშიფვრა: გამოიყენება შიფრტექსტის ჰომომორფული ალგორითმი. მისი დამახასიათებელი ნიშანია, რომ შიფრტექსტის ოპერაციის შედეგი იგივეა, რაც გაშიფვრის შემდეგ უბრალო ტექსტის ოპერაციის. ამიტომ, ის ხშირად გამოიყენება რიცხვითი ველების დასამუშავებლად, მაგრამ ფართოდ არ გამოიყენება შესრულების მიზნით.
(3). სისტემის ტექნოლოგია
დათრგუნვის ტექნოლოგია შლის ან ფარავს მონაცემებს, რომლებიც არ აკმაყოფილებს კონფიდენციალურობის დაცვის მოთხოვნებს, მაგრამ არ აქვეყნებს მათ.
- შენიღბვა: ეს გულისხმობს დესენსიბილიზაციის ყველაზე გავრცელებულ მეთოდს ატრიბუტის მნიშვნელობის შენიღბვისთვის, როგორიცაა მოწინააღმდეგის ნომერი, პირადობის მოწმობის ვარსკვლავით მონიშვნა ან მისამართის შემოკლება.
- ლოკალური დათრგუნვა: გულისხმობს კონკრეტული ატრიბუტის მნიშვნელობების (სვეტების) წაშლის პროცესს, არაარსებითი მონაცემთა ველების მოცილებას;
- ჩანაწერის დათრგუნვა: გულისხმობს კონკრეტული ჩანაწერების (რიგების) წაშლის პროცესს, არაარსებითი მონაცემთა ჩანაწერების წაშლას.
(4). ფსევდონიმების ტექნოლოგია
ფსევდომონინგი არის დეიდენტიფიკაციის ტექნიკა, რომელიც იყენებს ფსევდონიმს პირდაპირი იდენტიფიკატორის (ან სხვა მგრძნობიარე იდენტიფიკატორის) ჩასანაცვლებლად. ფსევდონიმიური ტექნიკა ქმნის უნიკალურ იდენტიფიკატორებს თითოეული ინდივიდუალური ინფორმაციის სუბიექტისთვის, პირდაპირი ან მგრძნობიარე იდენტიფიკატორების ნაცვლად.
- მას შეუძლია დამოუკიდებლად წარმოქმნას შემთხვევითი მნიშვნელობები, რომლებიც შეესაბამება ორიგინალურ ID-ს, შეინახოს რუკების ცხრილი და მკაცრად გააკონტროლოს რუკების ცხრილზე წვდომა.
- ასევე შეგიძლიათ გამოიყენოთ დაშიფვრა ფსევდონიმების შესაქმნელად, მაგრამ საჭიროა გაშიფვრის გასაღების სწორად შენახვა;
ეს ტექნოლოგია ფართოდ გამოიყენება დამოუკიდებელი მონაცემთა მომხმარებლების დიდი რაოდენობის შემთხვევაში, როგორიცაა OpenID ღია პლატფორმის სცენარში, სადაც სხვადასხვა დეველოპერი ერთი და იგივე მომხმარებლისთვის სხვადასხვა Openid-ებს იღებს.
(5). განზოგადების ტექნიკები
განზოგადების ტექნიკა გულისხმობს დეიდენტიფიკაციის ტექნიკას, რომელიც ამცირებს მონაცემთა ნაკრებში შერჩეული ატრიბუტების დეტალიზაციას და უზრუნველყოფს მონაცემების უფრო ზოგად და აბსტრაქტულ აღწერას. განზოგადების ტექნოლოგია მარტივი დანერგვაა და შეუძლია დაიცვას ჩანაწერის დონის მონაცემების ავთენტურობა. ის ხშირად გამოიყენება მონაცემთა პროდუქტებში ან მონაცემთა ანგარიშებში.
- დამრგვალება: გულისხმობს არჩეული ატრიბუტისთვის დამრგვალების ბაზის შერჩევას, როგორიცაა აღმავალი ან დაღმავალი ფორენზიკა, რომელიც იძლევა 100, 500, 1K და 10K შედეგებს.
- ზედა და ქვედა კოდირების ტექნიკები: ზღურბლზე მაღალი (ან ქვედა) მნიშვნელობების ჩანაცვლება ზედა (ან ქვედა) დონის წარმომადგენლობითი ზღურბლით, რაც შედეგს იძლევა „X-ზე მაღალი“ ან „X-ზე დაბალი“.
(6). რანდომიზაციის ტექნიკები
დეიდენტიფიკაციის ტექნიკის სახით, რანდომიზაციის ტექნოლოგია გულისხმობს ატრიბუტის მნიშვნელობის შეცვლას რანდომიზაციის გზით ისე, რომ რანდომიზაციის შემდეგ მიღებული მნიშვნელობა განსხვავდებოდეს ორიგინალური რეალური მნიშვნელობისგან. ეს პროცესი ამცირებს თავდამსხმელის შესაძლებლობას, მიიღოს ატრიბუტის მნიშვნელობა იმავე მონაცემთა ჩანაწერში არსებული სხვა ატრიბუტების მნიშვნელობებიდან, მაგრამ გავლენას ახდენს მიღებული მონაცემების ავთენტურობაზე, რაც ხშირია წარმოების ტესტის მონაცემებში.
გამოქვეყნების დრო: 2022 წლის 27 სექტემბერი