Αυτός είναι ο τρόπος με τον οποίο η μηχανική εκμάθηση μπορεί να παραβιάσει το απόρρητό σας

Η μηχανική εκμάθηση έχει θέσει νέα πρότυπα σε πολλούς τομείς, συμπεριλαμβανομένης της εξατομικευμένης ιατρικής, των αυτοοδηγούμενων αυτοκινήτων και της εξατομικευμένης διαφήμισης. Ωστόσο, η έρευνα έχει δείξει ότι αυτά τα συστήματα απομνημονεύουν ορισμένες πτυχές των δεδομένων στα οποία εκπαιδεύονται για να μάθουν μοτίβα, εγείροντας ανησυχίες σχετικά με το απόρρητο.

Στη στατιστική και τη μηχανική μάθηση, ο στόχος είναι να μάθουμε από προηγούμενα δεδομένα για να κάνουμε νέες προβλέψεις ή συμπεράσματα για μελλοντικά δεδομένα. Για να επιτευχθεί αυτός ο στόχος, ο στατιστικολόγος ή ο ειδικός της μηχανικής μάθησης επιλέγει ένα μοντέλο για να καταγράψει τα ύποπτα μοτίβα στα δεδομένα. Ένα μοντέλο εφαρμόζει μια απλοποιητική δομή στα δεδομένα, επιτρέποντάς του να μαθαίνει μοτίβα και να κάνει προβλέψεις.

Τα πολύπλοκα μοντέλα μηχανικής μάθησης έχουν ορισμένα εγγενή πλεονεκτήματα και μειονεκτήματα. Από τη θετική πλευρά, μπορούν να μάθουν πολύ πιο περίπλοκα μοτίβα και να εργαστούν με μεγαλύτερα σύνολα δεδομένων για εργασίες όπως η αναγνώριση εικόνων και η πρόβλεψη του τρόπου με τον οποίο ένα συγκεκριμένο άτομο θα ανταποκριθεί στη θεραπεία.

Ωστόσο, υπάρχει επίσης ο κίνδυνος υπερβολικής προσαρμογής των δεδομένων. Αυτό σημαίνει ότι ενώ κάνουν ακριβείς προβλέψεις σχετικά με τα δεδομένα στα οποία εκπαιδεύτηκαν, αρχίζουν να μαθαίνουν πρόσθετες πτυχές των δεδομένων που δεν σχετίζονται άμεσα με την εκάστοτε εργασία. Αυτό οδηγεί σε μοντέλα που δεν είναι γενικευμένα, που σημαίνει ότι έχουν κακή απόδοση σε νέα δεδομένα που είναι του ίδιου τύπου αλλά δεν ταιριάζουν ακριβώς με τα δεδομένα εκπαίδευσης.

Ενώ υπάρχουν τεχνικές για την αντιμετώπιση των σφαλμάτων πρόβλεψης που σχετίζονται με την υπερπροσαρμογή, η ικανότητα να μαθαίνει κανείς τόσα πολλά από τα δεδομένα εγείρει επίσης ανησυχίες για το απόρρητο.

Πώς οι αλγόριθμοι μηχανικής μάθησης εξάγουν συμπεράσματα

Κάθε μοντέλο έχει έναν ορισμένο αριθμό παραμέτρων. Μια παράμετρος είναι ένα στοιχείο ενός μοντέλου που μπορεί να αλλάξει. Κάθε παράμετρος έχει μια τιμή ή μια ρύθμιση που το μοντέλο αντλεί από τα δεδομένα εκπαίδευσης. Μπορείτε να σκεφτείτε τις παραμέτρους ως τα διαφορετικά κουμπιά που μπορείτε να γυρίσετε για να επηρεάσετε την απόδοση του αλγορίθμου. Ενώ ένα ευθύγραμμο μοτίβο έχει μόνο δύο κουμπιά, την κλίση και την τομή, τα μοντέλα μηχανικής εκμάθησης έχουν πολλές παραμέτρους. Για παράδειγμα, το μοντέλο γλώσσας GPT-3 έχει 175 δισεκατομμύρια.

Για την επιλογή παραμέτρων, οι μέθοδοι μηχανικής εκμάθησης χρησιμοποιούν δεδομένα εκπαίδευσης με στόχο την ελαχιστοποίηση του σφάλματος πρόβλεψης των δεδομένων εκπαίδευσης. Για παράδειγμα, εάν ο στόχος είναι να προβλέψουμε εάν ένα άτομο θα ανταποκριθεί καλά σε μια συγκεκριμένη ιατρική θεραπεία με βάση το ιατρικό του ιστορικό, το μοντέλο μηχανικής εκμάθησης θα κάνει προβλέψεις για τα δεδομένα όπου οι προγραμματιστές του μοντέλου γνωρίζουν εάν κάποιος θα ανταποκριθεί καλά ή ανεπαρκώς. Το μοντέλο ανταμείβεται για σωστές προβλέψεις και τιμωρείται για λανθασμένες προβλέψεις, προτρέποντας τον αλγόριθμο να προσαρμόσει τις παραμέτρους του –δηλαδή να γυρίσει μερικά από τα «πόμολα»– και να προσπαθήσει ξανά.

Για να αποφευχθεί η υπερβολική προσαρμογή των δεδομένων εκπαίδευσης, τα μοντέλα μηχανικής εκμάθησης ελέγχονται επίσης με ένα σύνολο δεδομένων επικύρωσης. Το σύνολο δεδομένων επικύρωσης είναι ένα ξεχωριστό σύνολο δεδομένων που δεν χρησιμοποιείται στη διαδικασία εκπαίδευσης. Ελέγχοντας την απόδοση του μοντέλου μηχανικής εκμάθησης σε σχέση με αυτό το σύνολο δεδομένων επικύρωσης, οι προγραμματιστές μπορούν να διασφαλίσουν ότι το μοντέλο μπορεί να γενικεύσει τη μάθησή του πέρα από τα δεδομένα εκπαίδευσης, αποφεύγοντας έτσι την υπερβολική προσαρμογή.

Αν και αυτή η διαδικασία εξασφαλίζει καλή απόδοση του μοντέλου μηχανικής εκμάθησης, δεν εμποδίζει άμεσα το μοντέλο μηχανικής εκμάθησης να διατηρεί πληροφορίες από τα δεδομένα εκπαίδευσης.

Ανησυχίες για το απόρρητο

Λόγω του μεγάλου αριθμού παραμέτρων στα μοντέλα μηχανικής μάθησης, υπάρχει πιθανότητα η μέθοδος μηχανικής μάθησης να θυμάται ορισμένα από τα δεδομένα στα οποία εκπαιδεύτηκε. Στην πραγματικότητα, αυτό είναι ένα συνηθισμένο φαινόμενο και οι χρήστες μπορούν να εξαγάγουν τα αποθηκευμένα δεδομένα από το μοντέλο μηχανικής εκμάθησης χρησιμοποιώντας ερωτήματα προσαρμοσμένα στη συλλογή δεδομένων.

Εάν τα δεδομένα εκπαίδευσης περιέχουν ευαίσθητες πληροφορίες, όπως ιατρικά ή γονιδιωματικά δεδομένα, το απόρρητο των ατόμων των οποίων τα δεδομένα χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου μπορεί να τεθεί σε κίνδυνο. Πρόσφατη έρευνα έδειξε ότι είναι πραγματικά απαραίτητο για τα μοντέλα μηχανικής μάθησης να θυμούνται πτυχές των δεδομένων εκπαίδευσης προκειμένου να επιτύχουν βέλτιστη απόδοση κατά την επίλυση συγκεκριμένων προβλημάτων. Αυτό υποδηλώνει ότι μπορεί να υπάρχει μια θεμελιώδης αντιστάθμιση μεταξύ της απόδοσης μιας μεθόδου μηχανικής εκμάθησης και του απορρήτου.

Τα μοντέλα μηχανικής μάθησης καθιστούν επίσης δυνατή την πρόβλεψη ευαίσθητων πληροφοριών από φαινομενικά μη ευαίσθητα δεδομένα. Για παράδειγμα, η Target ήταν σε θέση να προβλέψει ποιοι πελάτες ήταν πιθανό να είναι έγκυοι αναλύοντας τις αγοραστικές συνήθειες των πελατών που είχαν εγγραφεί στο μητρώο μωρών Target. Μετά από εκπαίδευση σε αυτό το σύνολο δεδομένων, το μοντέλο μπόρεσε να στείλει διαφημίσεις σχετικά με την εγκυμοσύνη σε πελάτες που υποψιαζόταν ότι ήταν έγκυοι επειδή αγόραζαν είδη όπως συμπληρώματα διατροφής ή λοσιόν χωρίς άρωμα.

Είναι ακόμη δυνατή η προστασία δεδομένων;

Ενώ πολλές μέθοδοι έχουν προταθεί για τη μείωση της απομνημόνευσης στις μεθόδους μηχανικής μάθησης, οι περισσότερες ήταν σε μεγάλο βαθμό αναποτελεσματικές. Η πιο πολλά υποσχόμενη λύση σε αυτό το πρόβλημα προς το παρόν είναι να τεθεί ένα μαθηματικό όριο στον κίνδυνο της ιδιωτικής ζωής.

Η πιο σύγχρονη μέθοδος επίσημης προστασίας δεδομένων είναι η διαφορική προστασία δεδομένων. Το διαφορικό απόρρητο απαιτεί ένα μοντέλο μηχανικής εκμάθησης να μην αλλάζει σημαντικά όταν αλλάζουν τα δεδομένα ενός ατόμου στο σύνολο δεδομένων εκπαίδευσης. Οι διαφορικές μέθοδοι απορρήτου επιτυγχάνουν αυτήν την εγγύηση εισάγοντας πρόσθετη τυχαιότητα στην εκμάθηση αλγορίθμων που «κρύβει» τη συμβολή ενός συγκεκριμένου ατόμου. Από τη στιγμή που μια μέθοδος προστατεύεται με διαφορικό απόρρητο, καμία πιθανή επίθεση δεν μπορεί να παραβιάσει αυτήν την εγγύηση απορρήτου.

Ακόμα κι αν ένα μοντέλο μηχανικής μάθησης έχει εκπαιδευτεί με διαφορικό απόρρητο, μπορεί να βγάλει ευαίσθητα συμπεράσματα, όπως στο παράδειγμα Target. Για να αποφευχθούν αυτές οι παραβιάσεις δεδομένων, όλα τα δεδομένα που μεταδίδονται στον οργανισμό πρέπει να προστατεύονται. Αυτή η προσέγγιση ονομάζεται Local Differential Privacy και έχει ήδη εφαρμοστεί από την Apple και την Google.

Επειδή το διαφορικό απόρρητο περιορίζει το πόσο μπορεί να βασίζεται το μοντέλο μηχανικής εκμάθησης στα δεδομένα ενός ατόμου, αυτό εμποδίζει την απομνημόνευση. Δυστυχώς, περιορίζει επίσης την απόδοση των μεθόδων μηχανικής εκμάθησης. Λόγω αυτού του συμβιβασμού, υπάρχει κριτική για τη χρησιμότητα του διαφορικού απορρήτου, καθώς συχνά οδηγεί σε σημαντική πτώση στην απόδοση.

Πάμε μπροστά

Λόγω της έντασης μεταξύ της συμπερασματικής μάθησης και των ανησυχιών για την προστασία της ιδιωτικής ζωής, τίθεται τελικά το κοινωνικό ερώτημα ως προς το τι είναι πιο σημαντικό σε ποιο πλαίσιο. Όταν τα δεδομένα δεν περιέχουν ευαίσθητες πληροφορίες, είναι εύκολο να προτείνουμε τη χρήση των πιο ισχυρών μεθόδων μηχανικής εκμάθησης που είναι διαθέσιμες.

Ωστόσο, όταν εργάζεστε με εμπιστευτικά δεδομένα, πρέπει να λαμβάνονται υπόψη οι συνέπειες των παραβιάσεων δεδομένων. Επιπλέον, μπορεί να είναι απαραίτητο να τεθεί σε κίνδυνο η απόδοση μηχανικής εκμάθησης για την προστασία του απορρήτου των ατόμων στα δεδομένα των οποίων εκπαιδεύτηκε το μοντέλο.

Αυτό το άρθρο προσαρμόστηκε από το The Conversation, έναν μη κερδοσκοπικό, ανεξάρτητο ειδησεογραφικό οργανισμό που σας φέρνει γεγονότα και αξιόπιστες αναλύσεις για να σας βοηθήσει να κατανοήσετε τον περίπλοκο κόσμο μας. Το έγραψε ο: Jordan Awan, Πανεπιστήμιο Purdue

Διαβάστε περισσότερα:

Ο Jordan Awan λαμβάνει χρηματοδότηση από το Εθνικό Ίδρυμα Επιστημών και τα Εθνικά Ινστιτούτα Υγείας. Είναι επίσης σύμβουλος προστασίας δεδομένων για τον ομοσπονδιακό μη κερδοσκοπικό οργανισμό MITER.

Πώς οι αλγόριθμοι μηχανικής μάθησης εξάγουν συμπεράσματα

Ανησυχίες για το απόρρητο

Είναι ακόμη δυνατή η προστασία δεδομένων;

Πάμε μπροστά

Leave a Reply Cancel reply