Αυτός είναι ο τρόπος με τον οποίο η μηχανική εκμάθηση μπορεί να παραβιάσει το απόρρητό σας

Η μηχανική μάθηση έχει ωθήσει τα όρια σε πολλούς τομείς, όπως η εξατομικευμένη ιατρική, τα αυτοοδηγούμενα αυτοκίνητα και η προσαρμοσμένη διαφήμιση. Ωστόσο, η έρευνα έχει δείξει ότι αυτά τα συστήματα απομνημονεύουν πτυχές των δεδομένων στα οποία εκπαιδεύτηκαν για να μάθουν μοτίβα, εγείροντας ανησυχίες σχετικά με το απόρρητο.

Στη στατιστική και τη μηχανική μάθηση, ο στόχος είναι να μάθουμε από προηγούμενα δεδομένα για να κάνουμε νέες προβλέψεις ή συμπεράσματα για μελλοντικά δεδομένα. Για να επιτευχθεί αυτός ο στόχος, ο στατιστικολόγος ή ο ειδικός της μηχανικής μάθησης επιλέγει ένα μοντέλο για να καταγράψει τα ύποπτα μοτίβα στα δεδομένα. Ένα μοντέλο εφαρμόζει μια απλοποιητική δομή στα δεδομένα, επιτρέποντάς του να μαθαίνει μοτίβα και να κάνει προβλέψεις.

Τα πολύπλοκα μοντέλα μηχανικής μάθησης έχουν ορισμένα εγγενή πλεονεκτήματα και μειονεκτήματα. Από τη θετική πλευρά, μπορούν να μάθουν πολύ πιο περίπλοκα μοτίβα και να εργαστούν με μεγαλύτερα σύνολα δεδομένων για εργασίες όπως η αναγνώριση εικόνων και η πρόβλεψη του τρόπου με τον οποίο ένα συγκεκριμένο άτομο θα ανταποκριθεί στη θεραπεία.

Ωστόσο, υπάρχει επίσης ο κίνδυνος υπερβολικής προσαρμογής των δεδομένων. Αυτό σημαίνει ότι κάνουν ακριβείς προβλέψεις σχετικά με τα δεδομένα στα οποία εκπαιδεύτηκαν, αλλά αρχίζουν να μαθαίνουν πρόσθετες πτυχές των δεδομένων που δεν σχετίζονται άμεσα με την εκάστοτε εργασία. Αυτό έχει ως αποτέλεσμα μοντέλα που δεν είναι γενικευμένα, που σημαίνει ότι έχουν κακή απόδοση σε νέα δεδομένα του ίδιου τύπου, αλλά όχι ακριβώς του ίδιου τύπου με τα δεδομένα εκπαίδευσης.

Ενώ υπάρχουν τεχνικές για την αντιμετώπιση των σφαλμάτων πρόβλεψης που σχετίζονται με την υπερπροσαρμογή, η ικανότητα να μαθαίνει κανείς τόσα πολλά από τα δεδομένα εγείρει επίσης ανησυχίες για το απόρρητο.

Πώς οι αλγόριθμοι μηχανικής μάθησης εξάγουν συμπεράσματα

Κάθε μοντέλο έχει έναν ορισμένο αριθμό παραμέτρων. Μια παράμετρος είναι ένα στοιχείο ενός μοντέλου που μπορεί να αλλάξει. Κάθε παράμετρος έχει μια τιμή ή μια ρύθμιση που το μοντέλο αντλεί από τα δεδομένα εκπαίδευσης. Μπορείτε να σκεφτείτε τις παραμέτρους ως τα διαφορετικά κουμπιά που μπορείτε να γυρίσετε για να επηρεάσετε την απόδοση του αλγορίθμου. Ενώ ένα ευθύγραμμο μοτίβο έχει μόνο δύο κουμπιά, την κλίση και την τομή, τα μοντέλα μηχανικής εκμάθησης έχουν πολλές παραμέτρους. Για παράδειγμα, το μοντέλο γλώσσας GPT-3 έχει 175 δισεκατομμύρια.

Για την επιλογή των παραμέτρων, οι μέθοδοι μηχανικής εκμάθησης χρησιμοποιούν δεδομένα εκπαίδευσης με στόχο την ελαχιστοποίηση του σφάλματος πρόβλεψης των δεδομένων εκπαίδευσης. Για παράδειγμα, εάν ο στόχος είναι να προβλέψουμε εάν ένα άτομο θα ανταποκρινόταν καλά σε μια συγκεκριμένη ιατρική θεραπεία με βάση το ιατρικό του ιστορικό, το μοντέλο μηχανικής εκμάθησης θα κάνει προβλέψεις στα δεδομένα όπου οι προγραμματιστές του μοντέλου γνωρίζουν εάν κάποιος ανταποκρίθηκε καλά ή κακώς. Το μοντέλο ανταμείβεται για σωστές προβλέψεις και τιμωρείται για λανθασμένες προβλέψεις, αναγκάζοντας τον αλγόριθμο να προσαρμόσει τις παραμέτρους του –δηλαδή να γυρίσει μερικά «πόμολα»– και να προσπαθήσει ξανά.

Για να αποφευχθεί η υπερβολική προσαρμογή των δεδομένων εκπαίδευσης, τα μοντέλα μηχανικής εκμάθησης ελέγχονται επίσης με ένα σύνολο δεδομένων επικύρωσης. Το σύνολο δεδομένων επικύρωσης είναι ένα ξεχωριστό σύνολο δεδομένων που δεν χρησιμοποιείται στη διαδικασία εκπαίδευσης. Ελέγχοντας την απόδοση του μοντέλου μηχανικής εκμάθησης σε σχέση με αυτό το σύνολο δεδομένων επικύρωσης, οι προγραμματιστές μπορούν να διασφαλίσουν ότι το μοντέλο μπορεί να γενικεύσει τη μάθησή του πέρα από τα δεδομένα εκπαίδευσης, αποφεύγοντας έτσι την υπερβολική προσαρμογή.

Αν και αυτή η διαδικασία εξασφαλίζει καλή απόδοση του μοντέλου μηχανικής εκμάθησης, δεν εμποδίζει άμεσα το μοντέλο μηχανικής εκμάθησης να αποθηκεύει πληροφορίες στα δεδομένα εκπαίδευσης.

Ανησυχίες για το απόρρητο

Λόγω του μεγάλου αριθμού παραμέτρων στα μοντέλα μηχανικής μάθησης, υπάρχει πιθανότητα η μέθοδος μηχανικής μάθησης να θυμάται ορισμένα από τα δεδομένα στα οποία εκπαιδεύτηκε. Στην πραγματικότητα, αυτό είναι ένα συνηθισμένο φαινόμενο και οι χρήστες μπορούν να εξαγάγουν τα αποθηκευμένα δεδομένα από το μοντέλο μηχανικής εκμάθησης χρησιμοποιώντας ερωτήματα προσαρμοσμένα στη συλλογή δεδομένων.

Εάν τα δεδομένα εκπαίδευσης περιέχουν ευαίσθητες πληροφορίες, όπως ιατρικά ή γονιδιωματικά δεδομένα, το απόρρητο των ατόμων των οποίων τα δεδομένα χρησιμοποιήθηκαν για την εκπαίδευση του μοντέλου μπορεί να τεθεί σε κίνδυνο. Πρόσφατη έρευνα έδειξε ότι είναι πραγματικά απαραίτητο για τα μοντέλα μηχανικής μάθησης να θυμούνται πτυχές των δεδομένων εκπαίδευσης προκειμένου να επιτύχουν βέλτιστη απόδοση κατά την επίλυση συγκεκριμένων προβλημάτων. Αυτό υποδηλώνει ότι μπορεί να υπάρχει μια θεμελιώδης αντιστάθμιση μεταξύ της απόδοσης μιας μεθόδου μηχανικής εκμάθησης και του απορρήτου.

Τα μοντέλα μηχανικής μάθησης καθιστούν επίσης δυνατή την πρόβλεψη ευαίσθητων πληροφοριών με βάση φαινομενικά μη ευαίσθητα δεδομένα. Για παράδειγμα, η Target ήταν σε θέση να προβλέψει ποιοι πελάτες ήταν πιθανό να είναι έγκυοι αναλύοντας τις αγοραστικές συνήθειες των πελατών που εγγράφηκαν στο μητρώο μωρών Target. Αφού εκπαιδεύτηκε σε αυτό το σύνολο δεδομένων, το μοντέλο μπόρεσε να στείλει διαφημίσεις σχετικές με την εγκυμοσύνη σε πελάτες που υποπτευόταν ότι ήταν έγκυοι επειδή αγόραζαν είδη όπως συμπληρώματα διατροφής ή λοσιόν χωρίς άρωμα.

Είναι ακόμη δυνατή η προστασία δεδομένων;

Ενώ πολλές μέθοδοι έχουν προταθεί για τη μείωση της απομνημόνευσης στις μεθόδους μηχανικής μάθησης, οι περισσότερες ήταν σε μεγάλο βαθμό αναποτελεσματικές. Η πιο πολλά υποσχόμενη λύση σε αυτό το πρόβλημα προς το παρόν είναι να τεθεί ένα μαθηματικό όριο στον κίνδυνο της ιδιωτικής ζωής.

Η πιο σύγχρονη μέθοδος επίσημης προστασίας δεδομένων είναι η διαφορική προστασία δεδομένων. Το διαφορικό απόρρητο απαιτεί ένα μοντέλο μηχανικής εκμάθησης να μην αλλάζει σημαντικά όταν αλλάζουν τα δεδομένα ενός ατόμου στο σύνολο δεδομένων εκπαίδευσης. Οι διαφορικές μέθοδοι απορρήτου επιτυγχάνουν αυτήν την εγγύηση εισάγοντας πρόσθετη τυχαιότητα στην εκμάθηση αλγορίθμων που «κρύβει» τη συμβολή ενός συγκεκριμένου ατόμου. Από τη στιγμή που μια μέθοδος προστατεύεται με διαφορικό απόρρητο, καμία πιθανή επίθεση δεν μπορεί να παραβιάσει αυτήν την εγγύηση απορρήτου.

Ακόμα κι αν ένα μοντέλο μηχανικής μάθησης έχει εκπαιδευτεί με διαφορικό απόρρητο, μπορεί να βγάλει ευαίσθητα συμπεράσματα, όπως στο παράδειγμα Target. Για να αποφευχθούν αυτές οι παραβιάσεις δεδομένων, όλα τα δεδομένα που μεταδίδονται στον οργανισμό πρέπει να προστατεύονται. Αυτή η προσέγγιση ονομάζεται Local Differential Privacy και έχει ήδη εφαρμοστεί από την Apple και την Google.

Επειδή το διαφορικό απόρρητο περιορίζει το πόσο μπορεί να βασίζεται το μοντέλο μηχανικής εκμάθησης στα δεδομένα ενός ατόμου, αυτό εμποδίζει την απομνημόνευση. Δυστυχώς, περιορίζει επίσης την απόδοση των μεθόδων μηχανικής εκμάθησης. Λόγω αυτού του συμβιβασμού, υπάρχει κριτική για τη χρησιμότητα του διαφορικού απορρήτου, καθώς συχνά οδηγεί σε σημαντική πτώση στην απόδοση.

Πάμε μπροστά

Λόγω της έντασης μεταξύ της συμπερασματικής μάθησης και των ανησυχιών για την προστασία της ιδιωτικής ζωής, τίθεται τελικά το κοινωνικό ερώτημα ως προς το τι είναι πιο σημαντικό σε ποιο πλαίσιο. Όταν τα δεδομένα δεν περιέχουν ευαίσθητες πληροφορίες, είναι εύκολο να προτείνουμε τη χρήση των πιο ισχυρών μεθόδων μηχανικής εκμάθησης που είναι διαθέσιμες.

Ωστόσο, όταν εργάζεστε με ευαίσθητα δεδομένα, είναι σημαντικό να σταθμίζονται οι συνέπειες των διαρροών απορρήτου και μπορεί να είναι απαραίτητο να θυσιαστεί μέρος της δύναμης της μηχανικής μάθησης για την προστασία του απορρήτου των ατόμων των οποίων τα δεδομένα εκπαίδευσαν το μοντέλο.

Αυτό το άρθρο αναδημοσιεύτηκε από το The Conversation, έναν μη κερδοσκοπικό, ανεξάρτητο ειδησεογραφικό οργανισμό που σας φέρνει γεγονότα και αναλύσεις για να σας βοηθήσει να κατανοήσετε τον περίπλοκο κόσμο μας.

Το έγραψε ο: Jordan Awan, Πανεπιστήμιο Purdue.

Διαβάστε περισσότερα:

Ο Jordan Awan λαμβάνει χρηματοδότηση από το Εθνικό Ίδρυμα Επιστημών και τα Εθνικά Ινστιτούτα Υγείας. Είναι επίσης σύμβουλος προστασίας δεδομένων για τον ομοσπονδιακό μη κερδοσκοπικό οργανισμό MITER.

Πώς οι αλγόριθμοι μηχανικής μάθησης εξάγουν συμπεράσματα

Ανησυχίες για το απόρρητο

Είναι ακόμη δυνατή η προστασία δεδομένων;

Πάμε μπροστά

Leave a Reply Cancel reply