Δείτε: Η νέα “deepfake” γεννήτρια βίντεο της Microsoft σε δράση
Ένα νέο σύστημα παραγωγής τεχνητής νοημοσύνης από τη Microsoft έδειξε πόσο προηγμένη γίνεται η τεχνολογία deepfake – δημιουργώντας πειστικά βίντεο από μία μόνο εικόνα και κλιπ ήχου.
Το εργαλείο παίρνει μια εικόνα και τη μετατρέπει σε ένα ρεαλιστικό βίντεο με πειστικά συναισθήματα και κινήσεις όπως το σηκώνοντας τα φρύδια.
Ένα demo δείχνει τη Mona Lisa να ζωντανεύει και τον Papparazzi της Lady Gaga να τραγουδά – η Microsoft λέει ότι το σύστημα δεν έχει εκπαιδευτεί ειδικά για να επεξεργάζεται τον ήχο τραγουδιού, αλλά έχει. Αλλά η δυνατότητα δημιουργίας βίντεο από ένα μόνο αρχείο εικόνας και ήχου έχει ανησυχήσει ορισμένους ειδικούς.
Η Microsoft δεν έχει ανακοινώσει ακόμη πότε θα κυκλοφορήσει το σύστημα AI στο ευρύ κοινό. Η Yahoo μίλησε με δύο ειδικούς της τεχνητής νοημοσύνης και της ιδιωτικής ζωής για τους κινδύνους αυτού του τύπου τεχνολογίας.
Τι το ιδιαίτερο έχει αυτή η νέα τεχνολογία;
Το σύστημα VASA (το οποίο σημαίνει «οπτικές συναισθηματικές δεξιότητες») επιτρέπει στους χρήστες να προσδιορίζουν πού κοιτάζει το λάθος άτομο και ποια συναισθήματα εμφανίζουν στην οθόνη. Η Microsoft λέει ότι η τεχνολογία ανοίγει το δρόμο για αλληλεπίδραση σε πραγματικό χρόνο με ρεαλιστικά ομιλούντα avatar.
Η Microsoft λέει: «Το μοντέλο της πρεμιέρας VASA-1 δεν είναι μόνο ικανό να παράγει κινήσεις χειλιών που είναι εξαιρετικά συγχρονισμένες με τον ήχο, αλλά και να καταγράφει ένα ευρύ φάσμα αποχρώσεων του προσώπου και φυσικές κινήσεις του κεφαλιού που συμβάλλουν στην αντίληψη της αυθεντικότητας και της ζωντάνιας». .’
Γιατί κάποιοι άνθρωποι ανησυχούν;
Δεν είναι όλοι ενθουσιασμένοι με το νέο σύστημα, με ένα ιστολόγιο να το περιγράφει ως μια «ψεύτικη μηχανή εφιάλτη». Η Microsoft τόνισε ότι το σύστημα είναι επίδειξη και ότι προς το παρόν δεν υπάρχουν σχέδια για την κυκλοφορία του ως προϊόν.
Όμως, ενώ το VASA-1 αντιπροσωπεύει ένα βήμα προς τα εμπρός στην εμψύχωση ανθρώπων, η τεχνολογία δεν είναι μοναδική: η εκκίνηση ήχου Eleven Labs επιτρέπει στους χρήστες να δημιουργούν απίστευτα ρεαλιστικούς ήχους doppelgangers ανθρώπων με βάση μόλις 10 λεπτά ήχου.
Η τεχνολογία των Eleven Labs χρησιμοποιήθηκε για τη δημιουργία ενός «deepfake» ηχητικού κλιπ του Τζο Μπάιντεν «εκπαιδεύοντας» μια ψεύτικη έκδοση σε δημόσια διαθέσιμα ηχητικά κλιπ του προέδρου και στη συνέχεια μεταδίδοντας ένα ψεύτικο ηχητικό κλιπ του Μπάιντεν που παροτρύνει τον κόσμο να μην επιλέξει. Το περιστατικό στο οποίο ένας χρήστης αποκλείστηκε από το Eleven Labs τόνισε πόσο εύκολα μπορεί να χρησιμοποιηθεί μια τέτοια τεχνολογία για τον χειρισμό πραγματικών γεγονότων.
Σε ένα άλλο περιστατικό, ένας υπάλληλος μιας πολυεθνικής εταιρείας πλήρωσε 25 εκατομμύρια δολάρια σε απατεώνες αφού είχε μια βιντεοκλήση με αρκετούς άλλους υπαλλήλους, τα οποία ήταν όλα deepfakes. Τα Deepfakes γίνονται όλο και πιο κοινά στο διαδίκτυο. Μια έρευνα της Prolific διαπίστωσε ότι το 51% των ενηλίκων δήλωσε ότι είχε συναντήσει βαθιά ψεύτικα βίντεο στα μέσα κοινωνικής δικτύωσης.
Ο Simon Bain, Διευθύνων Σύμβουλος της OmniIndex, λέει: «Η αποστολή της τεχνολογίας deepfake είναι να παράγει περιεχόμενο που δεν περιέχει ενδείξεις ή «αναγνωρίσιμα τεχνουργήματα» για να δείξει ότι είναι ψεύτικο βήμα προς αυτήν την κατεύθυνση η συνοδευτική δήλωση της Microsoft σχετικά με το “Προτιμήσεις σχετικά με τον κίνδυνο και την υπεύθυνη τεχνητή νοημοσύνη” υποδηλώνει αυτή την επιδίωξη της τελειότητας, λέγοντας:
“Προς το παρόν, τα βίντεο που δημιουργούνται με αυτήν τη μέθοδο εξακολουθούν να περιέχουν αναγνωρίσιμα τεχνουργήματα και η αριθμητική ανάλυση δείχνει ότι υπάρχει ακόμα ένα κενό για την επίτευξη της αυθεντικότητας των πραγματικών βίντεο.”
«Προσωπικά το βρίσκω πολύ ανησυχητικό, καθώς χρειαζόμαστε αυτά τα αναγνωρίσιμα τεχνουργήματα για να αποτρέψουμε τα deepfakes να προκαλέσουν ανεπανόρθωτη βλάβη».
Ποια είναι τα ενδεικτικά σημάδια ότι είναι ένα deepfake;
Μικροσκοπικά σημάδια όπως οι ασυνέπειες στην υφή του δέρματος και το τρεμόπαιγμα στις κινήσεις του προσώπου μπορεί να υποδηλώνουν ότι πρόκειται για ένα deepfake, λέει ο Bain. Αλλά και αυτά θα μπορούσαν σύντομα να εξαφανιστούν, εξηγεί.
Ο Bain λέει: Μόνο αυτές οι πιθανές ασυνέπειες στην υφή του δέρματος και το ελαφρύ τρεμόπαιγμα στις κινήσεις του προσώπου μπορούν να μας δώσουν οπτικές πληροφορίες σχετικά με την αυθεντικότητα ενός βίντεο. Με αυτόν τον τρόπο, γνωρίζουμε ότι όταν βλέπουμε πολιτικούς να καταστρέφουν τις επερχόμενες εκλογικές ευκαιρίες τους, στην πραγματικότητα είναι αυτοί και όχι ένα deepfake AI.
«Αυτό εγείρει το ερώτημα: Γιατί η τεχνολογία deepfake είναι φαινομενικά σχεδιασμένη για να εξαλείψει αυτές και άλλες οπτικές ενδείξεις αντί να διασφαλίσει ότι διατηρούνται; Τελικά, τι μπορεί να έχει ένα πραγματικά ζωντανό και «πραγματικό» ψεύτικο βίντεο; Κατά τη γνώμη μου, ένα deepfake που είναι σχεδόν ρεαλιστικό αλλά μη ανιχνεύσιμο μπορεί να έχει εξίσου κοινωνικά οφέλη με ένα που δεν μπορεί να αναγνωριστεί ως ψεύτικο».
Τι κάνουν οι εταιρείες τεχνολογίας για αυτό;
Είκοσι από τις μεγαλύτερες εταιρείες τεχνολογίας στον κόσμο, συμπεριλαμβανομένης της Meta, της Google, της Amazon, της Microsoft και της TikTok, υπέγραψαν εθελοντική συμφωνία νωρίτερα αυτό το έτος για να εργαστούν από κοινού για να σταματήσουν τη διάδοση των deepfakes που σχετίζονται με τις εκλογές.
Ο Nick Clegg, πρόεδρος παγκόσμιων υποθέσεων στο Meta, δήλωσε: «Με τόσες μεγάλες εκλογές που διεξάγονται φέτος, είναι σημαντικό να κάνουμε ό,τι μπορούμε για να αποτρέψουμε την εξαπάτηση των ανθρώπων από περιεχόμενο που δημιουργείται από AI».
«Αυτό το έργο είναι μεγαλύτερο από αυτό οποιασδήποτε μεμονωμένης εταιρείας και απαιτεί τεράστιες προσπάθειες από τη βιομηχανία, την κυβέρνηση και την κοινωνία των πολιτών».
Ωστόσο, ο ευρύτερος αντίκτυπος των deepfakes είναι ότι σύντομα κανείς δεν θα μπορεί να εμπιστευτεί οτιδήποτε στο διαδίκτυο και οι εταιρείες θα πρέπει να χρησιμοποιούν άλλες μεθόδους για να “επικυρώνουν” τα βίντεο, λέει ο Jamie Boote, συνεργάτης κύριος σύμβουλος στο Synopsys Software Integrity Group:
Ο Boote είπε: «Η απειλή των deepfakes είναι ότι εξαπατούν τους ανθρώπους να πιστέψουν αυτό που βλέπουν και ακούν μέσω ψηφιακών καναλιών. «Παλιά ήταν δύσκολο για τους επιτιθέμενους να πλαστογραφήσουν τη φωνή ή την ομοιότητα ενός ατόμου, και αυτό είναι ακόμα πιο δύσκολο με το ζωντανό βίντεο και τον ήχο, αυτό μπορεί πλέον να γίνει σε πραγματικό χρόνο και δεν μπορούμε πλέον να πιστέψουμε τι συμβαίνει». οθόνη δείτε είναι.
«Τα Deepfakes ανοίγουν άλλη μια λεωφόρο επίθεσης εναντίον ανθρώπων χρηστών συστημάτων πληροφορικής ή άλλων μη ψηφιακών συστημάτων, όπως το χρηματιστήριο. Αυτό σημαίνει ότι οι βιντεοκλήσεις από τον Διευθύνοντα Σύμβουλο ή οι ανακοινώσεις από άτομα δημοσίων σχέσεων μπορούν να παραποιηθούν για να χειραγωγήσουν ή να χειραγωγήσουν τις τιμές των μετοχών σε εξωτερικές επιθέσεις.” Χρησιμοποιείται από spearphishers για να εξαπατήσουν τους υπαλλήλους να αποκαλύψουν πληροφορίες, να αλλάξουν ρυθμίσεις δικτύου ή δικαιώματα ή αρχεία για λήψη και άνοιγμα.
«Για να προστατευθούμε από αυτήν την απειλή, πρέπει να μάθουμε να επαληθεύουμε ότι το πρόσωπο στην οθόνη είναι στην πραγματικότητα το πρόσωπο μπροστά από την κάμερα του αποστολέα και αυτό μπορεί να γίνει μέσω πρόσθετων καναλιών, όπως μια κλήση στο μήνυμα κινητού τηλεφώνου του αποστολέα από Λογαριασμός αξιόπιστου προσώπου ή για δημόσιες ανακοινώσεις, δελτίο τύπου σε δημόσιο ιστότοπο που ελέγχεται από την Εταιρεία.