Η θεραπεία για έναν όγκο άφησε αυτή τη γυναίκα ανίκανη να μιλήσει. Το AI της έδωσε πίσω τη φωνή της

By | May 20, 2024

Πριν υποβληθεί σε χειρουργική επέμβαση που σώζει τη ζωή της, η φωνή της νεαρής Αμερικανίδας Alexis “Lexi” Bogan ήταν πληθωρική.

Της άρεσε να τραγουδάει τις μπαλάντες της Taylor Swift και του Zach Bryan στο αυτοκίνητο. Πάντα γελούσε, ακόμα και όταν κρατούσε μακριά τα παιδιά προσχολικής ηλικίας που είχαν κακή συμπεριφορά ή συζητούσε για πολιτική με φίλους. Στο σχολείο ήταν σοπράνο στη χορωδία.

Μετά, μέσα σε μια νύχτα, αυτή η φωνή εξαφανίστηκε.

Τον Αύγουστο του περασμένου έτους, οι γιατροί αφαίρεσαν έναν όγκο από το πίσω μέρος του εγκεφάλου της. Όταν ο αναπνευστικός σωλήνας βγήκε ένα μήνα αργότερα, η Μπόγκαν δυσκολευόταν να καταπιεί και έπρεπε να ζοριστεί για να πει «γεια» στους γονείς της.

Μήνες αποκατάστασης τη βοήθησαν να αναρρώσει, αλλά η ομιλία της εξακολουθεί να επηρεάζεται. Οι φίλοι, οι ξένοι και τα μέλη της οικογένειάς της δυσκολεύονται να καταλάβουν τι προσπαθεί να τους πει.

Τον Απρίλιο, η 21χρονη πήρε πίσω την παλιά της φωνή. Όχι ο πραγματικός, αλλά ένας φωνητικός κλώνος που δημιουργήθηκε από την τεχνολογία τεχνητής νοημοσύνης (AI) του κατασκευαστή ChatGPT, OpenAI, στον οποίο μπορεί να έχει πρόσβαση μέσω μιας εφαρμογής τηλεφώνου.

Βαρέθηκα τα deepfakes AI

Η συνθετική αλλά εντυπωσιακά αληθινή φωνή της AI εκπαιδεύτηκε σε μια χρονοκάψουλα 15 δευτερολέπτων της εφηβικής φωνής της – βγαλμένη από ένα βίντεο επίδειξης μαγειρικής που ηχογράφησε για ένα σχολικό έργο – και τώρα μπορεί να πει σχεδόν ό,τι θέλει.

Πληκτρολογεί μερικές λέξεις ή προτάσεις στο τηλέφωνό της και η εφαρμογή τις διαβάζει αμέσως δυνατά.

«Γεια σας, μπορώ να πάρω έναν μεγάλο εσπρέσο με παγωμένο γάλα βρώμης με καστανή ζάχαρη, παρακαλώ», είπε η φωνή της AI της Bogan καθώς κρατούσε το τηλέφωνο έξω από το παράθυρο του αυτοκινήτου της σε ένα Starbucks Drive-thru.

Οι ειδικοί έχουν προειδοποιήσει ότι η ταχεία βελτίωση της τεχνολογίας κλωνοποίησης φωνής AI μπορεί να αυξήσει την τηλεφωνική απάτη, να διαταράξει τις δημοκρατικές εκλογές και να παραβιάσει την αξιοπρέπεια των ανθρώπων -ζωντανών ή νεκρών- που δεν συναίνεσαν ποτέ να ξαναδημιουργηθεί η φωνή τους για να κάνουν πράγματα που να λένε ότι δεν έχουν μιλήσει ποτέ.

Χρησιμοποιήθηκε για την αποστολή ψεύτικων κλήσεων σε ψηφοφόρους στο Νιου Χάμσαϊρ που υποδύονταν τον πρόεδρο των ΗΠΑ Τζο Μπάιντεν.

Στην πολιτεία του Μέριλαντ των ΗΠΑ, οι αρχές κατηγόρησαν πρόσφατα έναν αθλητικό διευθυντή γυμνασίου ότι χρησιμοποίησε τεχνητή νοημοσύνη για να δημιουργήσει ένα ψεύτικο ηχητικό κλιπ στο οποίο ο διευθυντής έκανε ρατσιστικά σχόλια.

Όμως ο Μπόγκαν και μια ομάδα γιατρών στο νοσοκομειακό συγκρότημα Lifespan στο Ρόουντ Άιλαντ πιστεύουν ότι βρήκαν μια χρήση που δικαιολογεί τους κινδύνους.

Η Alexis Bogan πληκτρολογεί μια απάντηση στην ερώτηση ενός δημοσιογράφου χρησιμοποιώντας μια εφαρμογή βασισμένη στο πρότυπο της χαμένης φωνής της.

Η Alexis Bogan πληκτρολογεί μια απάντηση στην ερώτηση ενός δημοσιογράφου χρησιμοποιώντας μια εφαρμογή βασισμένη στο πρότυπο της χαμένης φωνής της. -Τζος Ρέινολντς/ΑΠ

Επαναφορά χαμένων ψήφων

Ο Μπόγκαν είναι ένας από τους πρώτους ανθρώπους – ο μόνος με την πάθηση – που κατάφερε να αποκαταστήσει μια χαμένη φωνή Η νέα μηχανή φωνής από το OpenAI.

Ορισμένοι άλλοι πάροχοι τεχνητής νοημοσύνης, όπως η startup ElevenLabs, έχουν δοκιμάσει παρόμοια τεχνολογία για άτομα με προβλήματα ομιλίας και απώλεια ομιλίας – συμπεριλαμβανομένης μιας δικηγόρου που χρησιμοποιεί τώρα τον κλώνο φωνής της στην αίθουσα του δικαστηρίου.

Πρέπει να έχουμε επίγνωση των κινδύνων, αλλά δεν πρέπει να ξεχνάμε τον ασθενή και την κοινωνική πρόνοια.

«Ελπίζουμε ότι η Lexi θα πρωτοστατήσει στην πρόοδο της τεχνολογίας», δήλωσε ο Δρ. Rohaid Ali, ειδικευόμενος σε νευροχειρουργική στην Ιατρική Σχολή του Πανεπιστημίου Brown και στο νοσοκομείο Rhode Island.

Εκατομμύρια άνθρωποι με εξουθενωτικά εγκεφαλικά, καρκίνο του λαιμού ή νευρογεννητικές ασθένειες θα μπορούσαν να ωφεληθούν, είπε.

«Θα πρέπει να έχουμε επίγνωση των κινδύνων, αλλά δεν πρέπει να ξεχνάμε τον ασθενή και την κοινωνική πρόνοια», είπε ο Δρ. Η Fatima Mirza, μια άλλη κάτοικος που εργάζεται στο πιλοτικό έργο. «Μπορούμε να βοηθήσουμε να δώσουμε στη Λέξι την αληθινή της φωνή και να μπορέσει να μιλήσει σε μια γλώσσα που είναι πιο αληθινή με τον εαυτό της».

Ο Mirza και ο Ali, που είναι παντρεμένοι, τράβηξαν την προσοχή του κατασκευαστή ChatGPT OpenAI λόγω του προηγούμενου ερευνητικού τους έργου στο Lifespan, το οποίο χρησιμοποίησε το chatbot AI για να απλοποιήσει τα έντυπα ιατρικής συναίνεσης για τους ασθενείς.

Η εταιρεία του Σαν Φρανσίσκο εμφανίστηκε νωρίτερα φέτος αναζητώντας πολλά υποσχόμενες ιατρικές εφαρμογές για τη νέα της γεννήτρια ομιλίας AI.

Αργή ανάρρωση

Ο Μπόγκαν εξακολουθούσε να αναρρώνει σιγά σιγά από το χειρουργείο.

Η ασθένεια ξεκίνησε το περασμένο καλοκαίρι με πονοκεφάλους, θολή όραση και πεσμένο πρόσωπο, ειδοποιώντας τους γιατρούς στο Νοσοκομείο Παίδων Hasbro στο Πρόβιντενς.

Είναι σχεδόν σαν να μου αφαιρέθηκε μέρος της ταυτότητάς μου όταν έχασα τη φωνή μου.

Ανακάλυψαν έναν αγγειακό όγκο στο μέγεθος μιας μπάλας του γκολφ που πίεζε το εγκεφαλικό στέλεχος της και εμπλεκόταν τα αιμοφόρα αγγεία και τα κρανιακά νεύρα.

«Ήταν ένας αγώνας για να τεθεί υπό έλεγχο η αιμορραγία και να αφαιρεθεί ο όγκος», δήλωσε ο παιδονευροχειρουργός Δρ. Κωνσταντίνα Σβώκου.

Η θέση και η σοβαρότητα του όγκου, σε συνδυασμό με την πολυπλοκότητα της 10ωρης χειρουργικής επέμβασης, μείωσαν τον έλεγχο της γλώσσας και των φωνητικών χορδών της Μπόγκαν και επηρέασαν την ικανότητά της να τρώει και να μιλάει, είπε ο Σβώκος.

«Είναι σχεδόν σαν να μου αφαιρέθηκε ένα μέρος της ταυτότητάς μου όταν έχασα τη φωνή μου», είπε ο Μπόγκαν.

Ο σωλήνας τροφοδοσίας βγήκε φέτος. Η λογοθεραπεία συνεχίζεται και της επιτρέπει να μιλά καθαρά σε ένα ήσυχο δωμάτιο, αλλά χωρίς σημάδια θα ανακτήσει την πλήρη διαύγεια της φυσικής φωνής της.

«Κάποια στιγμή άρχισα να ξεχνάω πώς ακουγόμουν», είπε ο Bogan. «Είμαι τόσο συνηθισμένος στον τρόπο που ακούγομαι τώρα».

“Εκπαίδευση” AI στην ομιλία

Όποτε χτυπούσε το τηλέφωνο στο σπίτι της οικογένειας στο προάστιο Providence του North Smithfield, το έδινε στη μητέρα της για να απαντήσει στις κλήσεις της.

Ένιωθε σαν να ήταν βάρος για τους φίλους της όταν πήγαιναν σε ένα θορυβώδες εστιατόριο. Ο πατέρας της, ο οποίος είναι βαρήκοος, πάσχιζε να την καταλάβει.

Πίσω στο νοσοκομείο, οι γιατροί έψαχναν για έναν πιλότο ασθενή για να πειραματιστεί με την τεχνολογία OpenAI.

«Το πρώτο πρόσωπο που ο Δρ. Αυτό που ήρθε στο μυαλό του Σβώκου ήταν η Λέξι», είπε ο Άλι. «Επικοινωνήσαμε με τη Λέξι για να δούμε αν ενδιαφερόταν αλλά δεν ήξερε πώς θα απαντούσε. Ήταν πρόθυμη να το δοκιμάσει και να δει πώς θα λειτουργούσε».

Η Μπόγκαν έπρεπε να γυρίσει μερικά χρόνια πίσω για να βρει μια κατάλληλη ηχογράφηση της φωνής της για να «εκπαιδεύσει» το σύστημα AI στο πώς μιλούσε. Ήταν ένα βίντεο που της εξηγούσε πώς να φτιάξετε μια σαλάτα ζυμαρικών.

Οι γιατροί της έδωσαν σκόπιμα μόνο ένα κλιπ 15 δευτερολέπτων στο σύστημα AI. Οι ήχοι μαγειρέματος κάνουν άλλα μέρη του βίντεο ατελή. Ήταν επίσης ό,τι χρειαζόταν το OpenAI – μια βελτίωση σε σχέση με την προηγούμενη τεχνολογία, η οποία απαιτούσε πολύ μεγαλύτερα δείγματα.

Γνώριζαν επίσης ότι η μετατροπή των 15 δευτερολέπτων σε κάτι χρήσιμο θα μπορούσε να είναι ζωτικής σημασίας για τους μελλοντικούς ασθενείς που δεν έχουν ίχνος της φωνής τους στο Διαδίκτυο. Ένα σύντομο φωνητικό μήνυμα σε έναν συγγενή ίσως χρειαστεί να αρκεί.

«Αισθάνομαι τόσο συγκινημένος κάθε φορά που ακούω τη φωνή της»

Όταν το δοκίμασαν για πρώτη φορά, όλοι έμειναν έκπληκτοι από την ποιότητα του κλώνου φωνής. Οι περιστασιακές διαταραχές – μια λέξη που προφέρεται λάθος, η έλλειψη τονισμού – ήταν συνήθως ανεπαίσθητες.

Τον Απρίλιο, οι γιατροί εξόπλισαν την Bogan με μια προσαρμοσμένη εφαρμογή τηλεφώνου που μόνο αυτή μπορεί να χρησιμοποιήσει.

«Γίνομαι τόσο συγκινημένη κάθε φορά που ακούω τη φωνή της», είπε η μητέρα της, Πάμελα Μπόγκαν, με δάκρυα στα μάτια.

«Νομίζω ότι είναι υπέροχο που μπορώ να έχω ξανά αυτόν τον ήχο», πρόσθεσε ο Lexi Bogan, λέγοντας ότι «ενίσχυσε την αυτοπεποίθησή μου ξανά σε αυτό που ήταν πριν συμβεί όλο αυτό».

Τώρα χρησιμοποιεί την εφαρμογή περίπου 40 φορές την ημέρα και στέλνει σχόλια που ελπίζει ότι θα βοηθήσουν τους μελλοντικούς ασθενείς.

Ένα από τα πρώτα της πειράματα ήταν να μιλήσει με τα παιδιά στο νηπιαγωγείο όπου εργάζεται ως βοηθός διδασκαλίας.

Έγραψε «χα χα χα χα», περιμένοντας μια ρομποτική απάντηση. Προς έκπληξή της, ακουγόταν σαν το παλιό της γέλιο.

Το χρησιμοποίησε στο Target and Marshall για να ρωτήσει πού θα μπορούσαν να βρεθούν αντικείμενα. Τη βοήθησε να επανασυνδεθεί με τον πατέρα της. Και της έκανε πιο εύκολη την παραγγελία φαστ φουντ.

Οι γιατροί του Bogan έχουν αρχίσει να κλωνοποιούν τις φωνές άλλων πρόθυμων ασθενών του Rhode Island και ελπίζουν να φέρουν την τεχνολογία σε νοσοκομεία σε όλο τον κόσμο.

Η OpenAI είπε ότι θα προχωρήσει προσεκτικά στην επέκταση της χρήσης της μηχανής φωνής, η οποία δεν είναι ακόμη διαθέσιμη στο κοινό.

Ορισμένες μικρότερες νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης ήδη πωλούν υπηρεσίες κλωνοποίησης φωνής σε στούντιο ψυχαγωγίας ή τις καθιστούν ευρύτερα διαθέσιμες.

Οι περισσότεροι πάροχοι παραγωγής φωνής λένε ότι απαγορεύουν την κλοπή ταυτότητας ή την κακή χρήση, αλλά διαφέρουν ως προς τον τρόπο με τον οποίο επιβάλλουν τους όρους παροχής υπηρεσιών.

Η Alexis Bogan (κέντρο) και η μητέρα της Pamela Bogan (δεξιά) αντιδρούν καθώς ακούνε ένα αντίγραφο της χαμένης φωνής της που παίζεται από τον Dr.  Δακτυλογραφήθηκε η Fatima Mirza (αριστερά).Η Alexis Bogan (κέντρο) και η μητέρα της Pamela Bogan (δεξιά) αντιδρούν καθώς ακούνε ένα αντίγραφο της χαμένης φωνής της που παίζεται από τον Dr.  Δακτυλογραφήθηκε η Fatima Mirza (αριστερά).

Η Alexis Bogan (κέντρο) και η μητέρα της Pamela Bogan (δεξιά) αντιδρούν καθώς ακούνε ένα αντίγραφο της χαμένης φωνής της που παίζεται από τον Dr. Δακτυλογραφήθηκε η Fatima Mirza (αριστερά). -Τζος Ρέινολντς/ΑΠ

Ευρύτερη πρόσβαση στην κλωνοποίηση φωνής AI

«Θέλουμε να διασφαλίσουμε ότι όλοι όσοι χρησιμοποιούν τη φωνή τους στην υπηρεσία παρέχουν συνεχή συγκατάθεση», δήλωσε ο Jeff Harris, επικεφαλής προϊόντων του OpenAI.

«Θέλουμε να διασφαλίσουμε ότι δεν χρησιμοποιείται σε πολιτικά πλαίσια. Έτσι, ακολουθήσαμε μια προσέγγιση που περιορίσαμε πολύ σε ποιους δώσαμε την τεχνολογία».

Ο Χάρις είπε ότι το επόμενο βήμα του OpenAI είναι να αναπτύξει ένα ασφαλές εργαλείο «φωνητικού ελέγχου ταυτότητας», ώστε οι χρήστες να μπορούν να αναπαράγουν μόνο τη δική τους φωνή. Αυτό θα μπορούσε να είναι «περιοριστικό για έναν ασθενή όπως ο Lexi, ο οποίος είχε ξαφνική απώλεια της ικανότητας ομιλίας», είπε.

«Γι’ αυτό πιστεύουμε ότι χρειαζόμαστε σχέσεις εμπιστοσύνης, ιδιαίτερα με τους ιατρικούς παρόχους, για να επιτρέψουμε κάπως πιο απεριόριστη πρόσβαση στην τεχνολογία».

Η Bogan εντυπωσίασε τους γιατρούς της εστιάζοντας στο να σκεφτούν πώς η τεχνολογία θα μπορούσε να βοηθήσει άλλους με παρόμοιες ή πιο σοβαρές αναπηρίες ομιλίας.

«Ένα από τα πράγματα που σκέφτηκε σε όλη τη διαδικασία ήταν πώς να το τροποποιήσει και να το αλλάξει αυτό», είπε η Mirza. «Ήταν μεγάλη έμπνευση για εμάς».

Ενώ πρέπει να ασχοληθεί με το τηλέφωνό της για να πάρει τη μηχανή ομιλίας να μιλήσει προς το παρόν, η Bogan οραματίζεται μια μηχανή ομιλίας AI που βελτιώνει παλαιότερα μέσα αποκατάστασης ομιλίας – όπως ο ηλεκτρολάρυγγας με ρομποτικό ήχο ή μια φωνητική πρόσθεση – συγχωνευόμενη με τον άνθρωπο. body Μεταφράστε λέξεις σε πραγματικό χρόνο.

Είναι λιγότερο σίγουρη τι θα συμβεί καθώς μεγαλώνει και η φωνή της με AI εξακολουθεί να ακούγεται όπως όταν ήταν έφηβη. Ίσως η τεχνολογία θα μπορούσε να «γηραιάσει» τη φωνή της AI, είπε.

«Αν και δεν έχω επιστρέψει εντελώς τη φωνή μου, έχω κάτι που με βοηθάει να βρω ξανά τη φωνή μου», είπε.

Leave a Reply

Your email address will not be published. Required fields are marked *