Η αρρώστια της πήρε τη φωνή. Η AI έχει δημιουργήσει ένα αντίγραφο που φέρει στο τηλέφωνό της

By | May 13, 2024

PROVIDENCE, R.I. (AP) – Η φωνή που είχε ο Alexis “Lexi” Bogan πριν από το περασμένο καλοκαίρι ήταν πεντανόστιμη.

Της άρεσε να τραγουδάει τις μπαλάντες της Taylor Swift και του Zach Bryan στο αυτοκίνητο. Γελούσε όλη την ώρα — ακόμα και όταν μάζευε παιδιά προσχολικής ηλικίας που συμπεριφέρονταν άσχημα ή συζητούσε για πολιτική με φίλους γύρω από ένα τζάκι στην πίσω αυλή. Στο γυμνάσιο ήταν σοπράνο στη χορωδία.

Τότε αυτή η φωνή εξαφανίστηκε.

Τον Αύγουστο, οι γιατροί αφαίρεσαν έναν απειλητικό για τη ζωή όγκο που είχε εγκατασταθεί κοντά στον εγκέφαλό της. Όταν ο αναπνευστικός σωλήνας βγήκε ένα μήνα αργότερα, η Μπόγκαν δυσκολευόταν να καταπιεί και έπρεπε να ζοριστεί για να πει «γεια» στους γονείς της. Μήνες αποκατάστασης τη βοήθησαν να αναρρώσει, αλλά η ομιλία της εξακολουθεί να επηρεάζεται. Οι φίλοι, οι ξένοι και τα μέλη της οικογένειάς της δυσκολεύονται να καταλάβουν τι προσπαθεί να τους πει.

Τον Απρίλιο, η 21χρονη πήρε πίσω την παλιά της φωνή. Όχι ο πραγματικός, αλλά ένας κλώνος φωνής που δημιουργείται από τεχνητή νοημοσύνη στον οποίο μπορεί να έχει πρόσβαση μέσω μιας εφαρμογής τηλεφώνου. Η συνθετική αλλά εντυπωσιακά ρεαλιστική φωνή της AI εκπαιδεύτηκε σε μια χρονοκάψουλα 15 δευτερολέπτων της εφηβικής φωνής της – βγαλμένη από ένα βίντεο επίδειξης μαγειρικής που ηχογράφησε για ένα έργο γυμνασίου – και τώρα μπορεί να πει σχεδόν ό,τι θέλει.

Πληκτρολογεί μερικές λέξεις ή προτάσεις στο τηλέφωνό της και η εφαρμογή τις διαβάζει αμέσως δυνατά.

«Γεια σας, μπορώ να πάρω έναν μεγάλο εσπρέσο με παγωμένο γάλα βρώμης με καστανή ζάχαρη, παρακαλώ», είπε η φωνή της AI της Bogan καθώς κρατούσε το τηλέφωνο έξω από το παράθυρο του αυτοκινήτου της σε ένα Starbucks Drive-thru.

Οι ειδικοί προειδοποιούν ότι η ταχεία βελτίωση της τεχνολογίας κλωνοποίησης φωνής AI μπορεί να αυξήσει την τηλεφωνική απάτη, να διαταράξει τις δημοκρατικές εκλογές και να παραβιάσει την αξιοπρέπεια ανθρώπων, ζωντανών ή νεκρών, που ποτέ δεν συναίνεσαν να ξαναδημιουργηθεί η φωνή τους για να πουν πράγματα που θέλουν να μην μιλήσουν ποτέ.

Χρησιμοποιήθηκε για την αποστολή ψεύτικων κλήσεων σε ψηφοφόρους στο Νιου Χάμσαϊρ, μιμούμενοι τον Πρόεδρο Τζο Μπάιντεν. Στο Μέριλαντ, οι αρχές κατηγόρησαν πρόσφατα έναν αθλητικό διευθυντή γυμνασίου ότι χρησιμοποίησε τεχνητή νοημοσύνη για να δημιουργήσει ένα ψεύτικο ηχητικό κλιπ στο οποίο ο διευθυντής έκανε ρατσιστικά σχόλια.

Όμως ο Μπόγκαν και μια ομάδα γιατρών στο νοσοκομειακό συγκρότημα Lifespan στο Ρόουντ Άιλαντ πιστεύουν ότι βρήκαν μια χρήση που δικαιολογεί τους κινδύνους. Ο Bogan είναι ένας από τους πρώτους ανθρώπους – ο μόνος με την πάθηση – που αποκατέστησε μια χαμένη φωνή χρησιμοποιώντας τη νέα μηχανή φωνής του OpenAI. Ορισμένοι άλλοι πάροχοι τεχνητής νοημοσύνης, όπως η startup ElevenLabs, έχουν δοκιμάσει παρόμοια τεχνολογία για άτομα με προβλήματα ομιλίας και απώλεια ομιλίας – συμπεριλαμβανομένης μιας δικηγόρου που χρησιμοποιεί τώρα τον κλώνο φωνής της στην αίθουσα του δικαστηρίου.

«Ελπίζουμε ότι η Lexi θα πρωτοστατήσει στην πρόοδο της τεχνολογίας», δήλωσε ο Δρ. Rohaid Ali, ειδικευόμενος σε νευροχειρουργική στην Ιατρική Σχολή του Πανεπιστημίου Brown και στο νοσοκομείο Rhode Island. Εκατομμύρια άνθρωποι με εξουθενωτικά εγκεφαλικά, καρκίνο του λαιμού ή νευρογεννητικές ασθένειες θα μπορούσαν να ωφεληθούν, είπε.

«Θα πρέπει να έχουμε επίγνωση των κινδύνων, αλλά δεν πρέπει να ξεχνάμε τον ασθενή και την κοινωνική πρόνοια», είπε ο Δρ. Η Fatima Mirza, μια άλλη κάτοικος που εργάζεται στο πιλοτικό έργο. «Μπορούμε να βοηθήσουμε να δώσουμε στη Λέξι την αληθινή της φωνή και να μπορέσει να μιλήσει σε μια γλώσσα που είναι πιο αληθινή με τον εαυτό της».

Ο Mirza και ο Ali, που είναι παντρεμένοι, τράβηξαν την προσοχή του κατασκευαστή ChatGPT OpenAI λόγω του προηγούμενου ερευνητικού τους έργου στο Lifespan, το οποίο χρησιμοποίησε το chatbot AI για να απλοποιήσει τα έντυπα ιατρικής συναίνεσης για τους ασθενείς. Η εταιρεία του Σαν Φρανσίσκο εμφανίστηκε νωρίτερα φέτος αναζητώντας πολλά υποσχόμενες ιατρικές εφαρμογές για τη νέα της γεννήτρια ομιλίας AI.

Ο Μπόγκαν εξακολουθούσε να αναρρώνει αργά από την επέμβαση. Η ασθένεια ξεκίνησε το περασμένο καλοκαίρι με πονοκεφάλους, θολή όραση και πεσμένο πρόσωπο, ειδοποιώντας τους γιατρούς στο Νοσοκομείο Παίδων Hasbro στο Πρόβιντενς. Ανακάλυψαν έναν αγγειακό όγκο στο μέγεθος μιας μπάλας του γκολφ που πίεζε το εγκεφαλικό στέλεχος της και εμπλεκόταν τα αιμοφόρα αγγεία και τα κρανιακά νεύρα.

«Ήταν ένας αγώνας για να τεθεί υπό έλεγχο η αιμορραγία και να αφαιρεθεί ο όγκος», δήλωσε ο παιδονευροχειρουργός Δρ. Κωνσταντίνα Σβώκου.

Η 10ωρη διάρκεια της επέμβασης, σε συνδυασμό με τη θέση και τη σοβαρότητα του όγκου, κατέστρεψε τους μυς της γλώσσας και τις φωνητικές χορδές της Μπόγκαν και επηρέασε την ικανότητά της να τρώει και να μιλάει, είπε ο Σβώκος.

«Είναι σχεδόν σαν να μου αφαιρέθηκε ένα μέρος της ταυτότητάς μου όταν έχασα τη φωνή μου», είπε ο Μπόγκαν.

Ο σωλήνας τροφοδοσίας βγήκε φέτος. Η λογοθεραπεία συνεχίζεται και της επιτρέπει να μιλά καθαρά σε ένα ήσυχο δωμάτιο, αλλά χωρίς σημάδια θα ανακτήσει την πλήρη διαύγεια της φυσικής φωνής της.

«Κάποια στιγμή άρχισα να ξεχνάω πώς ακουγόμουν», είπε ο Bogan. «Είμαι τόσο συνηθισμένος στον τρόπο που ακούγομαι τώρα».

Όποτε χτυπούσε το τηλέφωνο στο σπίτι της οικογένειας στο προάστιο Providence του North Smithfield, το έδινε στη μητέρα της για να απαντήσει στις κλήσεις της. Ένιωθε σαν να ήταν βάρος για τους φίλους της όταν πήγαιναν σε ένα θορυβώδες εστιατόριο. Ο πατέρας της, ο οποίος είναι βαρήκοος, πάσχιζε να την καταλάβει.

Πίσω στο νοσοκομείο, οι γιατροί έψαχναν για έναν πιλότο ασθενή για να πειραματιστεί με την τεχνολογία OpenAI.

«Το πρώτο πρόσωπο που ο Δρ. Αυτό που ήρθε στο μυαλό του Σβώκου ήταν η Λέξι», είπε ο Άλι. «Επικοινωνήσαμε με τη Λέξι για να δούμε αν θα την ενδιέφερε, χωρίς να γνωρίζουμε πώς θα αντιδρούσε. Ήταν πρόθυμη να το δοκιμάσει και να δει πώς θα λειτουργούσε.

Η Μπόγκαν έπρεπε να γυρίσει μερικά χρόνια πίσω για να βρει μια κατάλληλη ηχογράφηση της φωνής της για να «εκπαιδεύσει» το σύστημα AI στο πώς μιλούσε. Ήταν ένα βίντεο που της εξηγούσε πώς να φτιάξετε μια σαλάτα ζυμαρικών.

Οι γιατροί της έδωσαν σκόπιμα μόνο ένα κλιπ 15 δευτερολέπτων στο σύστημα AI. Οι ήχοι μαγειρέματος κάνουν άλλα μέρη του βίντεο ατελή. Ήταν επίσης ό,τι χρειαζόταν το OpenAI – μια βελτίωση σε σχέση με την προηγούμενη τεχνολογία, η οποία απαιτούσε πολύ μεγαλύτερα δείγματα.

Γνώριζαν επίσης ότι η μετατροπή των 15 δευτερολέπτων σε κάτι χρήσιμο θα μπορούσε να είναι ζωτικής σημασίας για τους μελλοντικούς ασθενείς που δεν έχουν ίχνος της φωνής τους στο Διαδίκτυο. Ένα σύντομο φωνητικό μήνυμα σε έναν συγγενή ίσως χρειαστεί να αρκεί.

Όταν το δοκίμασαν για πρώτη φορά, όλοι έμειναν έκπληκτοι από την ποιότητα του κλώνου φωνής. Οι περιστασιακές διαταραχές – μια λέξη που προφέρεται λάθος, η έλλειψη τονισμού – ήταν συνήθως ανεπαίσθητες. Τον Απρίλιο, οι γιατροί εξόπλισαν την Bogan με μια προσαρμοσμένη εφαρμογή τηλεφώνου που μόνο αυτή μπορεί να χρησιμοποιήσει.

«Γίνομαι τόσο συγκινημένη κάθε φορά που ακούω τη φωνή της», είπε η μητέρα της, Πάμελα Μπόγκαν, με δάκρυα στα μάτια.

«Πιστεύω ότι είναι υπέροχο που μπορώ να έχω ξανά αυτόν τον ήχο», πρόσθεσε ο Lexi Bogan, λέγοντας ότι «ενίσχυσε την αυτοπεποίθησή μου ξανά σε αυτό που ήταν πριν συμβεί όλο αυτό».

Τώρα χρησιμοποιεί την εφαρμογή περίπου 40 φορές την ημέρα και στέλνει σχόλια που ελπίζει ότι θα βοηθήσουν τους μελλοντικούς ασθενείς. Ένα από τα πρώτα της πειράματα ήταν να μιλήσει με τα παιδιά στο νηπιαγωγείο όπου εργάζεται ως βοηθός διδασκαλίας. Έγραψε «χα χα χα χα», περιμένοντας μια ρομποτική απάντηση. Προς έκπληξή της, ακουγόταν σαν το παλιό της γέλιο.

Το χρησιμοποίησε στο Target and Marshall για να ρωτήσει πού θα μπορούσαν να βρεθούν αντικείμενα. Τη βοήθησε να επανασυνδεθεί με τον πατέρα της. Και της έκανε πιο εύκολη την παραγγελία φαστ φουντ.

Οι γιατροί του Bogan έχουν αρχίσει να κλωνοποιούν τις φωνές άλλων πρόθυμων ασθενών του Rhode Island και ελπίζουν να φέρουν την τεχνολογία σε νοσοκομεία σε όλο τον κόσμο. Η OpenAI είπε ότι θα προχωρήσει προσεκτικά στην επέκταση της χρήσης της μηχανής φωνής, η οποία δεν είναι ακόμη διαθέσιμη στο κοινό.

Ορισμένες μικρότερες νεοφυείς επιχειρήσεις τεχνητής νοημοσύνης ήδη πωλούν υπηρεσίες κλωνοποίησης φωνής σε στούντιο ψυχαγωγίας ή τις καθιστούν ευρύτερα διαθέσιμες. Οι περισσότεροι πάροχοι παραγωγής φωνής λένε ότι απαγορεύουν την κλοπή ταυτότητας ή την κακή χρήση, αλλά διαφέρουν ως προς τον τρόπο με τον οποίο επιβάλλουν τους όρους παροχής υπηρεσιών.

«Θέλουμε να διασφαλίσουμε ότι όλοι όσοι χρησιμοποιούν τη φωνή τους στην υπηρεσία παρέχουν συνεχή συγκατάθεση», δήλωσε ο Jeff Harris, επικεφαλής προϊόντων του OpenAI. «Θέλουμε να διασφαλίσουμε ότι δεν χρησιμοποιείται σε πολιτικά πλαίσια. Γι’ αυτό ακολουθήσαμε μια προσέγγιση που στοχεύει να περιορίσει με ποιους μοιραζόμαστε την τεχνολογία.”

Ο Χάρις είπε ότι το επόμενο βήμα του OpenAI είναι να αναπτύξει ένα ασφαλές εργαλείο «φωνητικού ελέγχου ταυτότητας», ώστε οι χρήστες να μπορούν να αναπαράγουν μόνο τη δική τους φωνή. Αυτό θα μπορούσε να είναι “περιοριστικό για έναν ασθενή όπως ο Lexi, ο οποίος είχε ξαφνική απώλεια της ικανότητας ομιλίας”, είπε. «Γι’ αυτό πιστεύουμε ότι χρειαζόμαστε σχέσεις εμπιστοσύνης, ιδιαίτερα με τους ιατρικούς παρόχους, για να επιτρέψουμε κάπως πιο απεριόριστη πρόσβαση στην τεχνολογία».

Η Μπόγκαν εντυπωσίασε τους γιατρούς της εστιάζοντας στο να σκεφτούν πώς η τεχνολογία θα μπορούσε να βοηθήσει άλλους με παρόμοιες ή πιο σοβαρές αναπηρίες ομιλίας.

«Ένα από τα πράγματα που σκέφτηκε σε όλη τη διαδικασία ήταν πώς να το τροποποιήσει και να το αλλάξει αυτό», είπε η Mirza. «Ήταν μεγάλη έμπνευση για εμάς».

Ενώ πρέπει να ασχοληθεί με το τηλέφωνό της για να πάρει τη μηχανή ομιλίας να μιλήσει προς το παρόν, η Bogan οραματίζεται μια μηχανή ομιλίας AI που βελτιώνει παλαιότερα μέσα αποκατάστασης ομιλίας – όπως ο ηλεκτρολάρυγγας με ρομποτικό ήχο ή μια φωνητική πρόσθεση – συγχωνευόμενη με τον άνθρωπο. body Μεταφράστε λέξεις σε πραγματικό χρόνο.

Είναι λιγότερο σίγουρη τι θα συμβεί καθώς μεγαλώνει και η φωνή της με AI εξακολουθεί να ακούγεται όπως όταν ήταν έφηβη. Ίσως η τεχνολογία θα μπορούσε να «γηραιάσει» τη φωνή της AI, είπε.

«Αν και δεν έχω επιστρέψει εντελώς τη φωνή μου, έχω κάτι που με βοηθάει να βρω ξανά τη φωνή μου», είπε.

___

Το Associated Press και το OpenAI έχουν συμφωνία άδειας χρήσης και τεχνολογίας που επιτρέπει στο OpenAI να έχει πρόσβαση σε ένα τμήμα των αρχείων κειμένου του AP.

Leave a Reply

Your email address will not be published. Required fields are marked *