Είναι το νέο μοντέλο AI πραγματικά καλύτερο από το ChatGPT;

Η Google Deepmind ανακοίνωσε πρόσφατα το Gemini, το νέο της μοντέλο τεχνητής νοημοσύνης που έχει σχεδιαστεί για να ανταγωνιστεί το ChatGPT του OpenAI. Ενώ και τα δύο μοντέλα είναι παραδείγματα «γεννητικής τεχνητής νοημοσύνης» που μαθαίνουν να βρίσκουν μοτίβα κατά την εισαγωγή πληροφοριών εκπαίδευσης για τη δημιουργία νέων δεδομένων (εικόνες, λέξεις ή άλλα μέσα), το ChatGPT είναι ένα μοντέλο μεγάλης γλώσσας (LLM) που εστιάζει στην παραγωγή κειμένου που εστιάζεται .

Ακριβώς όπως το ChatGPT είναι μια διαδικτυακή εφαρμογή συνομιλίας που βασίζεται στο νευρωνικό δίκτυο GPT (εκπαιδευμένη σε τεράστιες ποσότητες κειμένου), η Google έχει μια εφαρμογή συνομιλίας ιστού που ονομάζεται Bard που βασίζεται σε ένα μοντέλο που ονομάζεται LaMDA (εκπαιδευμένο σε). διάλογος). Αλλά η Google το αναπροσαρμόζει τώρα με βάση το Gemini.

Αυτό που ξεχωρίζει το Gemini από τα προηγούμενα μοντέλα τεχνητής νοημοσύνης όπως το LaMDA είναι ότι είναι ένα «πολυτροπικό μοντέλο». Αυτό σημαίνει ότι λειτουργεί απευθείας με πολλαπλές λειτουργίες εισόδου και εξόδου: Εκτός από την εισαγωγή και την έξοδο κειμένου, υποστηρίζει επίσης εικόνες, ήχο και βίντεο. Κατά συνέπεια, εμφανίζεται ένα νέο αρκτικόλεξο: LMM (Μεγάλο Πολυτροπικό Μοντέλο), που δεν πρέπει να συγχέεται με το LLM.

Τον Σεπτέμβριο, το OpenAI ανακοίνωσε ένα μοντέλο που ονομάζεται GPT-4Vision, το οποίο μπορεί επίσης να λειτουργήσει με εικόνες, ήχο και κείμενο. Ωστόσο, δεν είναι ένα πλήρως πολυτροπικό μοντέλο με τον τρόπο που υπόσχονται οι Δίδυμοι.

Για παράδειγμα, ενώ το ChatGPT-4, το οποίο βασίζεται στο GPT-4V, μπορεί να λειτουργήσει με είσοδο ήχου και να δημιουργήσει έξοδο ομιλίας, το OpenAI επιβεβαίωσε ότι το κάνει αυτό μετατρέποντας την ομιλία σε κείμενο στην είσοδο χρησιμοποιώντας ένα άλλο μοντέλο βαθιάς εκμάθησης που ονομάζεται Whisper. Το ChatGPT-4 μετατρέπει επίσης κείμενο σε ομιλία χρησιμοποιώντας διαφορετικό μοντέλο κατά την έξοδο, πράγμα που σημαίνει ότι το ίδιο το GPT-4V λειτουργεί αποκλειστικά με κείμενο.

Ομοίως, το ChatGPT-4 μπορεί να δημιουργήσει εικόνες, αλλά δημιουργώντας μηνύματα κειμένου που μεταβιβάζονται σε ένα ξεχωριστό μοντέλο βαθιάς εκμάθησης που ονομάζεται Dall-E 2, το οποίο μετατρέπει τις περιγραφές κειμένου σε εικόνες.

Αντίθετα, η Google σχεδίασε το Gemini ως «εγγενώς πολυτροπικό». Αυτό σημαίνει ότι το βασικό μοντέλο επεξεργάζεται μια σειρά τύπων εισόδου (ήχος, εικόνες, βίντεο και κείμενο) απευθείας και μπορεί επίσης να τα εξάγει απευθείας.

Η κρίση

Η διάκριση μεταξύ αυτών των δύο προσεγγίσεων μπορεί να φαίνεται ακαδημαϊκή, αλλά είναι σημαντική. Το γενικό συμπέρασμα από την τεχνική έκθεση της Google και άλλες ποιοτικές δοκιμές μέχρι σήμερα είναι ότι η τρέχουσα δημόσια διαθέσιμη έκδοση του Gemini, που ονομάζεται Gemini 1.0 Pro, γενικά δεν είναι τόσο καλή όσο το GPT-4 και μοιάζει περισσότερο με το GPT 3.5 στις δυνατότητές της.

Η Google ανακοίνωσε επίσης μια πιο ισχυρή έκδοση του Gemini που ονομάζεται Gemini 1.0 Ultra και παρουσίασε ορισμένα αποτελέσματα που δείχνουν ότι είναι πιο ισχυρό από το GPT-4. Ωστόσο, αυτό είναι δύσκολο να εκτιμηθεί για δύο λόγους. Ο πρώτος λόγος είναι ότι η Google δεν έχει κυκλοφορήσει ακόμη το Ultra, επομένως τα αποτελέσματα δεν μπορούν να επικυρωθούν ανεξάρτητα αυτήν τη στιγμή.

Ο δεύτερος λόγος που είναι δύσκολο να αξιολογηθούν οι ισχυρισμοί της Google είναι ότι η Google επέλεξε να δημοσιεύσει ένα κάπως παραπλανητικό βίντεο επίδειξης, δείτε παρακάτω. Το βίντεο δείχνει το μοντέλο Gemini να παρέχει διαδραστικό και ρευστό σχολιασμό σε μια ζωντανή ροή βίντεο.

Ωστόσο, όπως ανέφερε αρχικά το Bloomberg, η επίδειξη στο βίντεο δεν έγινε σε πραγματικό χρόνο. Για παράδειγμα, το μοντέλο είχε μάθει προηγουμένως ορισμένες συγκεκριμένες εργασίες, όπως τα τρία κύπελλα και το κόλπο με την μπάλα, στο οποίο ο Δίδυμος παρακολουθεί το κύπελλο κάτω από το οποίο βρίσκεται η μπάλα. Για να το κάνει αυτό, του παρασχέθηκε μια ακολουθία ακίνητης εικόνας στην οποία τα χέρια του παρουσιαστή είναι στα κύπελλα που ανταλλάσσονται.

Υποσχόμενο μέλλον

Παρά αυτά τα ζητήματα, πιστεύω ότι το Gemini και τα μεγάλα πολυτροπικά μοντέλα αντιπροσωπεύουν μια πολύ συναρπαστική πρόοδο για τη γενετική τεχνητή νοημοσύνη. Αυτό οφείλεται τόσο στις μελλοντικές τους δυνατότητες όσο και στο ανταγωνιστικό τοπίο των εργαλείων AI. Όπως ανέφερα σε προηγούμενο άρθρο, το GPT-4 εκπαιδεύτηκε σε περίπου 500 δισεκατομμύρια λέξεις – ουσιαστικά όλα τα δημόσια κείμενα καλής ποιότητας.

Η απόδοση των μοντέλων βαθιάς μάθησης καθορίζεται γενικά από την αυξανόμενη πολυπλοκότητα του μοντέλου και τον όγκο των δεδομένων εκπαίδευσης. Αυτό οδήγησε στο ερώτημα πώς θα μπορούσαν να επιτευχθούν περαιτέρω βελτιώσεις, καθώς έχουμε σχεδόν εξαντλήσει τα νέα δεδομένα εκπαίδευσης για γλωσσικά μοντέλα. Ωστόσο, τα πολυτροπικά μοντέλα ανοίγουν τεράστια νέα αποθέματα προπονητικών δεδομένων – με τη μορφή εικόνων, ήχου και βίντεο.

AI όπως το Gemini που μπορούν να εκπαιδευτούν απευθείας με βάση όλα αυτά τα δεδομένα είναι πιθανό να έχουν πολύ μεγαλύτερες δυνατότητες στο μέλλον. Για παράδειγμα, θα περίμενα από τα μοντέλα που έχουν εκπαιδευτεί σε βίντεο να αναπτύξουν εξελιγμένες εσωτερικές αναπαραστάσεις αυτού που ονομάζεται «αφελής φυσική». Αυτή είναι η θεμελιώδης κατανόηση που έχουν οι άνθρωποι και τα ζώα σχετικά με την αιτιότητα, την κίνηση, τη βαρύτητα και άλλα φυσικά φαινόμενα.

Είμαι επίσης ενθουσιασμένος που βλέπω τι σημαίνει αυτό για το ανταγωνιστικό τοπίο της AI. Κατά τη διάρκεια του περασμένου έτους, παρά την εμφάνιση πολλών μοντέλων τεχνητής νοημοσύνης, τα μοντέλα GPT του OpenAI ήταν κυρίαρχα, δείχνοντας ένα επίπεδο απόδοσης που άλλα μοντέλα δεν μπόρεσαν να ταιριάξουν.

Το Gemini της Google σηματοδοτεί την εμφάνιση ενός σημαντικού ανταγωνιστή που θα βοηθήσει στην προώθηση του πεδίου. Φυσικά, το OpenAI σχεδόν σίγουρα εργάζεται στο GPT-5 και μπορούμε να περιμένουμε ότι θα είναι επίσης πολυτροπικό και θα επιδεικνύει αξιόλογες νέες δυνατότητες.

Διαβάστε περισσότερα: Το Gemini AI της Google υποδεικνύει το επόμενο μεγάλο άλμα για την τεχνολογία: ανάλυση πληροφοριών σε πραγματικό χρόνο

Τούτου λεχθέντος, είμαι ενθουσιασμένος που βλέπω την εμφάνιση πολύ μεγάλων πολυτροπικών μοντέλων που είναι ανοιχτού κώδικα και μη εμπορικά, ελπίζουμε ότι θα είναι στο δρόμο τα επόμενα χρόνια.

Μου αρέσουν επίσης ορισμένα χαρακτηριστικά της εφαρμογής Gemini. Για παράδειγμα, η Google ανακοίνωσε μια έκδοση που ονομάζεται Gemini Nano, η οποία είναι πολύ πιο ελαφριά και τρέχει απευθείας σε κινητά τηλέφωνα.

Τα ελαφριά μοντέλα όπως αυτό μειώνουν τον περιβαλλοντικό αντίκτυπο των υπολογιστών τεχνητής νοημοσύνης και προσφέρουν πολλά οφέλη από την άποψη της προστασίας δεδομένων και είμαι βέβαιος ότι αυτή η εξέλιξη θα οδηγήσει τους ανταγωνιστές να ακολουθήσουν το παράδειγμά τους.

Αυτό το άρθρο αναδημοσιεύεται από το The Conversation με άδεια Creative Commons. Διαβάστε το αρχικό άρθρο.

Η συζήτηση

Ο Michael G. Madden δεν εργάζεται, δεν συμβουλεύει, δεν κατέχει μετοχές ή δεν λαμβάνει χρηματοδότηση από οποιαδήποτε εταιρεία ή οργανισμό που θα επωφεληθεί από αυτό το άρθρο και δεν έχει αποκαλύψει σχετικές σχέσεις πέρα από την ακαδημαϊκή τους απασχόληση.

Η κρίση

Υποσχόμενο μέλλον

Leave a Reply Cancel reply