Μοντελοποίηση γλώσσας χωρίς tokenizer με εικονοστοιχεία

Μοντελοποίηση γλώσσας χωρίς tokenizer με εικονοστοιχεία

September 30, 2022 0 Von admin

Αυτό το άρθρο δημοσιεύτηκε ως μέρος του Data Science Blogathon.

Εισαγωγή

Βαρεθήκατε τα tokenizers ή τις υπολέξεις; Ρίξτε μια ματιά στο PIXEL (Κωδικοποιητής γλώσσας που βασίζεται σε pixel), ένα προεκπαιδευμένο γλωσσικό μοντέλο που εξαλείφει αποτελεσματικά την ανάγκη για ένα tokenizer επεξεργάζοντας κείμενο ως εικόνες, επιτρέποντας τη μεταφορά αναπαραστάσεων μεταξύ των γλωσσών με βάση την ορθογραφική ομοιότητα ή τη συν-ενεργοποίηση εικονοστοιχείων.

Σε αυτό το άρθρο, θα εμβαθύνουμε στη «Μοντελοποίηση γλώσσας με Pixels», την ιδέα που προτάθηκε αρχικά από τους Phillip Rust et al.

Καλύτερες στιγμές

  • Ένα προεκπαιδευμένο μοντέλο γλώσσας χωρίς tokenizer, το PIXEL, αποδίδει το κείμενο ως εικόνες, το οποίο καθιστά δυνατή τη μεταφορά αναπαραστάσεων μεταξύ των γλωσσών με βάση την ορθογραφική ομοιότητα ή τη συν-ενεργοποίηση pixel.

  • Το μοντέλο PIXEL ανακατασκευάζει τα εικονοστοιχεία των καλυμμένων ενημερώσεων κώδικα αντί να προβλέπει μια κατανομή σε διακριτικά.

  • Το μοντέλο PIXEL εκπαιδεύεται στα ίδια αγγλικά δεδομένα με το BERT και αξιολογείται σε συντακτικές και σημασιολογικές εργασίες σε τυπολογικά διαφορετικές γλώσσες, συμπεριλαμβανομένων μη λατινικών γραφών.

  • Το PIXEL υπερτερεί του BERT σε εργασίες συντακτικής και σημασιολογικής επεξεργασίας σε σενάρια που δεν υπάρχουν στα δεδομένα προεκπαίδευσης, αλλά το PIXEL είναι ελαφρώς πιο αδύναμο από το BERT όταν ασχολείται με λατινικά σενάρια.

  • Το PIXEL είναι πιο ανθεκτικό σε θορυβώδεις εισαγωγές κειμένου από το BERT, επιβεβαιώνοντας περαιτέρω την αποτελεσματικότητα της γλώσσας μοντελοποίησης με pixel.

Γιατί χρειάζεται ένα μοντέλο που μοιάζει με PIXEL;

Τα μοντέλα γλώσσας ορίζονται συνήθως σε ένα πεπερασμένο σύνολο εισόδων, το οποίο συνεπάγεται α λεξιλογικό συμφόρηση όταν προσπαθείτε να κλιμακώσετε τον αριθμό των υποστηριζόμενων γλωσσών. Η αντιμετώπιση αυτής της συμφόρησης οδηγεί σε μια αντιστάθμιση μεταξύ αυτού που μπορεί να αναπαρασταθεί στον πίνακα ενσωμάτωσης και του υπολογιστικού στρώματος εξόδου.

Επισκόπηση μεθόδου

Ο κωδικοποιητής γλώσσας που βασίζεται σε εικονοστοιχεία (PIXEL) είναι χτισμένος στον Visual Transformer με μάσκα αυτόματης κωδικοποίησης (ViT-MAE). Το ViT-MAE είναι ένα μοντέλο κωδικοποιητή-αποκωδικοποιητή που βασίζεται σε μετασχηματιστή και έχει εκπαιδευτεί για την ανακατασκευή των εικονοστοιχείων σε επιδιορθώσεις καλυμμένων εικόνων. Αποτελείται από τρία βασικά στοιχεία: μια λειτουργία απόδοσης κειμένου, η οποία σχεδιάζει κείμενο ως εικόνα. έναν κωδικοποιητή, ο οποίος κωδικοποιεί τις αποκαλυμμένες περιοχές της εικόνας που αποδίδεται. και έναν αποκωδικοποιητή, ο οποίος ανακατασκευάζει τις καλυμμένες περιοχές σε επίπεδο pixel (Βλ. Εικ. 1).

PIXEL

Εικόνα 1: Επισκόπηση της αρχιτεκτονικής του PIXEL (Πηγή: Arxiv)

Το PIXEL δεν έχει επίπεδο ενσωμάτωσης λεξιλογίου. Αντίθετα, αποδίδει το κείμενο ως μια ακολουθία διορθώσεων σταθερού μεγέθους και επεξεργάζεται τις ενημερώσεις κώδικα χρησιμοποιώντας έναν κωδικοποιητή Vision Transformer. Το PIXEL δεν χρειάζεται επίσης ένα υπολογιστικά ακριβό επίπεδο εξόδου όταν αναδομεί τα εικονοστοιχεία των καλυμμένων ενημερώσεων κώδικα. Ουσιαστικά, το PIXEL εξαλείφει τον περιορισμό του bottleneck χωρίς να πληρώσει το κόστος των παράλογα μεγάλων ακολουθιών.

Ο βασικός στόχος πίσω από την εκπαίδευση του μοντέλου PIXEL είναι η ανακατασκευή των εικονοστοιχείων των καλυμμένων επιδιορθώσεων αντί της πρόβλεψης μιας διανομής σε διακριτικά. Το μοντέλο PIXEL εκπαιδεύεται στα ίδια αγγλικά δεδομένα με το BERT και αξιολογείται σε συντακτικές και σημασιολογικές εργασίες (όπως επισήμανση μέρους του λόγου, απάντηση ερωτήσεων, ανάλυση εξάρτησης, εργασίες κατανόησης γλώσσας κ.λπ.) σε τυπολογικά διαφορετικές γλώσσες, συμπεριλαμβανομένων διαφόρων μη Λατινικές γραφές.

Ένα πλεονέκτημα αυτής της προσέγγισης είναι ότι μπορεί να χειριστεί διαφορετικές γλώσσες, emoji κ.λπ., χωρίς να εκραγεί το μέγεθος των πινάκων ενσωμάτωσης. αυτή η προσέγγιση δεν περιλαμβάνει προκαθορισμένο λεξιλόγιο.

Tokenizer

Εικόνα 2: Παραδείγματα του αποδοθέντος κειμένου. (Πηγή: Arxiv)

Το σχήμα 2 δείχνει ότι τα περισσότερα συστήματα γραφής, τα έγχρωμα emoji και οι περίπλοκες διατάξεις κειμένου, όπως η γραφή από δεξιά προς τα αριστερά και οι συνδέσεις υποστηρίζονται εγγενώς από το PIXEL. Τα μαύρα μπαλώματα λειτουργούν ως διαχωριστικά και δείκτες τέλους ακολουθίας (EOS). Και τα κενά patches στα δεξιά του δείκτη EOS αντιμετωπίζονται ως συμπλήρωμα ακολουθίας. Για εργασίες σε επίπεδο λέξης, η οριζόντια απόσταση αυξάνεται έτσι ώστε κάθε ενημέρωση κώδικα εικόνας να αντιστοιχίζεται σε μία ακριβώς λέξη.

Το PIXEL μπορεί να ρυθμιστεί με ακρίβεια για εργασίες μεταγενέστερου NLP, όπως ακριβώς ρυθμίζονται οι κωδικοποιητές τύπου BERT, απλώς αντικαθιστώντας τον αποκωδικοποιητή PIXEL με μια κατάλληλη κεφαλή ταξινόμησης. Επιπλέον, περικόπτοντας ή παρεμβάλλοντας τις ενσωματώσεις ημιτονοειδούς θέσης, μπορούμε να βελτιστοποιήσουμε με ακολουθίες μικρότερες ή μεγαλύτερες από 529 patches, αντίστοιχα.

Σημειώστε ότι ο αποκωδικοποιητής PIXEL δεν χρειάζεται να υπολογίσει ένα ακριβό softmax σε ένα λεξιλόγιο υπολέξεων και δεν χρειάζεται καν τα βάρη ενσωμάτωσης υπολέξεων. Το PIXEL εκπαιδεύεται χρησιμοποιώντας απώλεια ανακατασκευής εικονοστοιχείων κανονικοποιημένου μέσου τετραγώνου σφάλματος (MSE) που μετρά την απόκλιση μεταξύ κανονικοποιημένων επιδιορθώσεων εικόνας στόχου και ανακατασκευασμένων ενημερώσεων κώδικα. Αυτή η απώλεια υπολογίζεται μόνο για καλυμμένες και μη κενές ενημερώσεις κώδικα (κείμενο).

Gradio Demo για PIXEL

Οι ερευνητές δημιούργησαν επίσης τα ακόλουθα Δημιουργία επίδειξης Για ΕΙΚΟΝΟΚΥΤΤΑΡΟ (Δείτε GIF), το οποίο φιλοξενείται στο Hugging Face Spaces. Για να αποκτήσετε πληροφορίες σχετικά με την αποτελεσματικότητα του προτεινόμενου μοντέλου, μπορείτε να παίξετε με τα παραδείγματα ή απλώς να εισαγάγετε οποιοδήποτε κείμενο της επιλογής σας. Μπορείτε επίσης να δοκιμάσετε να προσαρμόσετε τις υπερπαραμέτρους όπως „Αναλογία κάλυψης εύρους“, „Μήκος εύρους κάλυψης“ και „τυχαίο σπόρο“.

Αν ήθελα να μοιραστώ τη γνώμη μου, θα εντυπωσιάστηκα πολύ με αυτό το μοντέλο. Αν και μερικές καλυμμένες λέξεις δεν είχαν προβλεφθεί σωστά, με γοητεύει η ιδέα της επεξεργασίας του κειμένου ως εικόνας και, δεδομένου ότι αυτή η μέθοδος είναι ακόμη εκκολαπτόμενη, της δίνω ένα μπράβο!

κατασκευή ενός demo

Σύνδεσμος για την επίδειξη του Gradio: https://huggingface.co/spaces/Team-PIXEL/PIXEL

Αποτελέσματα

Το PIXEL είχε βελτιωθεί σε διάφορες κοινές εργασίες NLP. Αξιολογήθηκε για τις ικανότητές του στη συντακτική και σημασιολογική επεξεργασία στα αγγλικά, καθώς και για την προσαρμοστικότητά του σε μη ορατές γλώσσες και τα αποτελέσματα της αξιολόγησης είναι τα εξής:

i) Συντακτικές εργασίες: Ο Πίνακας 1 δείχνει τα αποτελέσματα των ετικετών POS και της ανάλυσης εξαρτήσεων. Στη μονόγλωσση ρύθμιση (ENG), ο BERT είχε ελαφρώς καλύτερη απόδοση από το PIXEL. Ωστόσο, το PIXEL ξεπέρασε το BERT στις υπόλοιπες γλώσσες.

PIXEL

Πίνακας 1: Αποτελέσματα αξιολόγησης για PIXEL και BERT προσαρμοσμένα με ακρίβεια για την προσθήκη ετικετών POS και την ανάλυση εξαρτήσεων σε διάφορες όχθες δέντρων καθολικών εξαρτήσεων.

ii) Σημασιολογικές εργασίες: Τα αποτελέσματα για την εργασία NER παρουσιάζονται στον Πίνακα 2. Σημειώθηκε ότι ο BERT ξεπέρασε σταθερά το PIXEL στη γλώσσα προεκπαίδευσης ENG. Ομοίως, αυτή η παρατήρηση ισχύει ακόμη και για τις γλώσσες που χρησιμοποιούν το λατινικό σύστημα γραφής. Συγκεκριμένα, όλες οι γλώσσες που εξετάζονται για την αξιολόγηση του PIXEL στην εργασία NER εκτός από την AMH χρησιμοποιούν λατινική γραφή.

Αποτελέσματα αξιολόγησης για το PIXEL

Πίνακας 2: Τα αποτελέσματα αξιολόγησης για το PIXEL και το BERT βελτιστοποιήθηκαν για το NER

Επιπλέον, για γλώσσες όπως KOR, JPN και TEL στο QA, όπου το BERT καλύπτει μόνο εν μέρει το σενάριο, το PIXEL ξεπερνούσε σταθερά το BERT, μερικές φορές με αξιοσημείωτα περιθώρια. Για περιπτώσεις όπου το BERT δεν καλύπτει ορισμένες γλώσσες, το BERT αποτυγχάνει εντελώς, ενώ το PIXEL υπερέχει ως επί το πλείστον. Με άλλα λόγια, το PIXEL ξεπέρασε το λεξιλόγιο των προεκπαιδευμένων γλωσσικών μοντέλων που βασίζονται σε υπολέξεις (PLM) σε εργασίες που βασίζονται στη σημασιολογία.

Αποτελέσματα αξιολόγησης για PIXELS

Πίνακας 3: Αποτελέσματα αξιολόγησης για PIXEL και BERT βελτιωμένα σε εξαγωγικά σύνολα δεδομένων QA.

iii) Ορθογραφικές επιθέσεις: Το άτυπο κείμενο, που χρησιμοποιείται συνήθως στα μέσα κοινωνικής δικτύωσης, περιλαμβάνει συχνά ορθογραφικό θόρυβο, όπως τυπογραφικά λάθη και άλλες παραλλαγές. Για να αξιολογήσουν την ευρωστία του PIXEL σε θόρυβο κειμένου και διακύμανση, οι ερευνητές πειραματίστηκαν με το σημείο αναφοράς Zeroé, το οποίο καλύπτει μια ποικιλία ορθογραφικών επιθέσεων χαμηλού επιπέδου, όπως φαίνεται στον Πίνακα 4.

Παραδείγματα ορθογραφικών επιθέσεων χαμηλού επιπέδου

Πίνακας 5: Παραδείγματα ορθογραφικών επιθέσεων χαμηλού επιπέδου (σημείο αναφοράς Zeroé)

Τα ευρήματα (όπως φαίνεται στο Σχήμα 4) δείχνουν ότι το PIXEL είναι πιο ανθεκτικό στις περισσότερες από αυτές τις επιθέσεις από το BERT.

Γραφήματα που απεικονίζουν την ακρίβεια του συνόλου δοκιμής για μία μόνο σειρά PIXELS και BERT

Σχήμα 4: Γραφήματα που απεικονίζουν την ακρίβεια του συνόλου δοκιμής για μία μόνο εκτέλεση PIXEL και BERT σε διάφορα επίπεδα θορύβου που εισάγονται μέσω διαφόρων ορθογραφικών επιθέσεων στο SNLI.

Περιορισμοί

1. Το PIXEL είναι κυρίως προεκπαιδευμένο σε αγγλικό κείμενο γραμμένο στη λατινική γραφή. Ωστόσο, τα αγγλικά μπορεί να μην είναι η καλύτερη γλώσσα πηγής για διαγλωσσική μεταφορά.

2. Το PIXEL φαίνεται να είναι λιγότερο αποδοτικό ως προς το δείγμα από τα προεκπαιδευμένα μοντέλα γλώσσας που βασίζονται σε υπολέξεις όπως το BERT. Το PIXEL αποδίδει καλά σε συντακτικές εργασίες αφού έχει προεκπαιδευτεί για τον ίδιο αριθμό βημάτων/σημείων δεδομένων με το BERT. Ωστόσο, εξακολουθεί να υπολείπεται σε σημασιολογικά καθήκοντα.

3. Η εργασία με γλώσσες γραμμένες δεξιά στα αριστερά παρουσιάζει κάποιες δυσκολίες. Ο τρόπος με τον οποίο το PIXEL ερμηνεύει επί του παρόντος προτάσεις σε αυτές τις γλώσσες από το τέλος προς την αρχή θα μπορούσε να το κάνει να μάθει χαρακτηριστικά που είναι ανεπαρκή για διαχωρισμό προτάσεων και ενσωματώσεις θέσης.

4. Το PIXEL δεν μπορεί να χρησιμοποιηθεί για εργασίες δημιουργίας γλώσσας, καθώς δεν είναι δυνατή η δημιουργία διακριτών λέξεων από τον προεκπαιδευμένο αποκωδικοποιητή.

5. Η ανάγνωση κειμένου από ένα αρχείο απαιτεί λιγότερο χώρο στο δίσκο από την απόδοση κειμένου ως εικόνα. Αυτό μπορεί να παρακαμφθεί με την αποθήκευση του συνόλου δεδομένων σε συμπιεσμένη μορφή ή την απόδοση των εικόνων εν κινήσει. Ωστόσο, η απόδοση εικόνων εν κινήσει δημιουργεί πρόσθετα έξοδα για πολλές εποχές.

συμπέρασμα

Για να το συνοψίσουμε, σε αυτό το άρθρο, μάθαμε τα εξής:

1. Ένα προεκπαιδευμένο μοντέλο γλώσσας χωρίς tokenizer, το PIXEL, αποδίδει κείμενα ως εικόνες, που επιτρέπουν την αναπαράσταση οποιασδήποτε γραπτής γλώσσας που μπορεί να στοιχειοθετηθεί χρησιμοποιώντας την απόδοση κειμένου της.

2. Το μοντέλο PIXEL εκπαιδεύεται στα ίδια αγγλικά δεδομένα με το BERT και αξιολογείται σε συντακτικές και σημασιολογικές εργασίες (όπως επισήμανση μέρους του λόγου, απάντηση ερωτήσεων, ανάλυση εξάρτησης, εργασίες κατανόησης γλώσσας κ.λπ.) σε τυπολογικά διαφορετικές γλώσσες, συμπεριλαμβανομένων διαφόρων μη -Λατινικές γραφές.

3. Αν και το PIXEL προσαρμόζεται/μεταφέρει εύκολα σε μη ορατά σενάρια, έχει χειρότερη απόδοση από το BERT κατά την επεξεργασία γλωσσών γραμμένων στη λατινική γραφή, συμπεριλαμβανομένων των αγγλικών. Ωστόσο, το PIXEL είναι πιο ανθεκτικό σε ορθογραφικές επιθέσεις χαμηλού επιπέδου από το BERT. Αυτό υποδηλώνει ότι οι αναπαραστάσεις που βασίζονται σε εικονοστοιχεία προσφέρουν μια ισχυρή βάση για τη διαγλωσσική και διασταυρούμενη μάθηση μεταφοράς σεναρίων.

4. Τα βάρη ενσωμάτωσης υπολέξεων και ένας ακριβός υπολογισμός softmax δεν είναι απαραίτητα για τη λειτουργία του αποκωδικοποιητή PIXEL. Το PIXEL εκπαιδεύεται με απώλεια ανακατασκευής εικονοστοιχείων κανονικοποιημένου μέσου τετραγώνου σφάλματος (MSE) που μετρά την ασυμφωνία μεταξύ κανονικοποιημένων διορθώσεων εικόνας στόχου και ανακατασκευασμένων ενημερώσεων κώδικα.

5. Ένα πλεονέκτημα της προτεινόμενης μεθόδου είναι ότι μπορεί να χειριστεί διαφορετικές γλώσσες, emoji κ.λπ., χωρίς να εκρήγνυται το μέγεθος των πινάκων ενσωμάτωσης. αυτή η προσέγγιση δεν περιλαμβάνει προκαθορισμένο λεξιλόγιο.

Αυτό ολοκληρώνει αυτό το άρθρο. Ευχαριστώ για την ανάγνωση. Εάν έχετε οποιεσδήποτε ερωτήσεις ή ανησυχίες, δημοσιεύστε τις στην παρακάτω ενότητα σχολίων. Καλή μάθηση!

Τα μέσα που εμφανίζονται σε αυτό το άρθρο δεν ανήκουν στο Analytics Vidhya και χρησιμοποιούνται κατά την κρίση του συγγραφέα.