Γιατί το lstm επιλύει τη διαβάθμιση εξαφάνισης;

Γιατί το lstm επιλύει τη διαβάθμιση εξαφάνισης;
Γιατί το lstm επιλύει τη διαβάθμιση εξαφάνισης;
Anonim

Τα

LSTM λύνουν το πρόβλημα χρησιμοποιώντας μια μοναδική δομή πρόσθετης διαβάθμισης που περιλαμβάνει άμεση πρόσβαση στις ενεργοποιήσεις της πύλης ξεχάσεων, επιτρέποντας στο δίκτυο να ενθαρρύνει την επιθυμητή συμπεριφορά από τη διαβάθμιση σφάλματος χρησιμοποιώντας συχνή ενημέρωση πυλών σε κάθε χρονικό βήμα της μαθησιακής διαδικασίας.

Πώς το LSTM επιλύει την έκρηξη διαβάθμισης;

Μια πολύ σύντομη απάντηση: Το LSTM αποσυνδέει την κατάσταση κελιού (συνήθως συμβολίζεται με c) και το κρυφό επίπεδο/έξοδο (συνήθως συμβολίζεται με h) και κάνει μόνο πρόσθετες ενημερώσεις στο c, γεγονός που κάνει τις μνήμες στο c πιο σταθερές. Έτσι, η διαβάθμιση που ρέει μέσω του c διατηρείται και είναι δύσκολο να εξαφανιστεί (επομένως η συνολική κλίση είναι δύσκολο να εξαφανιστεί).

Πώς μπορεί να λυθεί το πρόβλημα εξαφανιζόμενης κλίσης;

Λύσεις: Η απλούστερη λύση είναι να χρησιμοποιήσετε άλλες συναρτήσεις ενεργοποίησης, όπως η ReLU, η οποία δεν προκαλεί μικρή παράγωγο. Τα υπολειμματικά δίκτυα είναι μια άλλη λύση, καθώς παρέχουν υπολειπόμενες συνδέσεις απευθείας σε προηγούμενα επίπεδα.

Τι πρόβλημα λύνει το LSTM;

LSTM. Το LSTM (σύντομη για τη μακροπρόθεσμη βραχυπρόθεσμη μνήμη) λύνει κυρίως το το πρόβλημα της διαβάθμισης που εξαφανίζεται στην οπίσθια διάδοση. Τα LSTM χρησιμοποιούν έναν μηχανισμό πύλης που ελέγχει τη διαδικασία απομνημόνευσης. Οι πληροφορίες σε LSTM μπορούν να αποθηκευτούν, να γραφτούν ή να διαβαστούν μέσω πυλών που ανοίγουν και κλείνουν.

Γιατί τα LSTM σταματούν τις κλίσεις σας να εξαφανίσουν μια θέα από το πέρασμα προς τα πίσω;

Ο λόγος για αυτό είναι επειδή, για να επιβληθεί αυτή η σταθερή ροή σφάλματος, ο υπολογισμός της κλίσης περικόπηκε έτσι ώστε να μην επιστρέψει στην είσοδο ή στις υποψήφιες πύλες.

Συνιστάται: