Συγκλίνει πάντα η επανάληψη τιμών;

Πίνακας περιεχομένων:

Συγκλίνει πάντα η επανάληψη τιμών;
Συγκλίνει πάντα η επανάληψη τιμών;

Βίντεο: Συγκλίνει πάντα η επανάληψη τιμών;

Βίντεο: Συγκλίνει πάντα η επανάληψη τιμών;
Βίντεο: Gauss-Seidel Method | Numerical Methods 2024, Νοέμβριος
Anonim

Όπως η αξιολόγηση πολιτικής, η επανάληψη τιμής τυπικά απαιτεί άπειρο αριθμό επαναλήψεων για να συγκλίνει ακριβώς στο. Στην πράξη, σταματάμε όταν η συνάρτηση τιμής αλλάξει μόνο κατά ένα μικρό ποσό σε μια σάρωση. … Όλοι αυτοί οι αλγόριθμοι συγκλίνουν σε μια βέλτιστη πολιτική για μειωμένα πεπερασμένα MDP.

Είναι ντετερμινιστική η επανάληψη της τιμής;

Ωστόσο, η επανάληψη της τιμής είναι μια απλή γενίκευση της ντετερμινιστικής περίπτωσης. Μπορεί να είναι πιο εύρωστο σε δυναμικά προβλήματα, για μεγαλύτερη αβεβαιότητα ή ισχυρή τυχαιότητα. ΕΑΝ δεν υπάρξει αλλαγή στην πολιτική, επιστρέψτε την ως βέλτιστη πολιτική, ΑΛΛΙΩΣ μεταβείτε στο 1.

Είναι βέλτιστη η επανάληψη τιμής;

3 Επανάληψη τιμής. Η επανάληψη τιμής είναι μια μέθοδος υπολογισμού μιας βέλτιστης πολιτικής MDP και της τιμής τηςΗ αποθήκευση του πίνακα V έχει ως αποτέλεσμα λιγότερο χώρο αποθήκευσης, αλλά είναι πιο δύσκολο να καθοριστεί μια βέλτιστη ενέργεια και χρειάζεται μια ακόμη επανάληψη για να προσδιοριστεί ποια ενέργεια έχει τη μεγαλύτερη τιμή. …

Ποια είναι η διαφορά μεταξύ της επανάληψης πολιτικής και της επανάληψης τιμής;

Στην επανάληψη πολιτικής, ξεκινάμε με μια σταθερή πολιτική. Αντίστροφα, στην επανάληψη τιμής, ξεκινάμε επιλέγοντας τη συνάρτηση τιμής. Στη συνέχεια, και στους δύο αλγόριθμους, βελτιωνόμαστε επαναληπτικά μέχρι να φτάσουμε στη σύγκλιση.

Τι είναι η τιμή επανάληψης;

Βασικά, ο αλγόριθμος Επανάληψης Τιμής υπολογίζει τη συνάρτηση τιμής βέλτιστης κατάστασης βελτιώνοντας επαναληπτικά την εκτίμηση των V (s). Ο αλγόριθμος αρχικοποιεί τα V(s) σε αυθαίρετες τυχαίες τιμές. Ενημερώνει επανειλημμένα τις τιμές Q(s, a) και V(s) μέχρι να συγκλίνουν.

Συνιστάται: