Η εντυπωσιακότερη εξέλιξη τα τελευταία 13,8 δισεκατομμύρια χρόνια από την Μεγάλη Έκρηξη μέχρι σήμερα, είναι ότι τα άτομα της ύλης αυτοοργανώθηκαν, ώστε να προκύψουν όντα με νοημοσύνη και αυτεπίγνωση. Όντα που μεταξύ πολλών άλλων μπορούν να θυμούνται, να υπολογίζουν, να αισθάνονται, να μαθαίνουν και πλέον να κατασκευάζουν μηχανές που κάνουν τα ίδια πράγματα. Πώς γίνεται ένα σύνολο άψυχων σωματιδίων που κινούνται με βάση τους νόμους της φυσικής να επιδεικνύουν συμπεριφορά που χαρακτηρίζουμε νοήμονα;
Φαίνεται πως παρόμοιους προβληματισμούς είχε και η Βασιλική Σουηδική Ακαδημία Επιστημών όταν αποφάσιζε να βραβεύσει από κοινού με το Νόμπελ Φυσικής 2024 στον φυσικό John Hopfield και τον αποτυχημένο φυσικό Geoffrey E. Hinton για την έρευνά τους στην μηχανική μαθηση Τεχνητών Νευρωνικών Δικτύων (TNΔ). Μια έρευνα που συνεισφέρει προς την εξιχνίαση του αναπάντητου μέχρι στιγμής θεμελιώδους ερωτήματος: με ποιό τρόπο η ύλη αποκτά νοημοσύνη;
...Το επιστημονικό υπόβαθρο για το Νόμπελ Φυσικής 2024
Εισαγωγή
Με τις ρίζες της στη δεκαετία του 1940, η μηχανική μάθηση που βασίζεται σε τεχνητά νευρωνικά δίκτυα (TNΔ) έχει εξελιχθεί τις τελευταίες τρεις δεκαετίες σε ένα ευέλικτο και ισχυρό εργαλείο, τόσο με καθημερινές όσο και με προηγμένες επιστημονικές εφαρμογές. Με τα τεχνητά νευρωνικά δίκτυα (ΤΝΔ) τα όρια της φυσικής επεκτείνονται στα φαινόμενα της ζωής καθώς επίσης και στους υπολογισμούς.
Εμπνευσμένα από βιολογικούς νευρώνες στον εγκέφαλο, τα τεχνητά νευρωνικά δίκτυα (TNΔ) είναι μεγάλες συλλογές «νευρώνων» ή κόμβων, συνδεδεμένων με «συνάψεις» ή σταθμισμένες συζεύξεις, που εκπαιδεύονται να εκτελούν ορισμένες εργασίες αντί να τους ζητείται να εκτελέσουν ένα προκαθορισμένο σύνολο εντολών. Η βασική τους δομή έχει στενές ομοιότητες με τα μοντέλα σπιν στη στατιστική φυσική που εφαρμόζονται στον μαγνητισμό ή στη θεωρία κραμάτων. Το φετινό βραβείο Νόμπελ Φυσικής αναγνωρίζει την έρευνα που εκμεταλλεύεται αυτή τη σύνδεση για να κάνει καινοτόμες μεθοδολογικές προόδους στον τομέα των τεχνητών νευρωνικών δικτύων.
Ιστορικό υπόβαθρο
Οι πρώτοι ηλεκτρονικοί υπολογιστές εμφανίστηκαν τη δεκαετία του 1940 και εφευρέθηκαν για στρατιωτικούς και επιστημονικούς σκοπούς. Σκοπός τους ήταν να πραγματοποιήσουν υπολογισμούς που ήταν επίπονοι και χρονοβόροι για τους ανθρώπους. Στη δεκαετία του 1950, προέκυψε η αντίθετη ανάγκη, δηλαδή να μπορούν οι υπολογιστές να κάνουν αυτό στο οποίο είναι ικανοί οι άνθρωποι και άλλα θηλαστικά – να αναγωρίζουν μοτίβα ή σχήματα.
Αυτός ο συγκεκριμένος στόχος της τεχνητής νοημοσύνης προσεγγίστηκε πρώτη φορά από μαθηματικούς και επιστήμονες υπολογιστών, οι οποίοι ανέπτυξαν προγράμματα βασισμένα σε λογικούς κανόνες. Αυτή η προσέγγιση ακολουθήθηκε μέχρι τη δεκαετία του 1980, αλλά οι υπολογιστικοί πόροι που απαιτούνταν για τις ακριβείς ταξινομήσεις, για παράδειγμα, των εικόνων ήταν απαγορευτικά τεράστιοι.
Παράλληλα, είχαν ξεκινήσει έρευνες για να βρεθεί πώς τα βιολογικά συστήματα επιλύουν το πρόβλημα της αναγνώρισης προτύπων. Ήδη από το 1943, ο Warren McCulloch και ο Walter Pitts [1], ένας νευροεπιστήμονας και ένας θεωρητικός της Λογικής, αντίστοιχα, είχαν προτείνει ένα μοντέλο για το πώς συνεργάζονται οι νευρώνες στον εγκέφαλο. Στο μοντέλο τους, ένας νευρώνας σχημάτιζε ένα σταθμισμένο άθροισμα δυαδικών εισερχόμενων σημάτων από άλλους νευρώνες, το οποίο καθόριζε ένα δυαδικό εξερχόμενο σήμα. Το έργο τους έγινε σημείο αφετηρίας για την μετέπειτα έρευνα τόσο σε βιολογικά όσο και σε τεχνητά νευρωνικά δίκτυα.
Μια άλλη σημαντική πρώιμη συνεισφορά προήλθε από τον ψυχολόγο Donald Hebb [2]. Το 1949, ο Hebb πρότεινε έναν μηχανισμό για τη μάθηση και τις αναμνήσεις, όπου η ταυτόχρονη και επαναλαμβανόμενη ενεργοποίηση δύο νευρώνων οδηγεί σε αυξημένη ένταση της σύναψης μεταξύ τους.
Στον τομέα των τεχνητών νευρωνικών δικτύων, διερευνήθηκαν δύο αρχιτεκτονικές για συστήματα διασυνδεδεμένων κόμβων, τα «επαναλαμβανόμενα» και τα «ανατροφοδοτούμενα προς τα εμπρός (feedforward)» δίκτυα, όπου η πρώτη επιτρέπει αλληλεπιδράσεις ανάδρασης (βλέπε παρακάτω τις εικόνες 1 και 2). Ένα δίκτυο προώθησης έχει επίπεδα εισόδου και εξόδου και μπορεί επίσης να περιέχει ενδιάμεσα πρόσθετα στρώματα κρυφών κόμβων.
Το 1957, ο Frank Rosenblatt πρότεινε ένα δίκτυο ανατροφοδότησης προς τα εμπρός για την ερμηνεία εικόνας, το οποίο εφαρμόστηκε επίσης σε υλισμικό υπολογιστή [3]. Είχε τρία στρώματα κόμβων, με ρυθμιζόμενα βάρη μόνο μεταξύ του μεσαίου και του στρώματος εξόδου. Αυτά τα βάρη προσδιορίστηκαν με συστηματικό τρόπο.
Το σύστημα του Rosenblatt τράβηξε μεγάλη προσοχή, αλλά είχε περιορισμούς όταν επρόκειτο για μη γραμμικά προβλήματα. Ένα απλό παράδειγμα είναι το πρόβλημα της αποκλειστικής διάζευξης «το ένα ή το άλλο αλλά όχι και τα δύο» (XOR). Αυτοί οι περιορισμοί επισημάνθηκαν σε ένα σημαντικό βιβλίο από τους Marvin Minsky και Seymour Papert το 1969 [4], το οποίο οδήγησε σε διακοπή χρηματοδότησης της έρευνας για τα τεχνητά νευρωνικά δίκτυα. Μια παράλληλη εξέλιξη προέκυψε, εμπνευσμένη από τα μαγνητικά συστήματα, η οποία δημιούργησε μοντέλα για επαναλαμβανόμενα νευρωνικά δίκτυα και διερεύνησε τις συλλογικές τους ιδιότητες [5-10].
Η δεκαετία του 1980
Στη δεκαετία του 1980 σημειώθηκαν σημαντικές ανακαλύψεις στους τομείς τόσο
των επαναλαμβανόμενων όσο και των αναδρομικών νευρωνικών δικτύων, που
οδήγησαν σε μια ταχεία επέκταση του πεδίου των τεχνητών νευρωνικών
δικτύων.
Ο John
Hopfield, ένας θεωρητικός φυσικός, θεωρείται ένας από τους σημαντικότερους
επιστήμονες στη βιοφυσική. Η θεμελιώδης εργασία του την δεκαετία του 1970
εξέτασε τη μεταφορά ηλεκτρονίων μεταξύ βιομορίων [11] και τη διόρθωση
σφαλμάτων στις βιοχημικές αντιδράσεις (kinetic proofreading=κινητικός
διορθωτικός έλεγχος) [12]. Το 1982, ο Hopfield δημοσίευσε ένα δυναμικό
μοντέλο για μια συνειρμική μνήμη που βασίζεται σε ένα απλό επαναλαμβανόμενο
νευρωνικό δίκτυο [13]. Συλλογικά φαινόμενα εμφανίζονται συχνά σε φυσικά
συστήματα, όπως τομείς σε μαγνητικά συστήματα και δίνες στη ροή ρευστού. Ο
Hopfield διερεύνησε αν τα αναδυόμενα συλλογικά φαινόμενα σε μεγάλες συλλογές
νευρώνων θα μπορούσαν να προκαλέσουν «υπολογιστικές» ικανότητες.
Επισημαίνοντας ότι οι συλλογικές ιδιότητες σε πολλά φυσικά συστήματα είναι
ανθεκτικές σε αλλαγές στις λεπτομέρειες του μοντέλου, αντιμετώπισε αυτό το
ερώτημα χρησιμοποιώντας ένα νευρωνικό δίκτυο με N δυαδικούς κόμβους si (0 ή 1). Η δυναμική ήταν ασύγχρονη με ενημερώσεις κατωφλίου
μεμονωμένων κόμβων σε τυχαίους χρόνους. Η νέα τιμή ενός κόμβου si προσδιορίστηκε από ένα σταθμισμένο άθροισμα σε όλους τους άλλους
κόμβους,
όπου ορίζεται
si=1 αν hi>0, διαφορετικά si=0 (θέτοντας κατώφλι το μηδέν). Οι ζεύξεις wij θεωρήθηκαν συμμετρικές και αντικατοπτρίζουν συσχετισμούς ανά ζεύγη
μεταξύ των κόμβων στις αποθηκευμένες μνήμες, κάτι που αναφέρεται ως ο
κανόνας Hebb. Η συμμετρία των βαρών εγγυάται σταθερή δυναμική. Οι στάσιμες
καταστάσεις αναγνωρίστηκαν ως μνήμες, κατανεμημένες στους Ν κόμβους σε μια
μη τοπική αποθήκευση. Επιπλέον, στο δίκτυο εκχωρήθηκε μια ενέργεια Ε που
δίνεται από την εξίσωση , η οποία είναι μια μονότονα φθίνουσα συνάρτηση ως προς το δυναμικό του
δικτύου. Αξίζει να σημειωθεί ότι η σύνδεση μεταξύ του κόσμου της φυσικής και των
τεχνητών νευρωνικών δικτύων, όπως καθοριζόταν στη δεκαετία του 1980, ήταν
ήδη προφανής από αυτές τις δύο εξισώσεις. Η πρώτη εξίσωση μπορεί να χρησιμοποιηθεί για να αναπαραστήσει το μοριακό
πεδίο Weiss (από τον Γάλλο φυσικό Pierre Weiss) που περιγράφει πώς
ευθυγραμμίζονται οι ατομικές μαγνητικές ροπές σε ένα στερεό και αργότερα
χρησιμοποιούνταν συχνά για την εκτίμηση της ενέργειας μιας μαγνητικής
διαμόρφωσης, π.χ. ενός σιδηρομαγνήτη. Ο Hopfield γνώριζε φυσικά πολύ καλά
πώς χρησιμοποιούνταν αυτές οι εξισώσεις για την περιγραφή των μαγνητικών
υλικών.
Μεταφορικά, η δυναμική οδηγεί το σύστημα με Ν κόμβους στις κοιλάδες ενός ενεργειακού τοπίου Ν διαστάσεων, στο οποίο βρίσκονται οι στάσιμες καταστάσεις. Οι στάσιμες καταστάσεις αντιπροσωπεύουν μνήμες που μαθαίνονται από τον κανόνα Hebb. Αρχικά, ο αριθμός των μνημών που μπορούσαν να αποθηκευτούν στο δυναμικό μοντέλο του Hopfield ήταν περιορισμένος. Μέθοδοι για την επίλυση αυτού του προβλήματος αναπτύχθηκαν σε μεταγενέστερη εργασία [14]. Ο Hopfield χρησιμοποίησε το μοντέλο του ως συνειρμική μνήμη ή ως μέθοδο διόρθωσης σφαλμάτων ή συμπλήρωσης προτύπων. Ένα σύστημα αρχικοποιημένο με λανθασμένο μοτίβο, ίσως μια ανορθόγραφη λέξη, έλκεται από το πλησιέστερο τοπικό ελάχιστο ενέργειας στο μοντέλο του, οπότε λαμβάνει χώρα μια διόρθωση. Το μοντέλο έγινε ελκυστικό όταν έγινε σαφές ότι βασικές ιδιότητες, όπως η χωρητικότητα αποθήκευσης, μπορούσαν να κατανοηθούν αναλυτικά, χρησιμοποιώντας μεθόδους από τη θεωρία των υαλωδών σπιν [15,16].
Ένα εύλογο ερώτημα εκείνη την εποχή ήταν αν οι ιδιότητες αυτού του μοντέλου είναι ένα πλαστό αποτέλεσμα της ακατέργαστης δυαδικής δομής του. Ο Hopfield απάντησε σε αυτό το ερώτημα δημιουργώντας μια αναλογική έκδοση του μοντέλου [17], με δυναμική συνεχούς χρόνου που δίνεται από τις εξισώσεις κίνησης για ένα ηλεκτρονικό κύκλωμα. Η ανάλυσή του για το αναλογικό μοντέλο έδειξε ότι οι δυαδικοί κόμβοι θα μπορούσαν να αντικατασταθούν από αναλογικούς χωρίς να χαθούν οι αναδυόμενες συλλογικές ιδιότητες του αρχικού μοντέλου. Οι στάσιμες καταστάσεις του αναλογικού μοντέλου αντιστοιχούσαν σε λύσεις μέσου πεδίου του δυαδικού συστήματος σε μια αποτελεσματικά ρυθμιζόμενη θερμοκρασία και προσέγγισε τις στάσιμες καταστάσεις του δυαδικού μοντέλου σε χαμηλή θερμοκρασία.
Η στενή αντιστοιχία μεταξύ του αναλογικού και του δυαδικού μοντέλου χρησιμοποιήθηκε στη συνέχεια από τους Hopfield και David Tank [18,19] για την ανάπτυξη μιας μεθόδου για την επίλυση δύσκολων διακριτών προβλημάτων βελτιστοποίησης με βάση τη δυναμική συνεχούς χρόνου του αναλογικού μοντέλου. Εδώ, το πρόβλημα βελτιστοποίησης που πρέπει να λυθεί, συμπεριλαμβανομένων των περιορισμών, κωδικοποιείται στις παραμέτρους αλληλεπίδρασης (βάρη) του δικτύου. Επέλεξαν να χρησιμοποιήσουν τη δυναμική του αναλογικού μοντέλου για να έχουν ένα πιο «ήπιο» ενεργειακό τοπίο και έτσι να διευκολύνουν την αναζήτηση. Η προαναφερθείσα αποτελεσματική θερμοκρασία του αναλογικού συστήματος μειώθηκε σταδιακά, όπως στην καθολική βελτιστοποίηση με προσομοίωση ανόπτησης (η θερμική κατεργασία στην οποία υποβάλλεται ένα μέταλλο ή κράμα) [20].
Η βελτιστοποίηση πραγματοποιείται μέσω της ολοκλήρωσης των εξισώσεων κίνησης ενός ηλεκτρονικού κυκλώματος, κατά το οποίο οι κόμβοι εξελίσσονται χωρίς οδηγίες από μια κεντρική μονάδα. Αυτή η προσέγγιση αποτελεί ένα πρωτοποριακό παράδειγμα χρήσης ενός δυναμικού συστήματος για την αναζήτηση λύσεων σε δύσκολα διακριτά προβλήματα βελτιστοποίησης [21]. Ένα πιο πρόσφατο παράδειγμα είναι η κβαντική ανόπτηση [22].
Με τη δημιουργία και την εξερεύνηση των παραπάνω δυναμικών μοντέλων
βασισμένων στη φυσική – όχι μόνο του σημαντικότατου συνειρμικού μοντέλου μνήμης αλλά και
εκείνων που ακολούθησαν – ο Hopfield συνέβαλε στην βαθύτερη κατανόησή μας
για τις υπολογιστικές ικανότητες των νευρωνικών δικτύων.
Στο διάστημα 1983-1985 ο Geoffrey Hinton, μαζί με τον Terrence Sejnowski
και άλλους συναεργάτες, ανέπτυξαν μια στοχαστική επέκταση του μοντέλου
Hopfield από το 1982, που ονομάζεται μηχανή Boltzmann [23,24].
Εδώ, σε κάθε κατάσταση του δικτύου εκχωρείται μια πιθανότητα που δίνεται από την κατανομή
Boltzmann , με , όπου T είναι μια εικονική θερμοκρασία και θi είναι μια τάση ή τοπικό πεδίο.
Η μηχανή Boltzmann είναι ένα παραγωγικό μοντέλο. Σε αντίθεση με το μοντέλο Hopfield, εστιάζει σε στατιστικές κατανομές προτύπων και όχι σε μεμονωμένα μοτίβα. Περιέχει ορατούς κόμβους που αντιστοιχούν στα μοτίβα προς εκμάθηση καθώς και πρόσθετους κρυφούς κόμβους, όπου οι τελευταίοι περιλαμβάνονται για να επιτρέψουν τη μοντελοποίηση πιο γενικών κατανομών πιθανοτήτων.
Οι παράμετροι του δικτύου, που ορίζουν την ενέργεια Ε, προσδιορίζονται έτσι ώστε η στατιστική κατανομή των ορατών μοτίβων που παράγονται από το μοντέλο να αποκλίνει ελάχιστα από τη στατιστική κατανομή ενός δεδομένου συνόλου προτύπων εκπαίδευσης. Ο Hinton και οι συνεργάτες του ανέπτυξαν έναν τυπικά κομψό αλγόριθμο μάθησης για τον προσδιορισμό των παραμέτρων [24]. Ωστόσο, κάθε βήμα του αλγορίθμου περιλαμβάνει χρονοβόρες προσομοιώσεις ισορροπίας για δύο διαφορετικά σύνολα.
Αν και θεωρητικά ενδιαφέρουσα, στην πράξη, η μηχανή Boltzmann ήταν αρχικά περιορισμένης χρήσης. Όμως, μια μικρότερη έκδοσή της με λιγότερα βάρη, που ονομάζεται περιορισμένη μηχανή Boltzmann, εξελίχθηκε σε ένα ευέλικτο εργαλείο (βλ. επόμενη ενότητα).
Τόσο το μοντέλο Hopfield όσο και η μηχανή Boltzmann είναι επαναλαμβανόμενα νευρωνικά δίκτυα. Στη δεκαετία του 1980 σημειώθηκε επίσης σημαντική πρόοδος στα ανατροφοδοτούμενα προς τα εμπρός δίκτυα. Μια βασική πρόοδος ήταν η επίδειξη από τους David Rumelhart, Hinton και Ronald Williams το 1986 για το πώς οι αρχιτεκτονικές με ένα ή περισσότερα κρυφά επίπεδα θα μπορούσαν να εκπαιδευτούν για ταξινόμηση χρησιμοποιώντας έναν αλγόριθμο γνωστό ως οπισθοδιάδοση (backpropagation) [25]. Εδώ, ο στόχος είναι να ελαχιστοποιηθεί η μέση τετραγωνική απόκλιση, D, μεταξύ της εξόδου από το δίκτυο και των δεδομένων εκπαίδευσης, με βαθμιδωτή κάθοδο. Αυτό απαιτεί τον υπολογισμό των μερικών παραγώγων του D σε σχέση με όλα τα βάρη στο δίκτυο. Οι Rumelhart, Hinton και Williams ανακάλυψαν εκ νέου ένα σχέδιο για αυτό, το οποίο είχε εφαρμοστεί προηγουμένως σε σχετικά προβλήματα από άλλους [26,27]. Επιπλέον, και πιο σημαντικό, απέδειξαν ότι τα δίκτυα με ένα κρυφό επίπεδο θα μπορούσαν να εκπαιδευτούν με αυτή τη μέθοδο για να εκτελούν εργασίες που είναι άλυτες χωρίς ένα τέτοιο επίπεδο. Επιπλέον, αποσαφήνησαν την λειτουργία των κρυφών κόμβων.
Προς την βαθιά μάθηση (deep learning)
Tις μεθοδολογικές ανακαλύψεις από την δεκαετία του 1980 ακολούθησαν σύντομα επιτυχημένες εφαρμογές, συμπεριλαμβανομένης της αναγνώρισης προτύπων σε εικόνες, γλώσσες και κλινικά δεδομένα. Μια σημαντική μέθοδος ήταν τα πολυεπίπεδα Νευρωνικά Δίκτυα Συνέλιξης ή ΝΔΣ (convolutional neural networks) που εκπαιδεύτηκαν με οπισθοδιάδοση, όπως ανέπτυξαν οι Yann LeCun και Yoshua Bengio [28,29]. Η αρχιτεκτονική των ΝΔΣ είχε τις ρίζες της στη μέθοδο neocognitron που δημιουργήθηκε από τον Kunihiko Fukushima [30], που με τη σειρά του εμπνεύστηκε από το έργο των David Hubel και Torsten Wiesel, βραβευθέντων με το βραβείο Νόμπελ Ιατρικής το 1981. Η προσέγγιση των ΝΔΣ που αναπτύχθηκε από τον LeCun και τους συνεργάτες του χρησιμοποιήθηκε από πολλές αμερικανικές τράπεζες για την ταξινόμηση χειρόγραφων ψηφίων σε επιταγές από τα μέσα της δεκαετίας του 1990. Ένα άλλο επιτυχημένο παράδειγμα αυτής της περιόδου είναι η μέθοδος μακράς βραχύχρονης μνήμης που δημιουργήθηκε από τους Sepp Hochreiter και Jürgen Schmidhuber [31]. Αυτό είναι ένα επαναλαμβανόμενο δίκτυο για την επεξεργασία διαδοχικών δεδομένων, όπως στην ομιλία και τη γλώσσα, και μπορεί να αντιστοιχιστεί σε ένα πολυεπίπεδο δίκτυο που ξεδιπλώνεται στο χρόνο.
Ενώ ορισμένες πολυεπίπεδες αρχιτεκτονικές οδήγησαν σε επιτυχημένες εφαρμογές στη δεκαετία του 1990, παρέμεινε μια πρόκληση να εκπαιδεύονται βαθιά πολυεπίπεδα δίκτυα με πολλές συνδέσεις μεταξύ διαδοχικών επιπέδων. Σε πολλούς ερευνητές του πεδίου, η εκπαίδευση σε πυκνά πολυεπίπεδα δίκτυα φαινόταν απρόσιτη. Η κατάσταση άλλαξε τη δεκαετία του 2000. Ηγετική φυσιογνωμία σε αυτή την ανακάλυψη ήταν ο Hinton και σημαντικό εργαλείο ήταν η περιορισμένη μηχανή Boltzmann (restricted Boltzmann machine=RBM).
Ένα δίκτυο RBM έχει βάρη μόνο μεταξύ ορατών και κρυφών κόμβων και κανένα βάρος δεν συνδέει δύο κόμβους του ίδιου τύπου. Για μία RBM, ο Hinton δημιούργησε έναν αποτελεσματικό κατά προσέγγιση αλγόριθμο μάθησης [32], που ονομάζεται contrastive divergence (αντιφατική απόκλιση), ο οποίος ήταν πολύ ταχύτερος από αυτόν της πλήρους μηχανής Boltzmann [24]. Στη συνέχεια ανέπτυξε, με τους Simon Osindero και Yee-Whye Teh, μια διαδικασία προεκπαίδευσης για δίκτυα πολλαπλών επιπέδων, στην οποία τα στρώματα εκπαιδεύονται ένα προς ένα χρησιμοποιώντας μία RBM [33]. Μια πρώιμη εφαρμογή αυτής της προσέγγισης ήταν ένα δίκτυο αυτόματου κωδικοποιητή για μείωση διαστάσεων [34,35]. Μετά την προεκπαίδευση, έγινε δυνατή η εκτέλεση μιας συνολικής ρύθμισης παραμέτρων χρησιμοποιώντας τον αλγόριθμο οπισθοδιάδοσης. Η προ-γύμανση με RBM εντόπιζε δομές σε δεδομένα, όπως γωνίες σε εικόνες, χωρίς τη χρήση ταξινομημένων δεδομένων εκπαίδευσης. Έχοντας βρει αυτές τις δομές, η επισήμανση αυτών με οπισθιοδιάδοση αποδείχθηκε μια σχετικά απλή εργασία.
Συνδέοντας επίπεδα προεκπαιδευμένα με αυτόν τον τρόπο, ο Hinton μπόρεσε να εφαρμόσει με επιτυχία παραδείγματα βαθύτερων και πυκνότερων δικτύων, ένα βήμα προς αυτό που σήμερα είναι γνωστό ως βαθιά μάθηση (deep learning). Αργότερα, κατέστη δυνατή η αντικατάσταση της προ-εκπάιδευσης που βασίζεται σε RBM από άλλες μεθόδους για την επίτευξη της ίδιας απόδοσης βαθιών και πυκνών πολυεπίπεδων Νευρωνικών Δικτύων Συνέλιξης (ΝΔΣ).
Τα Τεχνητά Νευρωνικά Δίκτυα (TNΔ) ως ισχυρά εργαλεία στη φυσική και σε άλλους επιστημονικούς κλάδους
Μεγάλο μέρος της παραπάνω συζήτησης επικεντρώνεται στο πώς η φυσική υπήρξε η κινητήριος δύναμη στις εφευρέσεις και την ανάπτυξη των TNΔ. Αντιστρόφως τώρα, τα TNΔ διαδραματίζουν ολοένα και περισσότερο σημαντικό ρόλο ως ισχυρό εργαλείο μοντελοποίησης και ανάλυσης σχεδόν σε όλο το εύρος της φυσικής.
Σε ορισμένες εφαρμογές, τα TNΔ χρησιμοποιούνται ως προσέγγιση συνάρτησης [36]. Δηλαδή, τα TNΔ χρησιμοποιούνται για να παρέχουν έναν «μιμητή (copycat)» για κάποιο μοντέλο φυσικής. Αυτό μπορεί να μειώσει σημαντικά τους υπολογιστικούς πόρους που απαιτούνται, επιτρέποντας έτσι την ανίχνευση μεγαλύτερων συστημάτων σε υψηλότερη ανάλυση. Με αυτόν τον τρόπο έχουν επιτευχθεί σημαντικές προόδοι, π.χ. στα κβαντομηχανικά προβλήματα πολλών σωμάτων [37-39]. Εδώ, οι αρχιτεκτονικές βαθιάς μάθησης εκπαιδεύονται να αναπαράγουν ενέργειες των φάσεων των υλικών, καθώς επίσης την μορφή και τη ισχύ των ενδοατομικών δυνάμεων, με ακρίβεια συγκρίσιμη με τα εξαρχής κβαντομηχανικά μοντέλα. Με αυτά τα εκπαιδευμένα ατομικά μοντέλα Tεχνικών Nευρωνικών Δικτύων (ΤΝΔ), μπορεί να γίνει σημαντικά ταχύτερος προσδιορισμός της σταθερότητας φάσης και της δυναμικής των νέων υλικών. Παραδείγματα που δείχνουν την επιτυχία αυτών των μεθόδων περιλαμβάνουν την πρόβλεψη νέων φωτοβολταϊκών υλικών.
Με αυτά τα μοντέλα, είναι επίσης δυνατό να μελετηθούν οι μετατροπές φάσης [40] καθώς και οι θερμοδυναμικές ιδιότητες του νερού [41]. Ομοίως, η ανάπτυξη αναπαραστάσεων TNΔ κατέστησε δυνατή την επίτευξη υψηλότερων αναλύσεων σε ξεκάθαρα κλιματικά μοντέλα βασισμένα στη φυσική [42,43] χωρίς να καταφύγουμε σε πρόσθετη υπολογιστική ισχύ.
Κατά τη διάρκεια της δεκαετίας του 1990, τα TNΔ έγιναν ένα τυπικό εργαλείο ανάλυσης δεδομένων σε πειράματα σωματιδιακής φυσικής διαρκώς αυξανόμενης πολυπλοκότητας. Τα περιζήτητα θεμελιώδη σωματίδια, όπως το μποζόνιο Higgs, επιβιώνουν μόνο για ένα κλάσμα του δευτερολέπτου αφότου δημιουργηθούν σε συγκρούσεις υψηλής ενέργειας (π.χ. ~10-22 s για το μποζόνιο Higgs). Η παρουσία τους πρέπει να συναχθεί από την παρακολούθηση πληροφοριών και απόθεσης ενέργειας σε τεράστιους ανιχνευτές. Συχνά η αναμενόμενη υπογραφή του ανιχνευτή είναι τόσο σπάνια που χάνεται στα γεγονότα υποβάθρου. Για να αναγνωρίζουν τις διασπάσεις των σωματιδίων και να αυξάνουν την αποτελεσματικότητα των αναλύσεων, τα ΝΔΣ εκπαιδεύτηκαν ώστε να επιλέγουν συγκεκριμένα μοτίβα στους μεγάλους όγκους δεδομένων ανιχνευτών που παράγονται με υψηλό ρυθμό.
Τα Tεχνητά Nευρωνικά Δίκτυα (TNΔ) βελτίωσαν την ευαισθησία των αναζητήσεων για το μποζόνιο Higgs στον επιταχυντή Large ElectronPosrtion (LEP) στο CERN κατά τη δεκαετία του 1990 [44] και χρησιμοποιήθηκαν στην ανάλυση δεδομένων που οδήγησαν στην ανακάλυψή του σωματιδίου Χιγκς στον Μεγάλο Επιταχυντή Αδρονίων (LHC) το 2012 [45]. Τα TNΔ χρησιμοποιήθηκαν επίσης σε μελέτες του κορυφαίου κουάρκ στο Fermilab [46].
Στην αστροφυσική και την αστρονομία, τα TNΔ έχουν γίνει επίσης ένα τυπικό εργαλείο ανάλυσης δεδομένων. Ένα πρόσφατο παράδειγμα είναι μια ανάλυση δεδομένων από τον ανιχνευτή νετρίνων IceCube στο Νότιο Πόλο, βασισμένη σε TNΔ, η οποία οδήγησε στην απεικόνιση των νετρίνων του Γαλαξία [47]. Οι διελεύσεις εξωπλανητών έχουν εντοπιστεί από την αποστολή Kepler χρησιμοποιώντας επίσης TNΔ [48]. Και η εικόνα του τηλεσκοπίου Event Horizon της μαύρης τρύπας στο κέντρο του Γαλαξία χρησιμοποίησε TNΔ για την επεξεργασία δεδομένων [49].
Μέχρι στιγμής, η πιο εντυπωσιακή επιστημονική ανακάλυψη που χρησιμοποιεί τεχνητή νοημοσύνη είναι το εργαλείο AlphaFold για την πρόβλεψη τρισδιάστατων πρωτεϊνικών δομών, δεδομένων των αλληλουχιών αμινοξέων τους [50]. Στη μοντελοποίηση εφαρμογών βιομηχανικής φυσικής και χημείας, τα TNΔ διαδραματίζουν επίσης ολοένα και πιο σημαντικό ρόλο.
Τα TNΔ στην καθημερινή ζωή
Η λίστα των εφαρμογών που χρησιμοποιούνται στην καθημερινή ζωή και
βασίζονται στα Τεχνητά Νευρωνικά Δικτύα (ΤΝΔ) είναι μεγάλη. Αυτά τα δίκτυα
βρίσκονται πίσω από σχεδόν οτιδήποτε κάνουμε με τους υπολογιστές, όπως η
αναγνώριση εικόνων, η δημιουργία γλώσσας και πολλά άλλα.
Η υποστήριξη αποφάσεων στο πλαίσιο της υγειονομικής περίθαλψης είναι
επίσης μια καθιερωμένη εφαρμογή για τα TNΔ. Για παράδειγμα, μια πρόσφατη
μελέτη εικόνων μαστογραφικού προσυμπτωματικού ελέγχου έδειξε ένα σαφές
όφελος από τη χρήση μηχανικής μάθησης για τη βελτίωση της ανίχνευσης του
καρκίνου του μαστού [51]. Ένα άλλο πρόσφατο παράδειγμα είναι η διόρθωση
κίνησης στις σαρώσεις μαγνητικής τομογραφίας (MRI) [52].
Συμπερασματικές παρατηρήσεις
Οι πρωτοποριακές μέθοδοι και έννοιες που αναπτύχθηκαν από τους Hopfield και Hinton ήταν καθοριστικής σημασίας για τη διαμόρφωση του πεδίου των TNΔ. Επιπλέον, ο Hinton έπαιξε πρωταγωνιστικό ρόλο στις προσπάθειες επέκτασης των μεθόδων σε βαθύτερα και πυκνότερα TNΔ.
Με τις ανακαλύψεις τους, που στηρίζονται στα θεμέλια της φυσικής επιστήμης, έδειξαν έναν εντελώς νέο τρόπο για να χρησιμοποιούμε τους υπολογιστές για να αντιμετωπίσουμε πολλές από τις προκλήσεις που αντιμετωπίζει η κοινωνία μας. Με απλά λόγια, χάρη στην εργασία τους, η ανθρωπότητα διαθέτει τώρα ένα νέο εργαλείο, το οποίο μπορεί να επιλέξει να το χρησιμοποιεί μόνο για καλούς σκοπούς. Η μηχανική μάθηση που βασίζεται σε TNΔ φέρνει επανάσταση στην επιστήμη, τη μηχανική και την καθημερινή ζωή. Το πεδίο έχει πάρει ήδη τον δρόμο του για να δημιουργήσει καινοτομίες προς την οικοδόμηση μιας βιώσιμης κοινωνίας, π.χ. βοηθώντας στην ανακάλυψη νέων χρήσιμων υλικών. Το πώς η βαθιά μάθηση από τα TNΔ θα χρησιμοποιηθεί στο μέλλον, εξαρτάται από το πώς οι άνθρωποι θα επιλέξουν να χρησιμοποιήσουν αυτά τα απίστευτα ισχυρά εργαλεία, που ήδη είναι παρόντα σε πολλές πτυχές της ζωής μας.
παραπομπές:
- W.S. McCulloch and W. Pitts, Bull. Math. Biophys. 5, 115 (1943).
- D.O. Hebb, The organization of behavior (Wiley & Sons, New York, 1949).
-
F. Rosenblatt, Principles of neurodynamics:Perceptrons and theory of
brain
mechanisms (Spartan Book, Washigton D.C., 1962). -
M.L. Minsky and S.A. Papert, Perceptrons: An introduction to
computational
geometry (MIT Press, Cambridge, 1969). - B.G. Cragg and H.N.V. Temperley, Brain 78, 304 (1955).
- E.R. Caianiello, J. Theor. Biol. 2, 204 (1961).
- K. Nakano, IEEE Trans., Syst., Man, Cybern. SMC-2, 380 (1972).
- S.-I. Amari, IEEE Trans. Comput. C-21, 1197 (1972).
- W.A. Little, Math. Biosci. 19, 101 (1974).
- W.A. Little and G.L. Shaw, Math. Biosci. 39, 281 (1978).
- J.J. Hopfield, Proc. Natl. Acad. Sci USA 71, 3640 (1974).
- J.J. Hopfield, Proc. Natl. Acad. Sci USA 71, 4135 (1974).
- J.J. Hopfield, Proc. Natl. Acad. Sci. USA 79, 2554 (1982).
-
D. Krotov and J.J. Hopfield. In Advances in Neural Information
Processing
Systems 29, 1172 (2016). - D. J. Amit, H. Gutfreund and H. Sompolinsky, Phys. Rev. A 32, 1007 (1985).
-
M. Mézard, G. Parisi and M. Virasoro, Spin glass theory and beyond: An
introduction to the replica method and its applications (World Scientific,
Singapore, 1987). - J.J. Hopfield, Proc. Natl. Acad. Sci. USA 81, 3088 (1984).
- J.J. Hopfield and D.W. Tank, Biol. Cybern. 52, 141 (1985).
- J.J. Hopfield and D.W. Tank, Science 233, 625 (1986).
- S. Kirkpatrick, C.D. Gelatt and M.P. Vecchi, Science 220, 671 (1983).
- N. Mohseni, P. McMahon and T. Byrnes, Nat. Phys. Rev. 4, 363 (2022).
-
T. Kadowaki and H. Nishimori, Phys. Rev. E 58, 5355 (1998).S.E. Fahlman,
G.E. Hinton and T.J. Sejnowski. In Proceedings of the AAAI-83
conference, pp. 109-113 (1983). - D.H. Ackley, G.E. Hinton and T.J. Sejnowski, Cogn. Sci. 9, 147 (1985).
- D.E. Rumelhart, G.E. Hinton and R.J. Williams, Nature 323, 533 (1986).
- P.J. Werbos. In System Modeling and Optimization, pp. 762-770 (1982).
-
S. Linnainmaa, Master’s thesis (in Finnish), Univ. Helsinki (1970);
published in
BIT 16, 146 (1976). -
Y. LeCun, B.Boser, J.S. Denker, D. Henderson, R.E. Howard, W. Hubbard
and
L.D. Jackel, Neural Comput. 1, 541 (1989). - Y. LeCun, L. Bottou, Y. Bengio and P. Haffner, Proc. IEEE 86, 2278 (1998).
- K. Fukushima, Biol. Cybern. 36, 193 (1980).
- S. Hochreiter and J. Schmidhuber, Neural Comput. 9, 1735 (1997).
- G.E. Hinton, Neural Comput. 14, 1771 (2002).
- G.E. Hinton, S. Osindero and Y.-W. The, Neural Comput. 18, 1527 (2006).
-
Y. Bengio, P. Lamblin, D. Popovici and H. Larochelle. In Advances in
Neural
Information Processing Systems 19, 153 (2006). - G.E. Hinton and R. Salakhutdinov, Science 313, 504 (2006).
- K. Hornik, Neural Netw. 4, 251 (1991).
- J. Behler and M. Parrinello, Phys. Rev. Lett. 98, 146401 (2007).
- G. Carleo and M. Troyer, Science 355, 602 (2017).
-
P.M. Piaggi, J. Weis, A.Z. Panagiotopoulos, P.G. Debenedetti and R. Car,
Proc.
Natl. Acad. Sci. USA 119, e2207294119 (2022). -
R. Jinnouchi, J. Lahnsteiner, F. Karsai, G. Kresse and M. Bokdam, Phys.
Rev.
Lett. 122, 225701 (2019). -
P.M. de Hijes, C. Dellago, R. Jinnouchi, B. Schmiedmayer and G. Kresse,
J.
Chem. Phys. 160, 114107 (2024). -
S. Rasp, M.S. Pritchard and P. Gentine, Proc. Natl. Acad. Sci USA 115,
9684
(2018). - C. Wong, Nature 628, 710 (2024).ALEPH Collaborations, Phys. Lett B 447, 336 (1999).
- ATLAS Collaboration, Phys. Lett. B 716, 1 (2012).
- D0 Collaboration, Phys. Rev. Lett. 103, 092001 (2009).
- IceCube Collaboration, Science 380, 1338 (2023).
-
K.A. Pearson, L. Palafox and C.A. Griffith, Mon. Not. R. Astron. Soc. 474,
478
(2017). - EHT Collaboration, ApJL 930, L15 (2022).
- J. Jumper et al., Nature 596, 583 (2021).
- K. Lång et al., Lancet Oncol. 24, 936 (2023).
- V. Spieker et al., IEEE Trans. Med. Imaging 43, 846 (2024).
πηγές:
1.
Scientifc Background to the Nobel Prize in Physics 2024 – https://www.nobelprize.org/uploads/2024/09/advanced-physicsprize2024.pdf
2. LIFE 3.0, Max
Tegmark, εκδόσεις ΤΡΑΥΛΟΣ
3. H χαρακτηριστική εικόνα της ανάρτησης δημιούργηθηκε με βάση τον τίτλο της από την τεχνητή νοημοσύνη.
Δεν υπάρχουν σχόλια:
Δημοσίευση σχολίου