So mal wieder mein brockhaus rangezogen:
Neuronale Netze in der KI
Die KI hat sich schon sehr früh mit der Idee des neuronalen Netzwerks beschäftigt; schon in dem bereits erwähnten Förderungsantrag für die Dartmouth-Konferenz 1956 wird auf die Möglichkeit künstlicher neuronaler Netze (KNN) ausdrücklich hingewiesen. Umso erstaunlicher erscheint es zunächst aus heutiger Sicht, wie spät, nämlich erst zu Beginn der 1980er-Jahre, dieser Ansatz genauer betrachtet wurde. Dabei gab es die ersten praktischen Erfolge von KNN bereits in den 1950er-Jahren. Schon im Jahr 1943 hatten Warren McCulloch und Walter Pitts vorgeschlagen, die Neuronen als logische Schaltelemente mit Binärlogik anzusehen. Frank Rosenblatt konstruierte bereits 1957 mit seinem Perceptron die erste Maschine mit einer neuronenähnlichen Verschaltung, 1960 folgte dann das Pandämonium von Selfridge und Neisser, und 1985 konnte W. Daniel Hillis seine Connection Machine vorstellen, einen komplexen und ultraschnellen Parallelrechner nach dem Prinzip neuronaler Architektur. Sie alle wurden jedoch zunächst durch eine vernichtende Kritik, angeführt von Marvin Minsky, der sich Ende der 1950er-Jahre selbst eine Zeit lang mit künstlichen neuronalen Netzwerken beschäftigt hatte, ins Abseits gedrängt. Die 1970er-Jahre wurden von den Forschern als eine ?neuronale Eiszeit? bezeichnet, so sehr wenig lief in Sachen neuronale Netze. Inzwischen hat Minsky seine Kritik widerrufen, und die Idee der KNN und ihre Propagatoren sind zu neuem Ruhm aufgestiegen. Heute gehen die KNN-Forscher, getragen von dem Erfolg ihrer Forschungsergebnisse, in die Offensive, und man versucht seit den frühen 1980er-Jahren verstärkt, Computersysteme zu konstruieren, welche die informationsverarbeitenden Prozesse im Gehirn simulieren sollen.
Hier liegt ein Paradebeispiel dafür vor, wie die für eine falsche Meinung in die Waagschale geworfene Autorität eines anerkannten Wissenschaftlers die Forschung auf diesem Gebiet für lange Zeit behindern kann. Hätte man den physiologischen Grundgedanken der KNN nicht jahrzehntelang vernachlässigt, so hätte die KI sicherlich eine ganz andere Entwicklung genommen. Der Harvard-Professor John Daugman beklagt in diesem Zusammenhang: ?Das Wohnhaus KI sieht, rückblickend betrachtet, eher wie ein Gefängnis aus, dessen Räume nicht miteinander in Verbindung stehen und dessen Korridore ins Nichts führen.?
Selbst heute werden die künstlichen neuronalen Netze, obwohl dies nach dem interdisziplinären Geist der Dartmouth-Konferenz nicht sehr plausibel ist, von manchen Forschern nicht zum Gebiet der KI gerechnet. Dessen ungeachtet gilt die direkte Orientierung an den Vorgängen im Gehirn derzeit als einer der vielversprechendsten Ansätze in der künstlichen Intelligenz, insbesondere in der Bild- und Mustererkennung.
Der Unterschied zum ?klassischen? Konzept der symbolverarbeitenden Maschinen ist dabei so grundlegend, dass man hier sogar von einem Paradigmenwechsel spricht. In betonter Abweichung von der bisher vorgetragenen Grundthese, dass Denken sich als die Summe von logischen Einzelprozessen darstellen lässt, wird die als Paradigma des Konnektionismus bezeichnete Überzeugung formuliert:
?Informationsverarbeitung erfolgt durch Wechselwirkung vieler einfacher, uniformer Einheiten, die anregende und hemmende Signale an andere Einheiten schicken.?
Bei diesem neuen Paradigma spricht man von subsymbolischer Verarbeitung, da das Wissen nicht symbolisch und explizit, sondern in einem Netzwerk auf sehr indirekte und subtile Weise in den Verbindungen der Neuronen und im Zustand der Neuronen versteckt ist.
Zwar scheitert die Konstruktion eines Computersystems, das die neuronalen Strukturen des menschlichen Gehirns genau nachbildet, nach wie vor notwendigerweise an dessen aberwitziger Komplexität sowohl im mikroskopischen als auch makroskopischen Bereich sowie an den noch ungeklärten Funktionalitäten der verschiedenen Gehirnareale. Allerdings ist es immerhin möglich, die Funktion eines einzelnen Neurons mithilfe einer elektronischen Schaltung zumindest angenähert nachzubauen; ein solches Schaltungselement hat den Namen ?künstliches Neuron? durchaus verdient. Die übliche Vorgehensweise ist es nun, eine vergleichsweise geringe Anzahl von künstlichen Neuronen zu einem künstlichen neuronalen Netzwerk zu verbinden. Solche KNN sind zwar nur stark vereinfachte Modelle unseres Gehirns, sie repräsentieren jedoch ein grundlegendes Prinzip seiner Mikrostruktur: die massiv parallele Informationsverarbeitung einer Vielzahl uniformer, einfacher Elemente, die entlang unterschiedlich ausgeprägter Verbindungen Impulse miteinander austauschen. Man kann nun an realen Aufgabenstellungen testen, ob solch ein Netzwerk ein intelligentes Verhalten zeigt.
Welche Erfolge können die künstlichen neuronalen Netze für sich verbuchen, was können sie, was mit dem ?klassischen? symbolverarbeitenden Ansatz nicht oder nur schlechter geht?
Beispiel Mustererkennung
Künstliche neuronale Netze vollbringen Leistungen, für die Intelligenz erforderlich ist, die aber mit den Mitteln der ?klassischen? symbolverarbeitenden KI nur schwer zu lösen sind. Sie sind beispielsweise in der Lage, zumindest teilweise die bildhafte, imaginäre Art und Weise nachzuvollziehen, in der der Mensch sich Gegenstände, Begriffe und bisweilen sogar abstrakte Sachverhalte vergegenwärtigt.
Wenn wir beispielsweise über einen Tiger reden, so stellt sich unmittelbar die bildhafte Vorstellung dieser Raubkatze ein. Diese Fähigkeit zur Imagination hilft unter anderem wesentlich dabei, Objekte wieder zu erkennen, die nur schemenhaft wahrnehmbar oder teilweise verdeckt sind.
Wir orientieren uns an markanten Teilen, an Mustern oder Eigenschaften und versuchen, den visuellen Eindruck mit etwas, das uns bekannt ist, zu assoziieren.
Kommen wir zu unserer indischen Großkatze zurück. Bei der Imagination gibt es weder eine explizite noch eine formale Beschreibung eines Tigers. Die implizite Vorstellung eines Tigers entspricht eher abstrakten bildhaften Eindrücken, die in unserem Gedächtnis verankert sind. Diese Eindrücke beinhalten möglicherweise keinen großen Detaillierungsgrad, sondern kommen Schemen gleich, welche die markantesten Eigenschaften festhalten und in unserem Gedächtnis verankern.
Erst in den letzten Jahrzehnten ist es der Medizin und der Biologie, insbesondere der Mikro- und Neurobiologie gelungen, die Grundfunktionen des Gedächtnisses zu erfassen.
Im Prinzip kann jedes Element des Netzwerks mit jedem anderen verbunden sein. Meist sind jedoch die Elemente in Anlehnung an das biologische Vorbild, etwa das menschliche Sehsystem in mehreren Schichten angeordnet, wobei Neuronen einer Schicht nur Signale von Neuronen der benachbarten Schicht erhalten. Typisch sind KNN mit einer bis fünf Schichten. Die Elemente der ersten Schicht, der Eingabeschicht, erhalten ihre Signale von außen, entsprechend den Sinneszellen des biologischen Vorbilds. Die letzte Schicht entspricht der Ausgabe des Systems, an der das Ergebnis des informationsverarbeitenden Erinnerungsprozesses angezeigt wird. Typischerweise ist hier ein (eventuell verrauschtes) Muster wie beispielsweise ein Tigerbild die Eingabe, und als Ausgabe wird dann ein Neuron definiert, das die Bedeutung ?Tier Tiger? hat.
Der große Unterschied zu den ?klassischen? wissensbasierten KI-Systemen beruht auf der Art und Weise, in der das Netzwerk zu diesem Ergebnis kommt: Die eigentliche Informationsverarbeitung läuft in den verborgenen Schichten ab, und es gibt Mechanismen, die bewirken, dass sich zu einem vorgegeben Eingabe-Ausgabe-Paar die Gewichte des Netzwerks anpassen. Daher müssen die künstlichen neuronalen Netze nicht explizit programmiert werden, sondern werden in einer Trainingsphase auf ihre Aufgabe hin getrimmt. Bei diesem Training ?erlernt? das Netz die Fähigkeit, zu einem Muster die dazugehörige Ausgabe zu erzeugen. An der Eingabeschicht des Netzes werden Beispiele und Gegenbeispiele des zu erlernenden Musters ?gezeigt? und das Netz über die Elemente der Ausgabeschicht adjustiert.
Vor dem Training des neuronalen Netzes sind seine Gewichte zufällig eingestellt. Durch Eingabe eines Musters und Vergleich der Ausgabe mit dem richtigen Resultat wird der Fehler berechnet und durch Rückkopplung des Impulses die Gewichte im Netz verändert. Dieser Vorgang wird oft mehrere Tausend Mal wiederholt. Auf diese Weise erreicht man, dass sich das Netz innerhalb der verborgenen Schichten selbst organisiert und ein stabiler Zustand erreicht wird, der durch weiteres Training nicht mehr verbessert werden kann. Diese Vorgehensweise entspricht dem bekanntesten Lernalgorithmus im Bereich der KNN, der Backpropagation zu Deutsch so viel wie Fehlerrückvermittlung. Das Trainieren des Netzes wird in diesem Fall durch einen Lehrer vorgenommen.
Neben dieser Form des Trainings gibt es das nichtüberwachte Lernen, bei dem keine Rückkopplung von einer vorgegebenen Ausgabe erfolgt. Ein KNN, das nach diesem Prinzip arbeitet, soll auf die Eingabe ähnlicher Muster mit ähnlichen Ausgaben reagieren. Netzwerke dieser Art bezeichnet man als selbstorganisierende Karten. Sie gehen auf den finnischen Wissenschaftler Teuvo Kohonen zurück und arbeiten mit einer Eingabeschicht und einer als Wettbewerbsschicht bezeichneten Ebene, deren Elemente alle untereinander verbunden sind.
Jedes Element der Wettbewerbsschicht ist vollständig mit Elementen der Eingabeschicht verbunden. Im Allgemeinen gilt, dass Elemente der Wettbewerbsschicht, die benachbart sind, von ähnlichen Eingaben angesprochen werden, das heißt Aktivität erzeugen. Im Speziellen reagieren die einzelnen Elemente auf individuelle Eigenschaften der Eingabe. Unwesentliche Eingabemerkmale werden dabei unterdrückt und wesentliche an einer bestimmten Stelle der Wettbewerbsschicht verstärkt.
Wird ein bestimmtes Muster an der Eingabeschicht angelegt, so vergleicht sie jedes Element der Wettbewerbsschicht mit dem ?vorgefassten Bild?. Je stärker die Eingabe diesen Vorstellungen entspricht, umso stärker wird das Element aktiviert. Als Konsequenz dieser Netztopologie unterdrückt dasjenige Element, das die größte Aktivität aufweist, über seine Querverbindungen zu seinen Nachbarelementen deren Aktivität. Es geht quasi aus dem Trainingsvorgang als Sieger hervor und vereinigt die gesamte Aktivität bei einer bestimmten Eingabe ausschließlich auf sich.
Der Lernvorgang geschieht also durch eine Selbstorganisation, indem die Gewichte schrittweise so verändert werden, dass bei einer erneuten Eingabe des gleichen Musters eine noch größere Übereinstimmung gefunden wird.
Die Selbstorganisation eines KNN bedeutet fast immer die Anpassung der Gewichte an den Verbindungen zwischen den Elementen. Hat ein Eingangsgewicht einer Zelle einen hohen Wert, so verhält sie sich empfindlich auf jedes Signal, das sie über diese Verbindung erhält. Setzt man den Wert gänzlich auf null, so hat ein Signal keinerlei Wirkung auf die Zelle. Ist der Wert gar negativ, so wirkt das Signal hemmend. Diese Wirkung ist vergleichbar mit der inhibitorischen und exzitatorischen Wirkung von Synapsen bei biologischen Neuronen.
Um die Gewichte eines Netzes zu verändern, verwendet man eine Lernregel. Sie sorgt während des Trainings dafür, dass sich die Werte der Gewichte in einen stabilen Zustand einschwingen, sodass das gewünschte Verhalten erreicht wird. Die Art der Lernregel zusammen mit der Netztopologie und der gewählten Aktivierungsfunktion sind die wichtigsten Parameter eines KNN.
Warum künstliche neuronale Netze?
Das Wissen, das man braucht, um ein Problem zu lösen, wird im KNN nicht explizit repräsentiert, sondern verteilt im gesamten Netzwerk aus Verbindungen und Schwellwertelementen gespeichert. Dies ist ein grundlegender Unterschied zur Symbolverarbeitung und einer der wesentlichen Gründe, warum neuronale Modelle als Mechanismus zur Simulation menschlicher Intelligenz verwendet werden. Traditionelle KI-Programme, basierend auf exakten ?Wenn-dann?-Beziehungen der Logik, sind anfällig bei unvollständigen oder ungenauen Aussagen. Der Ansatz mittels künstlicher neuronaler Netze ist hier toleranter.
Alles, was ein KNN gelernt hat, schlägt sich in seinen Verbindungsgewichten nieder. Die Nachvollziehbarkeit der Lösung ist dabei sehr schwierig. Bestenfalls lässt sich nachweisen, dass eine Lernaufgabe vollständig gelöst ist, ohne zu wissen, wie dies geschieht. Trotzdem scheinen KNN aufgrund der verteilten Speicherung von Wissen in einer großen Anzahl von einfachen Elementen eher in der Lage zu sein, assoziative Beziehungen zu unscharfen Eingabeinformationen herzustellen und entsprechende Ausgaben zu erzeugen. Für bestimmte Probleme der Bild- und Sprachverarbeitung sind neuronale Netze daher besonders gut geeignet.
(c) Bibliographisches Institut & F. A. Brockhaus AG, 2005