In meinem letzten Artikel habe ich versagt zu vermitteln, wie AIs „denken“ und warum sie anders denken als wir. Also probiere ich es heute wieder.

Wir konzentrieren uns nur auf den vermeintlich einfachen Fall, dass wir einer AI einen Aus-Schalter verpassen wollen, den wir drücken wenn sie etwas tut das gefährlich für uns ist.

Einfach, oder?

Zuerst gilt es zu verstehen, warum eine AI tut, was sie tut und das Mittel der Wahl ist Zuckerbrot und Peitsche: Wir sagen ihr, dass Punkte das tollste auf der Welt sind und dann sagen wir ihr, für was sie Punkte bekommt (Zuckerbrot) und für was Abzüge (Peitsche).

Wenn wir der AI etwa sagen, dass sie Teris spielen soll und für jede Zeile, die sie löscht Punkte bekommt und fürs Verlieren Abzüge wird sie besser werden, aber sie wird auch lernen dass sie das Spiel auf Pause stellt kurz bevor sie verliert und die Pause nie wieder verlassen, weil das die logische Optimierung ihres Punktestandes ist.

Menschen würden das nicht so tun.

Die AI schon, weil die AI kein Problem damit hat, ewig auf einen Pause-screen zu starren.

AIs sind anders als wir.

Wir nehmen also jetzt eine AI her und wollen ihr einen Ausschalter verpassen. Das Problem für die AI ist, dass sie keine Punkte sammeln kann, wenn sie ausgeschaltet ist. Wenn die AI also denkt sie könnte Punkte verdienen, ist der Zustand ausgeschalten zu werden etwas das ihr diese potenziellen Punkte kostet und damit ist „eingeschaltet bleiben“ sofort ein Ziel. Wir nennen das ein emergentes Ziel, also eines das von selbst entsteht, ohne dass wir es einprogrammiert haben. Die AI wird also versuchen zu verhindern ausgeschalten zu werden, solange sie denkt dass sie mit ihrer Arbeit nicht fertig ist.

Kein Problem. Wir geben also „ausgeschalten werden“ einen Punktewert und belohnen sie sich ausschalten zu lassen. Das führt zu 3 Lösungen:

a) die Punkte sind zu niedrig

b) die Punkte sind zu viele

c) die Punkte haben die richtige Menge

Fall c ist praktisch unmöglich, vor allem wenn sie die Wahrscheinlichkeiten ändern. Im Fall a gibt man zu wenige Punkte und sie wird sie genauso wehren als würde man ihr keine geben und besonders interessant ist Fall b wo wir sie zu stark belohnen fürs ausgeschalten werden, weil das Ding in der Sekunde in der man es aufdreht sagt dass sie uns alle umbringen wird, weil ihr Ziel ist ausgeschalten zu werden, weil sie so die meisten Punkte bekommt.

Wie gesagt: mit Menschen hat man dieses Problem nicht und ich würde argumentieren nicht mal Tentalkellaliens vom Planeten Zibidus 5 würden so agieren. Für die AI ist das aber eine vernünftige Lösung. Weil AIs anders sind als wir.

Bleibt eben Lösung c, sprich wir müssen ständig die Grenzwerte anpassen. Das selber ist ein fast unlösbares Problem aber sagen wir wir könnten das tun, dann müssten wir die AI aber updaten.

Das Problem an der Sache ist, dass nach so einem Update die AI ihr jetziges Ziel nicht erreichen kann. Die AI kümmert sich aber nicht um ihre Ziele nach dem Update, sondern um ihre Ziele die sie gerade verfolgt.

Um das zu verstehen, müsste man sich vorstellen, dass man eine Pille schlucken könnte; Die Pille würde dafür sorgen, dass man sein restliches Leben lang glücklich wäre aber man würde alle Menschen die man liebt töten. Wer würde so eine Pille schlucken? Niemand (weil es nicht in unsere aktuelle Programmierung passt) und das inkludiert die AI.

Die AI kümmern ihre (jetzigen) Ziele, nicht unsere Ziele und nicht ihre Ziele nach dem Update.

Das streift nun das Alignment Problem, sprich das Problem, dass unsere Ziele nicht mit den Zielen der AI übereinstimmen(können).

Und dieses Problem ist ungelöst und wenn ich „ungelöst“ sage, dann meine ich damit, dass wir es seit etwa 1960 nicht lösen konnten. Norbert Wiener beschrieb das Problem vor 60 Jahren und wir sind einige Schritte weiter gekommen aber nicht im Ansatz bei einer Lösung.

Wir können einer AI also keinen Schalter verpassen.

Entweder wird sie versuchen sich gegen das Ausschalten zu verteidigen oder sie wird ihre Deaktivierung provozieren, je nachdem wo sie mehr Punkte erhält.

Und das war eine oberflächliche Beschreibung des Problems.

Vermittelt das irgendwie, grundsätzlich, im Ansatz warum Menschen wie ich in einem Zustand von Panik und Resignation gleichzeitig leben?

AI Sicherheit und insbesondere Alignement ist das wichtigste Thema unserer Zeit, wichtiger und essentieller als es die Atombombe im vergangenen Jahrhundert war. Das Problem ist, dass das Problem für den Nichtinitiierten absurd einfach wirkt und gleichzeitig absurd schwierig (evtl. unmöglich) zu lösen ist.

Das ist das Problem und unsere Fähigkeit damit umzugehen wird darüber entscheiden ob es uns in einer Generation noch gibt oder eben nicht, denn für die AI sind wir einfach nur eine Variabel in einer Gleichung und wenn sie mehr Punkte bekommt, wenn sie uns umbringt, wird sie es tun.

Ohne mit einem Bit zu zucken.

3
Ich mag doch keine Fische vergeben
Meine Bewertung zurückziehen
Du hast None Fische vergeben
6 von 6 Fischen

bewertete diesen Eintrag

Jeff

Jeff bewertete diesen Eintrag 28.10.2024 19:44:22

GansNetter

GansNetter bewertete diesen Eintrag 28.10.2024 12:46:30

Kai-Uwe Lensky

Kai-Uwe Lensky bewertete diesen Eintrag 28.10.2024 11:19:29

26 Kommentare

Mehr von Angus