Der Ultimative Test Für Ki

Künstliche Intelligenz Werd in Rastem tempo Schlauer. Ein neuer wissenstest soll sie jetzt herausforward. Wenn die Ki Ihn Basteht, Kann Die Menschheit Sich Keinen Schwereren Mehr Ausdenken.

Grafentheorie Oder Die übersetzung einer inscrift im zweitausend jahre palmyra-alphabet: Die ki ist aufs äuseste gefordert.

Illustration Dario Veréb / Nzz

ES SOLL Der Ultimate Test Akademischen Wissens Sein, Mit den Schwierigsten Aus Allen Fachgebien. The “last exam of humanity” Nennen Ihn Die Forscher, Die Letzte prüfung der Menschheit. Denn eine nächste, noch schwerere prüfung für ki zu entwickeln, sei für menschen unmöglich.

Optimieren sie ihre browreinstellungen

NZZ.CH Benötigt JavaScript für Wichtige Funkeionen. IHR Browser Oder Adblocker Verhindert dies.

Bitte Passen sie die einstellungen an.

Will Zwei Jahren Noch RASSELTE SELBST DIE DAMALS WELTBESTE KI DURCH DAS DEUTSCHE ABATUR. Doch die Fähigkeiten von Ki-Modellen Sind Seither Rasant Gestagen. Das ABITUR ODER DIE MATURE SIND Längst Keine Herausforderung Mehr Für Sie, Die Aufnahmetests der renommiertesthen University bestehen sie mit leichtigkeit, unuch speaks ki entwickelte testers lösen modern chatbots zunehmend mit bestnoten.

Das Stellt Ke-Entwickler will ein problem. Denn um den fortschritt der Kentwicklung zu messen versus verschiedene chatbots zu Vergleichen, Braucht es Tests, Die Diese an ihre Grenzen Brringen.

Eine Herausforderung für menschen und ki

Forscher I AMRIKANISCHEN ZENTRUM Für Ki-Sicherheit Haben Deshalb eine Neue prüfung für ki Entwickelt. Einer der entwickler der prüfung ist der amerikanische ki-forscher Dan Hendrycks. Gegenüber der «New York Times» Hat er Verraten, dass die idea in einem gespräch mit Elon musk entstanden. Die etablierten tests bridette wissen auf dem von Burlor-studen AB, SOLL MUSK GESAGT HABEN. Er wünsche sich einen test auf dem niveau von weltklasse-offperten.

Also, Haben Hendrycks und sein Team über tausend Expert Für Die Verschiedensten Fachrichtungen aus mehr als fünfzig Länden Kontaktiert. Sie Solten Die Schwierigsten Fraden Einsenden, Die Ihnen in Ihrem Jeveiligen Fachgebiet Einfallen. Die fraden bossi eine eindeutige richtige antiwort haben und sollten sich nicht durch eine schlichte Interpretsuche beantworten lassen.

Das results ist ein fradenkatalog, der so divers wie annspruchsvoll ist. «Last exam of humanity» Besteht Aus Insgesamt 3000 fraden. Es geht um mathematical, physik und biology, Aber auch geisteSwissenschaften und Sogar Schachtaktik Werden Abgefragt. Es gibt fraden zur anatomischen funktion eines winzigen köchelchens in der Brust von kolibris, zur übersetzung einer Inschrift im zweitausend jahre alten alphabet, zu Grapentheorie, Elektrozychen Rekionc Nedingsvsvektoren. Um Hier Zu Brillieren, Müste Man Ein Universalgelehrter im Stile Leonardo da Varcis Sein – Doch Mit Dem Gesammelten Wissen Der Menschheit von Heute Stat Dem von Vo Von Jahren.

Eine prüfungsfrage Verlangt nach der übersetzung einer römischen inschrift, die zum teil in einem jahrtausealte alphabet verfasst.

Screenshot the last exam of humanity

Tatsächlich Firlen Mat resulted Der Ki-Modelle Schlecht Aus. Als Die Wissenschaftter den Neuen Test End Januar Erstmals Veröffentlichten, Konten Die Modern Chatbots Wie Chat-Gpt O1, Grok 2 Oder Deps R1 Allesamt Nur Wenige Prozent der aufgaben Richtig Lösen. Die Herausgeber des Tests Rechnen Damit, Dass Etwa Ein Jahr Dauern Werd, Bis Der Erste Chatbot Mehr Als Die Hälfte der fraden Korrekt Beantworten Kann.

Kaum Zwei Wochen Später War Diese Vorhersage Bereits Veraltet und Klang Unnötig Pesimistisch. Denn Open Ai Hat Einen Neuen Chatbot Veröffentllicht, der für besteders komplexe Themen und fradetellungen optimiert. “Deep research” Heisst Das Neue Produkt. Statt Innerihalb Weniger Sekunden eine Antwort Zu Girirenen, Lässt der Neue Chatbot sich bis Zu einer Halben Stane Lang Zeit. ER GREIFT AUF DAS INTERNET ZU, SUHT AUF VERSCHIEDENEN SITE INFORMATION ZUSAMEN, KANN PROPRAMMENEN. Und Beantwortet Laut Sam Altman, CEO Dem von Open AI, 26 prose aller fraden in the “last exam of humanity” Richtig.

Wissen Bedeutet Nicht Intelligenz

Sam Altman, Elon Musk und Co. Sechen eine hohe punktzahl in the “last exam of humanity” Als Zeichen, Dass Die Entwicklung einer allgemeinen Künstlichen Intelligenz (AG) Kurz Bevorsteht. Therefore, Bezeichnen sie eine ki, Die Genauso intelligent, Flexibel und Vielseitig ist wie ein mensch – Oder Gar Noch. Eine allgemeine künstliche intelligenz soll laut altman Einen Grosteil der Ökonomisch Wertvollen Arbeit Besser Erledigen Können Als Menschen. MIT DIESEM VERPREMENA RECHTFERTIGT ER GEGENüber seinen Investroren Die Enorman, Die Weiterentwicklung von Ki Verschlingt.

Doch so beeindruckend es ist, wenn ki prüfungsfragen auf expert centworten kann: die punktzahl in the “last examination of humanity” ist keineswegs ein anhal answer für die intelligent einer ki. Denn der test fraget wissen AB, Nicht Logisches Denken, und Erst Recht Nicht Kreivität Oder Die Fähigkeit, Neue Gedanken Zu Entwickeln. Therefore, Betonen Auch Die Herausgeber von «Last exam of humanity» Selbst, dass ihr test zwar in wissensfigen die letzte prüfung Sein Soll, Aber sicher Nicht der Letzte test für ki Geneirell Bleiben Werd.

Ein test, der so eTwas wie die intelligenz einer ki besser misst, ist die «abstract reasoning» von françois chollet. Er ist darauf ausgetrichtet, logisches undsstraktes denken zu testen. Um die aufgaben zu lösen, Muss die ki in der lage Sein, Kausale Zusammenhänge zu Erkennen. Nur so Kann Sie Wie Hier im Beispiel Die Bilderreihen Logisch Ergänzen:

Bei Diesem beispiel wird jewelry der blaee strict in Grün Verlängert, bis er an der Roten «wand» abprallt.

It was Für Menschen Einfach Ist, war for Ki Lange Eine Grosse Herausfordrung. ES Scheint Allerdings, Als Hätte Ki Auch Diese Hürzlich Genommen. Die neuste chat-gpt-opposite von open ai Löst 88 Prozent der Logischen Rätsel Korrekt.

Chollet Hat eine eigne Definition von allgemeiner künstlicher intelligenz: «wir werden wissen, dass age hier ist, wenn es Schlichtweg unmöglich, einen test zu entwickeln, der für menschen, aber seinem ki schwierg isist BLOGS. Er Arbeitet Bereits of Einer Neuen, Schwierien Version der «Abstract Motiving Challenge». Noch ist er zuversichtlich, dass die ki-model an seinem neuen test Scheiter Werden, Während «Ein Schlauer Mensch» über 95 Prozent der Fragen Beantworten Kann. Aber Wie Viele Schwieriere Tests Können Danach Noch Kommen? Muss Chollet Bald den «Letzten Logiktest Der Menschheit» Veröffentlichen?

Die Chatbots Hallluzinieren Noch IMR

Noch ist der punkt jedenfalls nicht erreicht, a dem kein der ki mehr schwer ist. Unds es gibt noch Grundlegende problem zu lösen.

Auch Das Zeagen Die Ergebnisse von «Last exam of humanity». Denn Neben der Anzahl Richtiger Antworten Messen Die Forscher Im Test Auch, Wie Sicher Sich Ein Chatbot Bei Seinen Antworten. Es Zegt Sich: Obwohl sie den Grosteil der Fragen Falsch Bentworten, Geben Die Chatbots Bei Mehr Als 90 Prozent Ihrer Anworten, Dass Sie Sich Sehr Sicher Sind. EIGENE FEHLER ZU Erkennen und eingestehen zu Können, Scheint also, noch ein feld zu Sein, in der mensch der maschine deutlich voraus.

Für Nutzer Sind Diese Halluzination Ein Problem. Denn Solange Ki Selbstbewusst Falsche Fakten Verkündet, Können Sie Ihren results nicht vertrauen. Daher ist es sehr relevant, dass die forscher die Häufigkeit und Schwere von Halluzinuionen in the “last exam of humanity” explained Erfassen. Das dürfte kentwicklern einen anreiz Geben, Die Halluzination in der Nächsten Generation von Ki-Modellen Zu Reduzieren.

Womöglich Sollten Entwickler Diese Kenngrösse noch Ernster Nehmen als die reine Anzahl Richtiger Antworten. Denn Die Meistzen Nutzen Würden Sich Wohl Eher für Das Ki-Modell Entscheiden, Das we Wenigten Fakten Erfindet, Als Für Das Model, Das Die Anatomy eines Kolibris Am Genausten Kennt.

Ein artikel aus der «»

Grafentheorie Oder Die übersetzung einer inscrift im zweitausend jahre palmyra-alphabet: Die ki ist aufs äuseste gefordert.

Optimieren sie ihre browreinstellungen

Eine Herausforderung für menschen und ki

Eine prüfungsfrage Verlangt nach der übersetzung einer römischen inschrift, die zum teil in einem jahrtausealte alphabet verfasst.

Wissen Bedeutet Nicht Intelligenz

Bei Diesem beispiel wird jewelry der blaee strict in Grün Verlängert, bis er an der Roten «wand» abprallt.

Die Chatbots Hallluzinieren Noch IMR