Studie besagt, dass KI-Modelle Schwierigkeiten haben, Unsinn zu identifizieren
Die KI-Modelle, die Chatbots und andere Anwendungen antreiben, haben laut einer am Donnerstag veröffentlichten Studie immer noch Schwierigkeiten, zwischen Unsinn und natürlicher Sprache zu unterscheiden. Die Forscher der Columbia University in den USA sagten, ihre Arbeit zeige die Grenzen der aktuellen KI-Modelle auf und legte nahe, dass es noch zu früh sei, sie in rechtlichen oder medizinischen Umgebungen einzusetzen. Sie stellten neun KI-Modelle auf die Probe, indem sie Hunderte von Satzpaaren auf sie abfeuerten und fragten, welche wahrscheinlich im täglichen Sprachgebrauch vorkommen würden. Sie baten 100 Personen, dieselbe Beurteilung für Satzpaare wie „Ein Käufer kann auch ein echtes Produkt besitzen / Ein in Umfang von Highschool bewanderter Mensch irrte umher“ abzugeben. Die in der Zeitschrift Nature Machine Intelligence veröffentlichte Studie verglich dann die Antworten der KI mit den Antworten der Menschen und fand dramatische Unterschiede. Sophisticated Modelle wie GPT-2, eine frühere Version des Modells, das den viralen Chatbot ChatGPT antreibt, stimmten im Allgemeinen mit den menschlichen Antworten überein. Andere einfachere Modelle schnitten weniger gut ab. Die Forscher betonten jedoch, dass alle Modelle Fehler machten. „Jedes Modell hatte blinde Flecken und bezeichnete einige Sätze als sinnvoll, die die menschlichen Teilnehmer für Unsinn hielten“, sagte der Psychologieprofessor Christopher Baldassano, einer der Autoren des Berichts. „Das sollte uns zumindest vorerst davon abhalten, KI-Systeme wichtige Entscheidungen treffen zu lassen.“ Tal Golan, ein weiterer Autor des Papiers, sagte AFP, dass die Modelle „eine aufregende Technologie sind, die die menschliche Produktivität dramatisch ergänzen kann“. Er argumentierte jedoch, dass es „voreilig“ wäre, diese Modelle die menschliche Entscheidungsfindung in Bereichen wie Recht, Medizin oder Schülerbewertung ersetzen zu lassen. Zu den Fallstricken gehöre die Möglichkeit, dass Menschen die blinden Flecken absichtlich ausnutzen könnten, um die Modelle zu manipulieren. KI-Modelle wurden im vergangenen Jahr mit der Veröffentlichung von ChatGPT in das öffentliche Bewusstsein gebracht, das seitdem mit dem Bestehen verschiedener Prüfungen in Verbindung gebracht wurde und als mögliche Hilfe für Ärzte, Anwälte und andere Fachleute gehandelt wird
Original Artikel Teaser
AI models struggle to identify nonsense, says study
The AI models that power chatbots and other applications still have difficulty distinguishing between nonsense and natural language, according to a study released on Thursday. The researchers at Columbia University in the United States said their work revealed the limitations of current AI models and suggested it was too early to let them loose in legal or medical settings. They put nine AI models through their paces, firing hundreds of pairs of sentences at them and asking which were likely to be heard in everyday speech. They asked 100 people to make the same judgment on pairs of sentences like: “A buyer can own a genuine product also / One versed in circumference of highschool I rambled.” The research, published
Details zu AI models struggle to identify nonsense, says study