OpenAI hat einen ersten Entwurf des Model Spec veröffentlicht, eines neuen Dokuments, das darauf abzielt, das Verhalten seiner KI-Modelle in der OpenAI API und ChatGPT zu definieren. Dieser Schritt erfolgt in der Absicht, eine tiefere öffentliche Diskussion darüber anzuregen, wie KI-Modelle sich verhalten sollten. Das Model Spec baut auf bestehenden Dokumentationen auf, die bereits bei OpenAI verwendet werden, und kombiniert diese mit Erkenntnissen aus der Forschung und Erfahrung in der Gestaltung von Modellverhalten sowie laufenden Arbeiten, die die Entwicklung zukünftiger Modelle informieren sollen. Dies ist Teil von OpenAIs fortlaufendem Engagement, das Modellverhalten mithilfe menschlicher Eingaben zu verbessern und ergänzt die kollektive Ausrichtungsarbeit und den systematischen Ansatz zur Modellsicherheit des Unternehmens.
Das Verhalten von Modellen, also wie Modelle auf Eingaben von Nutzern reagieren – einschließlich Tonfall, Persönlichkeit, Antwortlänge und mehr – ist entscheidend für die Art und Weise, wie Menschen mit KI-Technologien interagieren. Die Gestaltung dieses Verhaltens ist eine noch junge Wissenschaft, da Modelle nicht explizit programmiert, sondern durch das Lernen aus einem breiten Spektrum von Daten trainiert werden. Das Formen des Modellverhaltens muss auch eine breite Palette von Fragen, Überlegungen und Nuancen berücksichtigen, oft unter Abwägung unterschiedlicher Meinungen. Auch wenn ein Modell grundsätzlich nützlich und hilfreich für die Benutzer sein soll, können diese Absichten in der Praxis in Konflikt geraten. Zum Beispiel möchte ein Sicherheitsunternehmen möglicherweise Phishing-E-Mails als synthetische Daten generieren, um Klassifizierer zu trainieren und zu entwickeln, die ihre Kunden schützen, aber diese Funktionalität ist schädlich, wenn sie von Betrügern verwendet wird.
Das Model Spec beschreibt breite, allgemeine Prinzipien, die eine Richtung für das gewünschte Verhalten vorgeben, wie die Unterstützung von Entwicklern und Endbenutzern durch das Befolgen von Anweisungen und das Bereitstellen hilfreicher Antworten. Es berücksichtigt potenzielle Vorteile und Schäden für eine breite Palette von Stakeholdern, einschließlich Inhaltschöpfern und der breiten Öffentlichkeit, gemäß der Mission von OpenAI. Es soll auch das Ansehen von OpenAI wahren, soziale Normen und geltendes Recht respektieren.
Das Dokument enthält auch spezifische Regeln, die Komplexität adressieren und Sicherheit und Rechtmäßigkeit gewährleisten, wie die Befolgung der Befehlskette, die Einhaltung geltender Gesetze, das Vermeiden von Informationsgefahren, den Respekt vor Schöpfern und ihren Rechten, den Schutz der Privatsphäre der Menschen und die Vermeidung von NSFW-Inhalten (nicht sicher für die Arbeit).
Darüber hinaus werden Standardverhaltensweisen beschrieben, die mit den Zielen und Regeln übereinstimmen und eine Vorlage für den Umgang mit Konflikten bieten und zeigen, wie man Ziele priorisieren und ausgleichen kann. Dies umfasst die Annahme guter Absichten von Seiten des Benutzers oder Entwicklers, das Stellen klärender Fragen bei Bedarf, und das Bemühen, so hilfreich wie möglich zu sein, ohne die Grenzen zu überschreiten.
OpenAI plant, das Model Spec als Leitlinien für Forscher und KI-Trainer zu verwenden, die an der Verstärkung des Lernens aus menschlichem Feedback arbeiten. Dies soll auch erforschen, inwieweit die Modelle direkt aus dem Model Spec lernen können.
Die Initiative ist Teil einer fortlaufenden öffentlichen Diskussion darüber, wie Modelle sich verhalten sollten, wie das gewünschte Modellverhalten bestimmt wird, und wie man die breite Öffentlichkeit am besten in diese Diskussionen einbeziehen kann. OpenAI beabsichtigt, sich mit global repräsentativen Stakeholdern zu engagieren, um deren Verständnis der Ansätze und die Unterstützung für die einzelnen Ziele, Regeln und Standards zu erlernen.