So trainieren Sie Ihren Chatbot durch Prompt Engineering

Von Lucas Mearian

Leitender Reporter, Computerworld |

Ein Grund dafür, dass auf künstlicher Intelligenz basierende Chatbots in den letzten Monaten die Welt im Sturm erobert haben, liegt darin, dass sie Texte für eine Vielzahl von Zwecken generieren oder verfeinern können, sei es für die Erstellung einer Werbekampagne oder das Verfassen eines Lebenslaufs.

Diese Chatbots basieren auf LLM-Algorithmen (Large Language Model), die menschliche Intelligenz nachahmen und Textinhalte sowie Audio, Video, Bilder und Computercode erstellen können. LLMs sind eine Art künstlicher Intelligenz, die auf einer riesigen Menge an Artikeln, Büchern oder internetbasierten Ressourcen und anderen Eingaben trainiert wird, um menschenähnliche Reaktionen auf Eingaben in natürlicher Sprache zu erzeugen.

Immer mehr Technologieunternehmen haben auf LLMs basierende generative KI-Tools für den geschäftlichen Einsatz zur Automatisierung von Anwendungsaufgaben vorgestellt. Beispielsweise hat Microsoft letzte Woche für eine begrenzte Anzahl von Benutzern einen Chatbot eingeführt, der auf ChatGPT von OpenAI basiert. Es ist in Microsoft 365 eingebettet und kann CRM- und ERP-Anwendungsfunktionen automatisieren.

Ein Beispiel für die generative KI, die Softwarecode über eine Benutzeraufforderung erstellt. In diesem Fall wird der Einstein-Chatbot von Salesforce durch die Verwendung des großen Sprachmodells GPT-3.5 von OpenAI aktiviert.

Beispielsweise kann der neue Microsoft 365 Copilot in Word verwendet werden, um einen ersten Entwurf eines Dokuments zu erstellen, wodurch möglicherweise Stunden beim Schreiben, Beschaffen und Bearbeiten eingespart werden. Salesforce kündigte außerdem Pläne zur Veröffentlichung eines GPT-basierten Chatbots zur Verwendung mit seiner CRM-Plattform an.

Die meisten LLMs, wie z. B. GPT-4 von OpenAI, sind als Engines zur Vorhersage des nächsten Wortes oder des Inhalts vorab trainiert – so nutzen sie die meisten Unternehmen, sozusagen „out of the box“. Und während LLM-basierte Chatbots ihren Teil an Fehlern verursacht haben, funktionieren vortrainierte LLMs relativ gut darin, größtenteils genaue und überzeugende Inhalte bereitzustellen, die zumindest als Ausgangspunkt dienen können.

Viele Branchen benötigen jedoch stärker angepasste LLM-Algorithmen, die ihren Fachjargon verstehen und benutzerspezifische Inhalte produzieren. LLMs für die Gesundheitsbranche müssen beispielsweise möglicherweise elektronische Gesundheitsakten (EHRs) verarbeiten und interpretieren, Behandlungen vorschlagen oder eine Zusammenfassung der Gesundheitsfürsorge für Patienten auf der Grundlage von Arztnotizen oder Sprachaufzeichnungen erstellen. Ein LLM, der auf die Finanzdienstleistungsbranche abgestimmt ist, kann Gewinngespräche zusammenfassen, Besprechungsprotokolle erstellen und Betrugsanalysen durchführen, um Verbraucher zu schützen.

In verschiedenen Branchen kann die Gewährleistung eines hohen Maßes an Reaktionsgenauigkeit von größter Bedeutung sein.

Auf die meisten LLMs kann über eine Anwendungsprogrammierschnittstelle (API) zugegriffen werden, die es dem Benutzer ermöglicht, Parameter zu erstellen oder die Reaktion des LLM anzupassen. Eine an einen Chatbot gesendete Frage oder Anfrage wird als Eingabeaufforderung bezeichnet, da der Benutzer eine Antwort auffordert. Eingabeaufforderungen können Fragen in natürlicher Sprache, Codeausschnitte oder Befehle sein, aber damit das LMM seine Aufgabe korrekt erfüllen kann, müssen die Eingabeaufforderungen auf den Punkt gebracht werden.

Und aus dieser Notwendigkeit ist eine neue Fähigkeit entstanden: Prompt Engineering.

Unter Prompt Engineering versteht man den Prozess der Erstellung und Optimierung von Texteingabeaufforderungen für große Sprachmodelle, um die gewünschten Ergebnisse zu erzielen. „[Es] hilft LLMs bei der schnellen Iteration beim Produkt-Prototyping und bei der Erkundung, da es das LLM so zuschneidet, dass es sich schnell und einfach besser an die Aufgabendefinition anpasst“, sagte Marshall Choy, Senior Vice President of Product bei SambaNova Systems, einem Startup aus dem Silicon Valley stellt Halbleiter für künstliche Intelligenz (KI) her.

Laut Eno Reyes, einem Machine-Learning-Ingenieur bei Hugging Face, einer Community-gesteuerten Plattform, die LLMs erstellt und hostet, ist Prompt Engineering für Benutzer vielleicht ebenso wichtig wie die Fähigkeit, sich zu einer wichtigen Fähigkeit für IT- und Geschäftsexperten zu entwickeln.

„ „Viele Leute, die ich in den Bereichen Software, IT und Beratung kenne, nutzen Prompt Engineering ständig für ihre persönliche Arbeit“, sagte Reyes in einer E-Mail-Antwort an Computerworld. „Da LLMs zunehmend in verschiedene Branchen integriert werden, ist ihr Potenzial zur Produktivitätssteigerung immens.“

Durch den effektiven Einsatz von Prompt Engineering können Geschäftsanwender LLMs optimieren, um ihre spezifischen Aufgaben effizienter und genauer auszuführen, angefangen beim Kundensupport bis hin zur Inhaltserstellung und Datenanalyse, sagte Reyes.

Das derzeit bekannteste LLM – GPT-3 von OpenAI – ist die Grundlage für den äußerst beliebten ChatGPT-Chatbot. Das GPT-3 LLM arbeitet mit einem 175-Milliarden-Parameter-Modell, das mit kurzen schriftlichen Eingabeaufforderungen Text und Computercode generieren kann. Die neueste Version von OpenAI, GPT-4, verfügt schätzungsweise über bis zu 280 Milliarden Parameter, wodurch die Wahrscheinlichkeit, dass sie genaue Antworten liefert, deutlich höher ist.

Neben GPT LLM von OpenAI umfassen beliebte generative KI-Plattformen offene Modelle wie BLOOM und XLM-RoBERTa von Hugging Face, NeMO LLM von Nvidia, XLNet, Co:here und GLM-130B.

Da Prompt Engineering eine junge und aufstrebende Disziplin ist, verlassen sich Unternehmen auf Broschüren und Prompt-Leitfäden, um optimale Reaktionen ihrer KI-Anwendungen sicherzustellen. Es entstehen sogar Marktplätze für Eingabeaufforderungen, beispielsweise die 100 besten Eingabeaufforderungen für ChatGPT.

„Die Leute verkaufen sogar prompte Vorschläge“, sagte Arun Chandrasekaran, ein angesehener Vice President Analyst bei Gartner Research, und fügte hinzu, dass die jüngste Flut an Aufmerksamkeit für generative KI die Notwendigkeit eines besseren Prompt Engineerings deutlich gemacht habe.

„Es ist ein relativ neuer Bereich“, sagte er. „Generative KI-Anwendungen basieren oft auf selbstüberwachten riesigen KI-Modellen und daher sind für optimale Antworten mehr Know-how, Versuche und zusätzlicher Aufwand erforderlich.“ Ich bin mir sicher, dass wir mit zunehmender Reife möglicherweise bessere Anleitungen und Best Practices von den Entwicklern von KI-Modellen erhalten werden, um effektive Möglichkeiten zu finden, das Beste aus den KI-Modellen und -Anwendungen herauszuholen.“

Die maschinelle Lernkomponente von LLMs lernt automatisch aus der Dateneingabe. Zusätzlich zu den Daten, die ursprünglich zur Erstellung eines LLM wie GPT-4 verwendet wurden, hat OpenAI etwas namens Reinforcement Learning Human Feedback entwickelt, bei dem ein Mensch das Modell darin trainiert, menschenähnliche Antworten zu geben.

Beispielsweise formuliert ein Benutzer eine Frage an das LLM und schreibt dann die ideale Antwort. Dann stellt der Benutzer dem Modell erneut dieselbe Frage und das Modell bietet viele weitere unterschiedliche Antworten. Wenn es sich um eine faktenbasierte Frage handelt, besteht die Hoffnung, dass die Antwort dieselbe bleibt; Wenn es sich um eine offene Frage handelt, besteht das Ziel darin, mehrere, menschenähnliche kreative Antworten zu liefern.

Wenn ein Benutzer beispielsweise ChatGPT bittet, ein Gedicht über eine Person zu erstellen, die an einem Strand in Hawaii sitzt, wird erwartet, dass jedes Mal ein anderes Gedicht generiert wird. „Menschentrainer bewerten also die Antworten vom besten zum schlechtesten“, sagte Chandrasekaran. „Das ist ein Input für das Modell, um sicherzustellen, dass es eine menschlichere oder beste Antwort gibt und gleichzeitig versucht, die schlechtesten Antworten zu minimieren. Aber wie Sie Fragen formulieren, hat einen großen Einfluss auf die Ergebnisse, die Sie von einem Modell erhalten.“

Organisationen können ein GPT-Modell trainieren, indem sie unternehmensinterne benutzerdefinierte Datensätze aufnehmen. Sie können beispielsweise Unternehmensdaten nehmen, diese kennzeichnen und mit Anmerkungen versehen, um ihre Qualität zu erhöhen, und sie dann in das GPT-4-Modell aufnehmen. Dadurch wird das Modell so verfeinert, dass es spezifische Fragen für diese Organisation beantworten kann.

Die Feinabstimmung kann auch branchenspezifisch sein. Es entsteht bereits eine Heimindustrie von Start-ups, die GPT-4 nutzen und viele Informationen aufnehmen, die für eine vertikale Branche, wie zum Beispiel Finanzdienstleistungen, spezifisch sind.

„Sie könnten Lexus-Nexus- und Bloomberg-Informationen aufnehmen, sie könnten SEC-Informationen wie 8K- und 10K-Berichte aufnehmen.“ Aber der Punkt ist, dass das Modell eine Menge Sprache oder Informationen lernt, die sehr spezifisch für diesen Bereich sind“, sagte Chandrasekaran. „Die Feinabstimmung kann also entweder auf Branchenebene oder auf Organisationsebene erfolgen.“

Harvey ist beispielsweise ein Startup, das mit OpenAI zusammenarbeitet, um etwas zu entwickeln, das es als „Copilot für Anwälte“ oder eine Version von ChatGPT für Juristen bezeichnet. Anwälte können den maßgeschneiderten ChatGPT-Chatbot verwenden, um rechtliche Präzedenzfälle für bestimmte Richter zu ermitteln und sich auf ihren nächsten Fall vorzubereiten, sagte Chandrasekaran.

„Ich sehe den Wert des Verkaufs von Aufforderungen nicht so sehr in der Sprache, sondern in den Bildern“, sagte Chandrasekaran. „Es gibt alle Arten von Modellen im generativen KI-Bereich, einschließlich Text-zu-Bild-Modellen.“

Beispielsweise kann ein Benutzer ein generatives KI-Modell anfordern, um ein Bild eines Gitarrenspielers zu erstellen, der auf dem Mond spielt. „Ich denke, der Text-zu-Bild-Bereich hat auf Prompt-Marktplätzen einen größeren Schwerpunkt“, sagte Chandrasekaran.

Während Hugging Face einige seiner eigenen LLMs erstellt, darunter BLOOM, besteht die Hauptaufgabe der Organisation darin, eine Drehscheibe für maschinelle Lernmodelle von Drittanbietern zu sein, wie es GitHub für Code tut; Hugging Face beherbergt derzeit mehr als 100.000 Modelle für maschinelles Lernen, darunter eine Vielzahl von LLM-Studiengängen von Startups und großen Technologieunternehmen.

Da es sich bei neuen Modellen um Open-Source-Modelle handelt, werden sie in der Regel auf dem Hub zur Verfügung gestellt, wodurch eine zentrale Anlaufstelle für neu entstehende Open-Source-LLMs geschaffen wird.

Um ein LLM für ein bestimmtes Unternehmen oder eine bestimmte Branche mithilfe von Hugging Face zu optimieren, können Benutzer die „Transformers“-APIs und „Datasets“-Bibliotheken des Unternehmens nutzen. Im Finanzdienstleistungsbereich könnte ein Benutzer beispielsweise ein vorab trainiertes LLM wie Flan-UL2 importieren, einen Datensatz mit Finanznachrichtenartikeln laden und den „Transformers“-Trainer verwenden, um das Modell zu verfeinern, um Zusammenfassungen dieser Artikel zu erstellen. Integrationen mit AWS, DeepSpeed und Accelerate sorgen für eine weitere Rationalisierung und Optimierung des Trainings.

Laut Reyes kann der gesamte Prozess in weniger als 100 Codezeilen durchgeführt werden.

Eine weitere Möglichkeit, mit Prompt Engineering zu beginnen, ist die Inferenz-API von Hugging Face. Laut Reyes handelt es sich um einen einfachen HTTP-Anfrageendpunkt, der mehr als 80.000 Transformer-Modelle unterstützt. „Mit dieser API können Benutzer Textaufforderungen senden und Antworten von Open-Source-Modellen auf unserer Plattform, einschließlich LLMs, erhalten“, sagte Reyes. „Wenn Sie es noch einfacher machen möchten, können Sie Text tatsächlich ohne Code senden, indem Sie das Inferenz-Widget auf den LLM-Modellen im Hugging Face-Hub verwenden.“

LLM-Prompt-Engineering nimmt typischerweise eine von zwei Formen an: Wenig-Schuss- und Null-Schuss-Lernen oder -Training.

Beim Zero-Shot-Lernen wird eine einfache Anweisung als Eingabeaufforderung eingegeben, die eine erwartete Antwort vom LLM hervorruft. Es soll einem LLM beibringen, neue Aufgaben auszuführen, ohne gekennzeichnete Daten für diese spezifischen Aufgaben zu verwenden. Stellen Sie sich Zero-Shot als verstärkendes Lernen vor.

Umgekehrt verwendet das Few-Shot-Learning eine kleine Menge an Beispielinformationen oder -daten, um das LLM für gewünschte Antworten zu trainieren. Few-Shot-Learning besteht aus drei Hauptkomponenten:

Laut Chandrasekaran von Gartner gibt es heute in Wirklichkeit nur wenige Organisationen, die auf ihre Bedürfnisse zugeschnittene Schulungsmodelle anbieten, da sich die meisten Modelle noch in einem frühen Entwicklungsstadium befinden. Und während Fear-Shot- und Zero-Shot-Learning hilfreich sein kann, ist das Erlernen von „Prompt Engineering“ als Fähigkeit wichtig, sowohl für IT- als auch für Geschäftsanwender.

„Prompt-Engineering ist heute eine wichtige Fähigkeit, die man besitzen muss, da Fundamentmodelle sich gut für das Wenig-Schuss- und Null-Schuss-Lernen eignen, aber ihre Leistung wird in vielerlei Hinsicht davon beeinflusst, wie wir Eingabeaufforderungen methodisch erstellen“, sagte Chandrasekaran. „Je nach Anwendungsfall und Domäne werden diese Fähigkeiten sowohl für IT- als auch für Geschäftsanwender wichtig sein.“

Mit den meisten APIs können Benutzer ihre eigenen Prompt-Engineering-Techniken anwenden. Immer wenn ein Benutzer Text an ein LLM sendet, besteht laut Reyes die Möglichkeit, Eingabeaufforderungen zu verfeinern, um bestimmte Ergebnisse zu erzielen.

„Diese Flexibilität öffnet jedoch auch Tür und Tor für böswillige Anwendungsfälle, wie zum Beispiel Prompt-Injection“, sagte Reyes. „Beispiele wie [Microsofts] Bings Sydney haben gezeigt, wie Menschen Prompt Engineering für unbeabsichtigte Zwecke ausnutzen können. Da es sich um ein wachsendes Forschungsgebiet handelt, wird es für die Zukunft von entscheidender Bedeutung sein, sich sowohl mit der sofortigen Einschleusung in böswilligen Anwendungsfällen als auch mit dem „Red-Teaming“ für Penetrationstests zu befassen, um den verantwortungsvollen und sicheren Einsatz von LLMs in verschiedenen Anwendungen sicherzustellen.“

Senior Reporter Lucas Mearian berichtet über KI im Unternehmen, Fragen der Zukunft der Arbeit, Gesundheits-IT und FinTech.

Prompt Engineering erklärt„Guter Input bedeutet guten OutputHugging Face als One-Stop-LLM-HubAufgabenbeschreibungBeispielePrompt