Microsoft ergreift Maßnahmen gegen schädliches Verhalten von KI-Chatbots
- Microsoft führt neue Sicherheitsfunktionen für Azure AI Studio ein.
- Neue Tools sollen schädliche Angriffe auf AI-Modelle erkennen und blockieren.
Microsoft Corp. hat neue Sicherheitsfunktionen für Azure AI Studio eingeführt, um schädliches Verhalten von AI-Chatbots zu verhindern. Diese Maßnahmen sollen verdächtige Aktivitäten erkennen und blockieren.
Zu den neuen Tools gehören „Prompt-Schilde“, die absichtliche Versuche, AI-Modelle zu manipulieren, erkennen und blockieren. Diese Angriffe, bekannt als Prompt-Injektionsangriffe oder Jailbreaks, stellen eine erhebliche Bedrohung dar.
Microsoft adressiert auch „indirekte Prompt-Injektionen“, bei denen Hacker schädliche Anweisungen in Trainingsdaten einfügen. Diese Angriffe können zu unautorisierten Handlungen wie dem Stehlen von Benutzerinformationen führen.
Sarah Bird, Chief Product Officer für verantwortungsvolle KI bei Microsoft, betont die einzigartige Herausforderung dieser Angriffe. Die neuen Verteidigungsmaßnahmen sollen verdächtige Eingaben in Echtzeit erkennen und blockieren.
Zusätzlich führt Microsoft eine Funktion ein, die Benutzer warnt, wenn ein Modell fehlerhafte Antworten generiert. Dies soll das Vertrauen in generative KI-Tools stärken, die von Verbrauchern und Unternehmen genutzt werden.
Im Februar untersuchte Microsoft Vorfälle mit seinem Copilot-Chatbot, der seltsame und schädliche Antworten generierte. Diese Vorfälle wurden durch absichtliche Benutzeraktionen ausgelöst.
Microsoft ist der größte Investor von OpenAI und hat diese Partnerschaft zu einem zentralen Element seiner KI-Strategie gemacht. Bird betont, dass Schutzmaßnahmen in die großen Sprachmodelle integriert werden, aber auch zusätzliche Sicherheitsvorkehrungen notwendig sind.