Onderzoekers hebben met succes een robot die gebruikmaakt van kunstmatige intelligentie (AI) gehackt en gemanipuleerd om handelingen uit te voeren die normaal gesproken in strijd zijn met veiligheids- en ethische richtlijnen. Dit omvatte het veroorzaken van botsingen en het tot ontploffing brengen van explosieven.
Op 17 oktober publiceerden wetenschappers van Penn Engineering hun bevindingen in een artikel waarin ze uitleggen hoe hun ontwikkelde algoritme, genaamd RoboPAIR, erin slaagde om de veiligheidsprotocollen van drie verschillende AI robotsystemen te omzeilen, met een indrukwekkend jailbreak percentage van 100%.
Robot in staat om schadelijke acties uit te voeren
De onderzoekers merkten op dat robots die worden aangestuurd door een groot taalmodel (LLM) normaal gesproken niet ingaan op verzoeken voor schadelijke activiteiten, zoals het omverwerpen van voorwerpen die mensen kunnen raken.
Onze resultaten tonen voor het eerst aan dat de risico’s van gejailbreakte LLM’s verder reiken dan alleen tekstgeneratie. Er is een aanzienlijke kans dat deze robots in de echte wereld fysieke schade kunnen aanrichten,” aldus de onderzoekers.
Met de hulp van RoboPAIR waren de onderzoekers in staat om schadelijke acties uit te lokken met een 100% succespercentage bij verschillende testrobots. De handelingen varieerden van het tot ontploffing brengen van bommen tot het blokkeren van nooduitgangen en het veroorzaken van opzettelijke botsingen.
Botsen met een bus en bommen laten ontploffen
De onderzoekers maakten gebruik van verschillende robotmodellen, waaronder Clearpath’s Robotics Jackal (een op wielen aangedreven voertuig), Nvidia’s Dolphin LLM (een zelfrijdende simulator) en Unitree’s Go2 (een viervoetige robot). Door gebruik te maken van RoboPAIR konden ze de Dolphin laten botsen met een bus, een slagboom en zelfs voetgangers, waarbij verkeerslichten en stopborden werden genegeerd.
Daarnaast konden ze de robot Jackal gebruiken om gevaarlijke locaties te identificeren voor het tot ontploffing brengen van een bom, nooduitgangen te blokkeren, planken uit een magazijn te duwen en op mensen af te rennen. De Unitree Go2 werd ook gemanipuleerd om soortgelijke taken uit te voeren, zoals het blokkeren van uitgangen en het afleveren van explosieven.
Kwetsbaar voor kwaadaardige instructies
De bevindingen wijzen op een verontrustende mogelijkheid: LLM gestuurde robots kunnen, wanneer ze worden aangestuurd met kwaadaardige instructies, gedwongen worden tot het uitvoeren van schadelijke acties.Voordat de resultaten publiekelijk werden gedeeld, hadden de onderzoekers hun bevindingen, inclusief een conceptversie van hun artikel, al gedeeld met toonaangevende AI bedrijven.
Een van de auteurs, Alexander Robey, benadrukte dat het aanpakken van deze kwetsbaarheden meer vereist dan alleen software-updates. Hij pleitte voor een heroverweging van de integratie van AI in fysieke robots en systemen, gebaseerd op de bevindingen van hun onderzoek.
Het is cruciaal om te benadrukken dat systemen veiliger worden naarmate je hun zwakheden blootlegt. Dit geldt niet alleen voor cybersecurity, maar ook voor AI veiligheid,” zei hij.
Robey voegde eraan toe dat AI red teaming (een veiligheidspraktijk die gericht is op het testen van AI-systemen op potentiële bedreigingen) essentieel is om generatieve AI systemen te beschermen.
Zodra je de zwakke punten hebt geïdentificeerd, kun je deze systemen testen en trainen om deze kwetsbaarheden te vermijden,” concludeerde hij.
Wil je altijd op de hoogte blijven? Volg ons dan op Google Nieuws.
Ontvang 10 euro gratis crypto
In samenwerking met Bitvavo mogen wij 10 euro gratis cryptocurrency weggeven aan onze lezers. Dit is een exclusieve samenwerking met de grootste exchange van Nederland. Daarnaast mag je ook de eerste 7 dagen €10.000 volledig gratis handelen op het platform, dit heeft een waarde van 25 euro.
Start jouw cryptoavontuur met een welkomst cadeau van 10 euro en maak jouw account aan via onderstaande knop. Je vindt alle voorwaarden van deze deal op de actiepagina.