Studie zu KI-Angriffen: Wie gut erkennen Menschen manipulierte Bilder?

Kün­stliche Intel­li­genz (KI) ist fes­ter Bestandteil des All­t­ags viel­er Men­schen. Sprachas­sis­ten­ten wie Siri oder Alexa beant­worten Fra­gen, Nav­i­ga­tions-Apps opti­mieren Reis­erouten in Echtzeit und Stream­ing-Dien­ste schla­gen passende Filme oder Musik vor. Chat­bots wie Chat­G­PT unter­stützen bei der Erstel­lung von Tex­ten, während Bild-KI wie DALL·E kreative Grafiken gener­iert. Auch im Online-Shop­ping per­son­al­isieren Algo­rith­men Pro­duk­tempfehlun­gen und in der Foto­bear­beitung verbessern oder verän­dern KI-gestützte Tools Bilder mit weni­gen Klicks. Doch mit der wach­senden Ver­bre­itung steigt auch die Gefahr geziel­ter Angriffe, die Entschei­dun­gen manip­ulieren oder Sys­teme für uner­wün­schte Zwecke nutzen.

Die Wissenschaftler*innen des Zukun­ft­slabors Gesellschaft & Arbeit erforschen kom­plexe Angriffe auf KI-Sys­teme. In ein­er Studie nutzten sie drei ver­schiedene Algo­rith­men, die gezielt Bilder ver­fälscht­en, um KI-Mod­elle in die Irre zu führen. Die Algo­rith­men SemAdv, cAdV und NCF wur­den von anderen Forscher*innen entwick­elt, um die Anfäl­ligkeit von KI-Mod­ellen für gezielte Angriffe zu verdeut­lichen. Die drei Algo­rith­men unter­schei­den sich in ihrer Kom­plex­ität. Das bedeutet, dass sie in mehreren Iter­a­tio­nen Änderun­gen am Bild durch­führen. Je mehr Iter­a­tio­nen das sind, desto kom­plex­er wird der Angriff.

„Angriffe auf KI machen deut­lich, dass Kün­stliche Intel­li­genz keine unfehlbare Instanz ist. Deshalb ist es entschei­dend, ihre Schwach­stellen zu erforschen – und gle­ichzeit­ig sicherzustellen, dass Men­schen die finale Entschei­dung tre­f­fen und KI-Ergeb­nisse kri­tisch hin­ter­fra­gen. Die Forschung zu Unre­strict­ed Adver­sar­i­al Exam­ples hil­ft, Sys­teme robuster zu machen, aber auch das Bewusst­sein dafür zu schär­fen, dass der Men­sch in der Ver­ant­wor­tung bleibt“, erk­lärt Dren Fazli­ja, Leib­niz Uni­ver­sität Hannover.

Adver­sar­i­al Exam­ples sind Eingaben (z. B. Bilder), die absichtlich manip­uliert wer­den, um ein KI-Mod­ell zu täuschen, sodass es falsche Vorher­sagen trifft. Die Manip­u­la­tio­nen sind restrik­tiv und oft min­i­mal: Das ursprüngliche Bild wird leicht verän­dert (z.B. durch das Hinzufü­gen klein­er Pix­el­störun­gen), sodass der Men­sch den Unter­schied kaum bemerkt, das Mod­ell jedoch zu ein­er falschen Entschei­dung ver­an­lasst wird.

Unre­strict­ed Adver­sar­i­al Exam­ples sind eine spezielle Klasse von Adver­sar­i­al Exam­ples. “Unre­strict­ed” bedeutet hier, dass Verän­derun­gen uneingeschränkt möglich sind. Sie sind in beliebiger Form manip­ulierte Eingaben, die gezielt erstellt wer­den, um das Mod­ell zu täuschen. Tech­nisch sind diese Angriffe also deut­lich kom­plex­er. Unre­strict­ed Adver­sar­i­al Exam­ples zeigen, dass Mod­elle nicht nur durch min­i­male Verän­derun­gen, son­dern auch durch völ­lig neue oder stark verän­derte Eingaben angreif­bar sind.

Ziel der Studie war es her­auszufind­en, ob Men­schen die kom­plex­en Angriffe (Unre­strict­ed Adver­sar­i­al Exam­ples) auf KI-Mod­elle erken­nen. Bish­erige Stu­di­en hat­ten vor allem math­e­ma­tis­che Metriken genutzt, um die Echtheit von Bildern zu prüfen. In der Studie des Zukun­ft­slabors lag der Fokus auf der men­schlichen Wahrnehmung.

Aufbau der Studie

Um die Studie möglichst robust – also zuver­läs­sig und belast­bar – zu gestal­ten, entwick­el­ten die Wissenschaftler*innen das Konzept SCOOTER (Sys­tem­iz­ing Con­fu­sion Over Obser­va­tions To Eval­u­ate Real­ness). Es ermöglicht, sta­tis­tisch sig­nifikante Mei­n­ungs­bilder von Men­schen zur Analyse von Unre­strict­ed Adver­sar­i­al Exam­ples zu sammeln.

In der ersten Phase durch­liefen die Proband*innen zwei Tests, um ihre Eig­nung für die Stu­di­en­teil­nahme festzustellen. Der erste Test diente dem Auss­chluss ein­er Far­ben­blind­heit, da für die Erken­nung ver­fälschter Bilder auch far­bliche Verän­derun­gen wichtig sind. Im zweit­en Test ging es um das Ver­ständ­nis der englis­chen Sprache, weil die Studie auf Englisch durchge­führt wurde. Hat­ten die Proband*innen diese Vor­abprü­fun­gen bestanden, gelangten sie zur zweit­en Phase – der Haupt­studie. Darin wur­den ihnen ins­ge­samt 106 Bilder gezeigt. 50 davon waren unverän­dert, weit­ere 50 waren durch die drei Angriff­sal­go­rith­men (SemAdv, Cadv, NCF) far­blich ver­fälscht. Sechs Bilder dien­ten dazu, die Aufmerk­samkeit der Proband*innen sicherzustellen. Anhand ein­er Fünf-Punk­te-Skala bew­erteten die Proband*innen, wie sich­er sie den Grad der Verän­derung ein­schätzen. In der drit­ten Phase werteten die Wissenschaftler*innen die Ergeb­nisse aus und erstell­ten Sta­tis­tiken zur men­schlichen Wahrnehmung der Angriffe.

Zur Akquise der Proband*innen nutzten die Wissenschaftler*innen die Online-Plat­tform Pro­lif­ic, die speziell für die Rekru­tierung von Teilnehmer*innen für wis­senschaftliche Stu­di­en entwick­elt wurde. Die Wissenschaftler*innen führten die Studie mit einem iter­a­tiv­en Ansatz durch: Zunächst luden sie 25 Proband*innen dazu ein, die Bilder zu bew­erten. Anschließend prüften die Wissenschaftler*innen, ob die Ergeb­nisse der 25 Proband*innen aus­sagekräftig genug waren. Sie entsch­ieden, dass die Daten­grund­lage noch verbessert wer­den sollte, und akquiri­erten weit­ere 35 Proband*innen. So wur­den die 106 Bilder von ins­ge­samt 60 Proband*innen bew­ertet. Diese Daten­ba­sis reichte aus, um belast­bare Schlussfol­gerun­gen ziehen zu können.

Ergebnis der Studie

Die Studie zeigte, dass Bilder, die durch die drei Angriff­sal­go­rith­men ver­fälscht wur­den, von den Proband*innen deut­lich als modifiziert/nicht richtig wahrgenom­men wur­den. Diesem Ergeb­nis ste­ht gegenüber, dass kom­plexe Attack­en tech­nisch gese­hen viel bess­er funk­tion­ieren als ein­fache Attack­en, da sie die KI-Mod­elle deut­lich stärk­er zu Fehlver­hal­ten ver­an­lassen. Men­schen hinge­gen kön­nen die kom­plex­en Attack­en viel ein­deutiger erkennen.

Ansprech­part­ner­in für redak­tionelle Rückfragen:

Kira Kon­rad B. A.
Mar­ket­ing & Kommunikation
Zen­trum für dig­i­tale Inno­va­tio­nen Nieder­sach­sen (ZDIN)

Am OFFIS – Insti­tut für Infor­matik, Escher­weg 2, 26121 Old­en­burg – Germany
Tel: 0441 9722–435
E‑Mail: kira.konrad@zdin.de
www.zdin.de