Automatischer Detektor für Fake News

5. Mai 2021 Christa Bernert

0 Comments

Artikel zum Schwerpunktthema „Fake News – Wie können wir Fake News besser erkennen.- Wie kann uns die Forschung dabei helfen?“

Portraitfoto: Armin Kirchknopf
© Fabian Altphart

Der Monat Mai steht ganz im Zeichen des Themas “Fake-News” und wie uns die Forschung dabei helfen kann. Wir stellen euch dieses Mal Armin Kirchknopf vor. Armin hat an der Fachhochschule St. Pölten den Studiengang Interactive Technologies studiert. Armin ist Junior Researcher am Department Medien und Digitale Technologien der FH St. Pölten. In seiner Diplomarbeit und in einem Forschungsprojekt hat er sich mit dem Thema „Fake News“ eingehend beschäftigt. Armin hat einen automatischen Detektor für Fake News entwickelt.

Wie kam es zu deiner Entscheidung Interactive Technologies zu studieren? In welche Schule bist du gegangen? Hast du dich schon immer für Technik interessiert?

Dafür muss ich etwas ausholen. Ich selbst habe in meinem ersten Bildungsweg Ägyptologie und Klassische Archäologie studiert und war öfters auch in Ausgrabungen im Ausland. Dort beschäftigte ich mich sehr stark mit dem Thema Technologien in den Archäologien.
Da ich immer schon ein Händchen für Technik hatte, und meine jetzige Frau Kontakte an die FH Sankt Pölten hatte, traf eins das andere. Dort musste ich mich im Bachelor Medientechnik aber damit „abfinden“, dass ich eine neue „Leidenschaft“, das Programmieren für mich erkannte. Und nicht Audio/Video, das damals mein primärer Fokus war. Aber so führte eines zum anderen und ich darf heute über meine Arbeit berichten.

Wie kam es zur Idee dieser Diplomarbeit? Was war Auslöser, diese Diplomarbeit zu schreiben?

Da trafen mehrere Dinge aufeinander. Auf der einen Seite wollte ich mich mit der Technologie von multistream neural networks, sprich KI-Modellen, die mehrere unterschiedliche Eingaben, bspw. Text und Bild, verarbeiten können, beschäftigen. Auf der anderen Seite war es verstörend zu beobachten, wie leicht sich die menschliche Meinung, zumeist aufgrund mangelnder Möglichkeit der Betrachtung aus mehreren Blickwinkeln, durch die sozialen Medien beeinflussen lassen.

Besonders gefreut hat mich, dass meine Diplomarbeit durch die Internet Privat Stiftung Austria, im Rahmen eines Netidee Stipendium gefördert wurde. Der Vorteil dieser Förderung war am zweitägigen netidee Community Camp teilzunehmen. Dort habe ich nicht nur wichtige Informationen und Antworten bekommen und konnte an zwei Tagen an Trainings zum Thema Planung und Pitching teilnehmen. Sondern ich hatte hier die Möglichkeit, mich mit Anderen zu vernetzen. Bei einem abschließenden Wettbewerb mussten wir als TeilnehmerInnen unser Können unter Beweis stellen.

Präsentation von Armin Kirchknopf bei seinem Pitch. Im Vordergrund sind die ZuhörerInnen mit demRücken zur Bühne zu sehen. Im Hintergrund ist Armin Kirchknopf zu sehen. — Armin Kirchknopf bei seinem Pitch, Fotoquelle: Anna Rauchenberger – Wien, Austria – 15.11.2019 – netidee // Best Of

Welche Herausforderungen hattest du bei deiner Diplomarbeit?

Die größte Herausforderung an meinem Vorhaben war sicherlich das Finden eines Datensatzes, der alle meine Anforderungen erfüllen konnte. Die da waren:

Soziales Medium
Aktualität
Große Menge
Text und Bild Informationen

Ich hatte zu dem Zeitpunkt nicht die Ressourcen, um einen Datensatz selbst zu erstellen, da es dabei mehrere Hürden gibt, die den Umfang einer eigenen Diplomarbeit haben. Der Fakeddit Datensatz erfüllt alle Anforderungen, die Datenbasis ist Reddit, er ist von 2020, besitzt über 1 Million Datenpunkte und besitzt Textdaten, Bilddaten und Metadaten, das sind Informationen, die andere beschreiben.

Die zweite große Herausforderung war das Aneignen des benötigten Wissens, da ich zu dem Zeitpunkt noch recht neu in dem Thema war. Das konnte aber während des Schreibens der Arbeit gut behoben werden.

Die dritte Herausforderung, man mag es kaum glauben, war die benötigten Rechenkapazität. Meine KI Modelle waren nicht mehr auf einem normalen Computer zu rechnen, dafür waren sie zu komplex. Schließlich mussten bis zu 380 Millionen Parameter simultan optimiert werden. Dankenswerterweise konnte ich auf Ressourcen der FH Sankt Pölten zurückgreifen und wurde durch das NetIdee Stipendium gefördert.

Im Internet und auf Sozialen Medien sind Fake News oft nur schwer von wahren Nachrichten zu unterscheiden. Wo liegen deiner Meinung nach für uns die größten Probleme?

Die Probleme sind mehrschichtig. Einerseits werden wir auf sozialen Medien von Nachrichten und Meinungen unterschiedlichster Art bombardiert. Andererseits war es früher aufgrund der geringeren Anzahl der Medien leichter sich eine eigene Meinung bilden zu können. Heute ist die Geschwindigkeit um ein Vielfaches höher und dementsprechend ist es für die NutzerInnen schwieriger Fakten gegen und quer zu checken. Auch große Nachrichtenhäuser sind nicht vor Fake News gefeit, weil oft ein großer Zeitdruck im Publizieren neuer Nachrichten liegt.

Angesichts des ständigen Wachstums der Datenmengen hast du dir die Frage gestellt, ob Fake News durch Datenanalyse auch automatisch erkannt und bewertet werden können. Hast du eine Antwort auf deine Forschungsfrage gefunden?

Ja, die habe ich. Es ist heutzutage durch Schnittstellen (APIs) möglich automatisiert, Inhalte zu bekommen. Diese können durch eine künstliche Intelligenz auf Hinweise von Fake News untersucht werden. Die Schwierigkeit dabei besteht in der Tatsache, dass das Anlernen der KI ein schwieriger Prozess ist. Die KI muss auch erstmal lernen was Fake ist und was nicht. Sollte dabei schon ein gewisser Fehler sich einschleichen, wird die KI auch diesen Fehler begehen.

Die Regel ist dabei Garbage In, Garbage Out. Die Daten müssen qualitativ hochwertig sein, dann ist eine Detektion von Fake News prinzipiell möglich. Allerdings beschränken sich die Lösungen heutzutage zumeist auf eine Plattform, sei es Twitter, Facebook oder, wie in meinem Fall, Reddit. Diese Plattformen geben unterschiedlich viele Informationen (=Kontext) über die Nachrichten heraus, die mal mehr, mal weniger hilfreich für die Detektion sind. Generell gilt aber anzumerken, auch eine künstliche Intelligenz ist, wie wir Menschen, nicht unfehlbar, kann aber einen Tendenz dazu geben, eine Nachricht mehr oder weniger zu hinterfragen.

Wir stellen uns die Überprüfung einer Nachricht nicht ganz trivial vor. Weil eine Nachricht ja nicht nur aus Text, sondern aus Überschrift, Bildern sowie Kommentaren besteht. Und auch die Plattformen wie Facebook, Twitter oder Instagram oder Pinterest sind wahrscheinlich technisch verschieden, oder? Und die unterschiedlichen Sprachen sind wahrscheinlich auch ein Problem?

Zur Zeit ist das tatsächlich noch ein Problem. Jede Plattform hat ihre eigene Art zu kommunizieren, bspw. hat Twitter eine Zeichenbegrenzung, dies führt zu einer vollkommen anderen Form der Kommunikation. Auch der übergeordnete Grund einer Plattform hat einen solchen Einfluss. Ein Problem von vielen Systemen ist, dass es nur auf eine Art von Plattform passt. Aber wir arbeiten an einer übergreifenden Lösung. Zur Mehrsprachlichkeit ist zu sagen, dass es bereits Modelle für Mehrsprachige Ansätze gibt und dies ein geringeres Problem darstellt. Außerdem könnte man die Inhalte mittels Plattformen wie DeepL, übersetzen und weiterverarbeiten.

Meine Diplomarbeit hatte den Fokus mehrere Datenquellen zu verarbeiten. Die Plattform Reddit bzw. der Fakeddit Datensatz hat folgende Kategorien (Modalitäten) von Daten. Text, Kommentare, Bilder und Metadaten. Alles diese Informationen müssen nicht, können aber in ähnlicher Form in anderen sozialen Netzwerken vorkommen. Das erschwert die Transferierbarkeit einer Methode auf andere oder gar alle sozialen Medien.

Armin Kirchknopf präsentiert die Urkunde vom Wettbewerb Netidee 2019 - im Hintergrund ist das Rollup der Initiative netidee zu sehen. — Armin Kirchknopf bei der Verleihung der Urkunden bei Netidee, Fotocredit Anna Rauchenberger – Wien, Austria – 15.11.2019

Wie kann man sich so einen Fake-Detektor vorstellen? Wo wird dieser installiert?

Im Zuge der Diplomarbeit wurde eine Case Study und ein Prototyp erstellt. Das heißt er ist prinzipiell funktionabel aber noch nicht wirklich im Realbetrieb einsetzbar. Vorstellbar ist allerdings beispielsweise eine Browser Extension in gängigen Browsern, die wiederum nur auf Anfrage (bspw. durch einen Button) einen Text auf potenziellen Fake Gehalt hin untersuchen. Dazu muss dieser allerdings an einen Server geschickt werden, da die Modelle zu groß sind, um auf einem Anwender Computer performant laufen zu können

Wie kann uns Künstliche Intelligenz dabei helfen Fake-News zu entlarven? Welche Verfahren der Künstlichen Intelligenz gibt es schon die man derzeit weiter entwickelt bzw. welche glaubst du wird es in Zukunft geben?

KI kann den Menschen in einzelnen Tasks wie beispielsweise Bildklassifikation, Objektdetektionen usw. sehr gut unterstützen und eine Kombination von KIs erlaubt uns heutzutage schon das fast autonome Fahren. Ähnlich gut kann KI den Menschen bei der Informationsvalidierung helfen. Die KI kann, sofern die Datengrundlage, die zum Lernen benutzt wurde gut war, semantische Eigenheiten von Texten die Fake oder Nicht-Fake sind lernen. Gleiches gilt für Bilder, die bspw. auf Hinweise der Fälschung hin untersucht werden können oder die aus dem zeitlichen Kontext gerissen worden sind. (Bspw. ein älteres Bild in neuen Kontext gesetzt, um eine Meinung zu unterstreichen) Die KI hat dabei einen Vorteil und das ist Zeit.

Wir Menschen brauchen Jahre, um bspw. Sprechen zu lernen. Eine KI kann, aufgrund der verfügbaren Rechenkapazitäten, mehrere Jahrzehnte oder gar Jahrhunderte in Real-Äquivalenten lernen und sich auf einen Task extrem spezialisieren. Zurzeit können Fake News im Kontext von einzelnen Plattformen gut erkannt werden, das hat der Forschungsstand, und nicht zuletzt meine Diplomarbeit empirisch unterstützen können. Dennoch wird es noch eine Zeit dauern bis es eine KI gibt, die a.) universell und b.) überall eingesetzt werden kann. Nämlich nicht nur auf sozialen Medien, sondern auch bspw. auf ePaper Ebene von Zeitungen.

Du schreibst in deiner Arbeit, dass es unterschiedliche Arten von Fake News gibt?

Genau, wie im echten Leben, ist auch bei Fake News nicht alles schwarz oder weiß. Die Feinheiten zu erkennen ist die Kunst. Man muss nicht nur Fake oder Nicht Fake unterscheiden, sondern, je nach Modalität auch feiner differenzieren wie zum Beispiel Satire/Parodie oder manipulierte Inhalte. Wichtig dabei ist auch erfassen zu können ob gefakter Inhalt mit einer Intension erstellt wurde, jemanden zu schaden oder nicht. Diese Facetten zu erfassen ist selbst für Menschen, die ja bestimmen wie und was die KI lernt, schwer zu erfassen.

FH St. Pölten - Gebäude bei Nacht_klein — FH St. Pölten – Gebäude bei Nacht

Forscht du in diesem Bereich weiter – arbeitest du an der FH St. Pölten noch an diesem Projekt weiter oder an einem ähnlichen Projekt?

Die FH Sankt Pölten, genauer das Institut für Creative\Media/Technologies, baut sich zurzeit einen neuen Schwerpunkt im Bereich der automatisierten Textverarbeitung auf. Im Zuge dessen sind bereits Projektanträge in Vorbereitung, um das Thema weiter zu vertiefen.

Wie sieht für dich der Arbeitsalltag an der FH St. Pölten aus?

Nun ja, Corona hat auch uns ins Homeoffice geschickt, aber ansonsten ist es eine sehr computerlastige Arbeit. Die zum Glück aber recht abwechslungsreich ist. Mal liest man sich in ein neues Gebiet ein, recherchiert und dann kommen wieder Gelegenheiten Experimente und Forschung aktiv zu betreiben. Also zusammenfassend, sehr abwechslungsreich

Kannst du uns zum Abschluß noch eine Webtipps geben, welche Seiten seriös und niederschwellig über Fake News berichten?

Dieser Frage kann ich leider nicht guten Gewissens beantworten, da sich diese Frage nicht pauschal auf ein Medium anwenden lässt. Eine gute FakeNews Seite (die zumeist auf Satire setzt, siehe oben, die unterschiedlichen Arten von Fake News), wäre sicherlich die Tagespresse. https://dietagespresse.com/. Ansonsten gibt es unterschiedliche Seiten die manuell Fake News checken und markieren wie: https://www.factcheck.org/

Link zum Podcast der FH St. Pölten:

https://www.fhstp.ac.at/de/newsroom/news/fake-news-automatisch-erkennen#podcast

Link zu den Beiträgen

Website FH St. Pölten: https://www.fhstp.ac.at/de/newsroom/news/fake-news-automatisch-erkennen

Website Netidee: https://www.netidee.at/automated-identification-information-disorder-social-media-multimodal-data