print preview Zurück zur Übersicht Startseite

«Fake News» schneller erkennen

Stellen Sie sich vor, Bundesrätin Viola Amherd ruft auf Twitter dazu auf, ein gewisses Produkt zu kaufen oder Geld auf ein bestimmtes Konto zu überweisen. Unvorstellbar? In Zeiten von gehackten Social Media-Konten leider nicht unmöglich. Um gefälschte Tweets schnell zu entlarven, hat armasuisse W+T ein Forschungsprojekt initiiert.

26.10.2020 | Dr. Gérôme Bovet, Leiter Data Science, armasuisse Wissenschaft und Technologie

Eine Hand hält ein Smartphone. Auf dem Bildschirm ist die Log-in-Seite von Twitter zu erkennen.
Ab 2021 forscht armasuisse W+T daran, Falschmeldungen auf Twitter schneller zu erkennen. ©pixabay.com

Es ist ein Problem aus dem Zeitalter des Internets, welchem sich armasuisse Wissenschaft und Technologie (W+T) widmet. In Zusammenarbeit mit der Zürcher Hochschule für Angewandte Wissenschaften (ZHAW) verfolgt armasuisse W+T das Ziel, die Social Media-Landschaft sicherer vor Falschmeldungen zu machen. Als Auslöser dazu diente der Angriff auf Twitter vom letzten Juli, als auf den Konten von Barack Obama, Elon Musk und Bill Gates eine Betrugsnachricht gepostet wurde. Die Hacker hatten eine falsche Nachricht verfasst, die dazu aufrief, eine Summe der Kryptowährung Bitcoin zu kaufen und auf ein bestimmtes Konto zu überweisen. Dies mit dem Versprechen, den Betrag doppelt zurückzubekommen.

Modell lernt wie User/-in schreibt

Ab 2021 forschen armasuisse W+T und die ZHAW gemeinsam an einem Algorithmus, welcher Fake News auf Social Media mittels sogenanntem Natural Language Processing (NLP) erkennen soll. Bei diesem Ansatz lernt ein Algorithmus, wie ein Nutzer oder eine Nutzerin schreibt und erkennt anhand persönlicher Merkmale, wenn ein Beitrag von einer anderen Person in dessen oder deren Namen verfasst und publiziert wurde. Dazu trainiert ein Modell mittels Datensätzen, also bereits veröffentlichten Posts und Tweets, und erstellt dadurch ein individuelles Profil des Nutzers oder der Nutzerin. Das Modell berücksichtigt unter anderem das benutzte Vokabular, die Interpunktion, die Länge der Sätze usw. Wird nun ein Tweet abgesetzt, welches vom erstellten Userprofil abweicht, soll dies als eine Anomalie erkannt werden.

Screenshot des geposteten Tweets vom Konto von Barack Obama nach Hackangriff auf dessen Twitter-Konto. Wörtlich steht auf Englisch: I am giving back to my community due to Covid-19! All Bitcoin sent to my address below will be sent back doubled. If you send $1'000, I will send back $2'000!
Screenshot des abgesetzten Tweets vom Twitter-Konto von Barack Obama nach dem Hackangriff
© Twitter Inc.

Herausforderung Twitter

Der Ansatz des NLP ist nicht neu. Neu ist hingegen, mit wie kurzen Texten das Programm arbeiten soll. So existieren in der Forschung bereits Softwares, welche aufgrund von NLP erkennen können, wenn Texte nicht vom angegebenen Autor bzw. Autorin stammen. Nur sind diese Texte in der Regel mehrere Seiten lang. Auf Twitter hingegen wird kürzer kommuniziert – ein Tweet ist auf 280 Zeichen begrenzt. Die Herausforderung besteht also darin, dem Modell beizubringen, einen falschen User/eine falsche Userin aufgrund sehr weniger Zeichen zu entlarven.

Bekannte Meinungsbildner/-innen twittern selten alleine. Hinter ihnen steht oftmals ein Team, welches im Namen der Person postet. Doch auch dies soll das Programm nicht daran hindern zu erkennen, wenn von einer nicht autorisierten Person Tweets abgesetzt werden. Beispielsweise soll es feststellen können, wenn die Person hinter dem Account plötzlich in einer ungewöhnlichen Schreibweise über ein völlig neues Thema schreibt, welches nicht zu ihrem bisherigen Profil passt.

Ansatz geht weiter als jener von Twitter und Co.

Auch die Betreiber der Social Media-Plattformen ergreifen Massnahmen, um Falschmeldungen aufzuspüren. Oftmals lassen sie dazu die Meta-Daten der Posts, also beispielsweise benutzte Hashtags, Links, Uhrzeit des Posts und Anzahl Zeichen, durchforsten, um Anomalien aufzudecken. Benutzt also ein/e User/in zum Beispiel einen Link, welcher auf eine Phishing-Seite verweist, erkennt dies das Programm und kann dadurch einen falschen Nutzer/eine falsche Nutzerin feststellen. Bei dieser Methode erkennt die Maschine lediglich die Struktur eines Beitrags. Beim NLP-Ansatz hingegen erkennt und vergleicht der Computer den Inhalt, was komplex ist und neue Methoden verlangt.

Start der Forschungstätigkeiten von armasuisse W+T und der ZHAW ist im Jahr 2021. Sechs bis zwölf Monate danach soll voraussichtlich ein Demonstrator erstellt werden. Aufgrund der Forschungsergebnisse wird dann entschieden, ob der Ansatz weiterverfolgt wird.