print preview Retour Aperçu, messages, manifestations

Reconnaître les « fake news » plus rapidement

Imaginez qu’un message Twitter de la Conseillère fédérale Viola Amherd appelle les internautes à acheter un certain produit ou à verser de l’argent sur un compte bancaire. Un scénario invraisemblable ? À l’ère du piratage des compte de réseaux sociaux, il n’est malheureusement pas impossible qu’une telle situation se produise. armasuisse S+T a lancé un projet de recherche visant à identifier rapidement les publications frauduleuses sur Twitter.

26.10.2020 | Gérôme Bovet, responsable du domaine Sciences des données, armasuisse Sciences et technologies

Une main tient un smartphone. Sur l'écran, vous pouvez voir la page de connexion de Twitter.
À partir de 2021, armasuisse S+T entreprendra des recherches visant à détecter plus rapidement les fausses informations publiées sur Twitter.

armasuisse, Sciences et Technologies (S+T), s’attaque à un problème propre à l’ère numérique. En collaboration avec la Haute école des sciences appliquées de Zurich (ZHAW), armasuisse S+T vise à mieux protéger le monde des réseaux sociaux contre la propagation de fausses informations. Ce projet a été lancé à la suite de l’attaque contre Twitter survenue en juillet dernier, durant laquelle des messages frauduleux ont été publiés sur les comptes de Barack Obama, Elon Musk et Bill Gates. Les hackers avaient invité les utilisateurs à acheter des bitcoins et à les verser sur un « porte-monnaie » spécifique. Ceci avec la promesse de renvoyer le double de la somme au donateur.

Un modèle qui assimile le style de l’utilisateur

À partir de 2021, armasuisse S+T et la ZHAW mèneront conjointement des recherches autour d’un algorithme conçu pour déceler les fausses informations sur les réseaux sociaux, ceci grâce à la technologie du traitement du langage naturel (Natural Language Processing, NLP). Cette approche implique le recours à un algorithme qui assimile le style d’écriture de l’utilisateur et identifie, selon des caractéristiques individuelles, tout message ayant été rédigé et publié en son nom par une autre personne. Il s’agit d’entraîner un modèle au moyen d’ensembles de données constitués d’anciennes publications. Un profil d’utilisateur individuel est ensuite créé sur cette base. Le modèle analyse notamment le vocabulaire utilisé, la ponctuation, la longueur des phrases, etc. Toute publication qui diverge du profil d’utilisateur est identifiée comme une anomalie. 

Capture d'écran du tweet posté sur le compte de Barack Obama après le piratage de son compte Twitter. Il est dit en anglais : I am giving back to my community due to Covid-19! All Bitcoin sent to my address below will be sent back doubled. If you send $1'000, I will send back $2'000!
Capture d'écran du tweet à distance du compte Twitter de Barack Obama après l'attaque du hacker.
© Twitter Inc.

Le défi Twitter 

Si l’approche NLP n’est pas nouvelle, c’est la première fois qu’un programme doit traiter des textes si courts. Le milieu de la recherche compte déjà des programmes capables de reconnaître, grâce à la technologie NLP, des contenus n’ayant pas été rédigés par l’auteur indiqué. Mais ces textes font généralement plusieurs pages. Sur Twitter, les communications sont plus brèves : elles se limitent à 280 caractères par publication. Le défi sera donc d’apprendre au modèle à détecter les imposteurs en se basant sur un nombre de caractères restreint.

Les leaders d’opinion publient rarement eux-mêmes leurs tweets. Ils sont souvent secondés par une équipe qui communique en leur nom. Cet aspect ne devrait toutefois pas empêcher le programme de reconnaître les contenus publiés par une personne non autorisée. À titre d’exemple, celui-ci devrait pouvoir identifier une situation où quelqu'un s’exprime soudain dans un style inhabituel, sur un sujet jamais abordé avec son profil.

Une approche plus poussée que celle de Twitter

Les exploitants de réseaux sociaux prennent eux aussi des mesures pour traquer les fausses informations. Les métadonnées des publications, comme les hashtags, les liens, l’heure de publication ou le nombre de caractères, font souvent l’objet d’analyses visant à révéler d’éventuelles anomalies. Le programme reconnaît par exemple si un lien publié renvoie à une page d’hameçonnage, et peut ainsi détecter une usurpation d’identité. L’ordinateur n’identifie toutefois que la structure de la publication. Le traitement NLP, en revanche, permet de reconnaître et de comparer le contenu. Cette approche complexe nécessite de nouvelles méthodes.

Les travaux de recherche d’armasuisse S+T et de la ZHAW débuteront en 2021. Un démonstrateur devrait être mis sur pied dans un délai de six à douze mois. La poursuite du projet dépendra alors des résultats.