Utilisateur:Ladavak/D2SN 2020/Mémoire

Sujets d'article

Application de l'analyse de réseaux multidimensionnels à la détection de la fraude bancaire

Objectif

L'analyse de réseaux permet de prendre en compte la nature des échanges pour détecter la fraude.

Ainsi, on n'étudie pas les cas de fraude seulement par leurs caractéristiques intrinsèques (Montant, date, adresse IP...), mais on prend aussi en compte les échanges entre les acteurs présents dans le réseau (exemple : si deux noeuds sont similaires, il y a moins de chances que l'on soit face à un cas de fraude).

Le croisement entre les méthodes traditionnelles et ces nouvelles méthodes d'analyse de réseaux pourraient permettre de réduire le taux de faux positifs, ou bien de détecter de nouveaux vrais positifs passés inaperçus sans cet apport structurel.

Dataset

Edgar Lopez a développé un outil de simulation de fraude au moyen de paiement : PaySim, dont il a publié plusieurs extractions.

Il s'agit d'un jeu de données labelisé permettant de faire de l'apprentissage supervisé.

(GIT repertory : https://github.com/EdgarLopezPhD/PaySim)

Problème

Trop grande volumétrie pour travailler en local, nécessite de travailler sur un serveur de calcul.

Analyse de similarité dans des réseaux sociaux multidimensionnels

Objectif

Caractériser l'activité d'individus au sein d'un ensemble de réseaux sociaux (numériques ou non).

L'objectif est double : à partir de travaux sur l'analyse de réseaux pluridimensionnels, d'abord arriver à identifier un ensemble d'individus commun aux différents réseaux (un individu unique pour un ensemble de comptes sur les différentes plateformes), puis arriver à établir des communautés d'utilisateurs en analysant un ensemble de réseaux.

La sociologie numérique tend à comprendre les interactions sociales en analysant les traces laissées par des utilisateurs toujours plus nombreuses, mon objectif est d'arriver à appliquer l'analyse de réseaux multidimensionnels pour comprendre les utilisateurs de réseaux sociaux à partir de leurs comportements sur différentes plateformes de réseaux sociaux.

Hypothèses et sous-objectifs associés

H1 : Certains utilisateurs revendiquent leur identité sur tous les réseaux dans lesquels ils participent, ce n'est pas le cas de tout le monde

Objectif : retrouver un utilisateur à partir d'informations parfois incomplètes (utilisation d'un pseudo...)

H2 : Le comportement d'un individu est différent selon le réseau social sur lequel il communique.

Objectif : Comprendre le changement de comportement en fonction du réseau. Ex : suivre un parti politique sur Facebook mais pas sur Linkedin

H3 : Les liens de relation ne représentent pas la même chose selon le réseau étudié

Objectif : Faire de la détection de communauté avec chevauchement pour comprendre les différentes sphères d'un individu (professionnelle, intime, collègues informels, ...) en fonction de ses relations sur différentes plateformes.

Plan d'étude

Pour cela, j'ai distingué deux parties nécessaires à l'analyse :

a. Consolider l'information

Chaque réseau correpond à une plateforme donnée : Facebook, Twitter, Youtube, Instagram,... L'idée est d'arriver à identifier un utilisateur unique derrière un ensemble de comptes à partir de ses échanges dans chacun des réseaux étudiés pour compléter l'information contenue dans nos données

b. Caractériser les relations

Une fois l'information consolidée, nous pouvons caractériser les liens existant entre les différents utilisateurs : établir des communautés d'utilisateurs à partir de leurs interactions dans différents réseaux, prédire quels utilisateurs ont le plus de chances de se connaître, analyser quel type de lien il existe entre deux utilisateurs...

Datasets

ff-tw-yt

This anonymized dataset has been obtained starting from Friendfeed, a social media aggregator (Magnani and Rossi, 2011). In this system while users can directly post messages and comment on other messages much like in Facebook and other similar OSNs, they can also register their accounts on other systems. The original data acquisition consists of 322 967 users who registered at least one service outside Friendfeed, with a total number of 1 587 273 services. From these, two multilayer networks were retrieved, one with users who registered exactly one Twitter account and whose Twitter account was associated to exactly one Friendfeed account (ff-tw) and one smaller dataset with an additional YouTube layer (ff-tw-yt).

Lien vers les données : http://multilayer.it.uu.se/datasets.html

Ce dataset aggrège des données issues de trois réseaux sociaux : Friendfeed (plateforme qui aggrège différents réseaux sociaux, racheté par Facebook en 2009 et dissolu en 2015), et ses connecteurs Twitter et Youtube.

L'intérêt de ce dataset est qu'il contient un ensemble de noeuds qui se supperpose sur les différentes couches du réseau multidimensionnel, ainsi nous pourrons avoir une idée précise des performances de nos prédictions pr rapport aux données initiales.

Ce dataset de 5000 noeuds et 70000 liens permet de calculer en local des métriques de similarité , et d'avoir une idée des performances des méthodes mises en oeuvre.

Pour la première partie "consolider l'information", je vais créer un premier réseau qui contient tous les comptes issus des différentes plateformes, les liens représenteront le fait d'appartenir à un seul et même utilisateur (couche apprentissage), et un second réseau correspondant à toutes les interactions entre les comptes de toutes les plateformes (couche prédicteur). Je vais ensuite supprimer une partie des liens existants dans la couche d'apprentissage, et tester la prédiction de l'appartenance de plusieurs comptes à un seul utilisateur en comparant mes résultats au dataset de base.

Pour la seconde partie "caractériser les relations", je vais conserver les données telles qu'elles sont : 3 réseaux issus des 3 différentes plateformes, avec des liens correspondant à des interactions entre des utilisateurs. Je vais tenter d'appliquer la détection de communautés à ce réseau multidimensionnel, en essayant de trouver quelles métriques semblent optimales pour analyser un ensemble de réseaux correspondant à des interactions sociales.

Analyse de mon propre réseau

Etant personnellement utilisateur de Facebook et de LinkedIn, j'aimerais ensuite créer deux réseaux qui correspondent à mes contacts sur chacune des plateformes.

Pour cela, il va me falloir scraper mes pages utilisateurs sur les deux réseaux, pour en récupérer mes contacts, puis faire de même pour chacun de ses contacts.

Les noeuds correspondraient à des utilisateurs, pour cela, une première étape est d'associer les comptes qui ont exactement le même Prénom + Nom ; ensuite, pour enrichir des données, j'appliquerais les méthodes ayant eu le meilleur résultat sur le dataset ff-tw-yt pour réunir les utilisateurs qui utilisent un pseudo sur Facebook et leur vrai nom sur Linkedin par exemple comme un seul et unique utilisateur.

Etant personnellement en lien avec ces personnes, je pourrais calculer la performance de la méthode, et ajuster les données si besoin pour continuer l'analyse.

La seconde partie de l'analyse serait de faire de l'analyse de communautés, ainsi que de la prédiction de liens à partir des deux réseaux récoltés précédemment.

Concernant l'anonymisation des données étudiées, je remplacerai chaque identifiant de noeud par un numéro donné dans un ordre aléatoire.

Choix du sujet

J'ai donc choisi de travailler sur le second sujet présenté ci-dessus, au travers de la problématique suivante : "Comment analyser des relations entre des individus au travers de leur activité sur les réseaux sociaux?".

Titre provisoire

L'analyse de réseaux multidimensionnels appliquée à la compréhension des comportements spécifiques aux réseaux sociaux.