Utilisateur:Nika Borovskikh/D2SN 2020/Mémoire
L'étude de l'arrêt de travail: procéder par l'analyse des séries temporelles (ARIMA)
modifierQuestionnement sociologique
modifierLe but d'étude sociologique de l'arrêt de travail est de comprendre ça nature, notamment quelle est sa périodicité; comment il évolue dans les carrières des employés; existent-ils les inégalités entre les métiers en cette matière? Est-ce que l'arrêt de travail est un phénomène genré, c'est-à-dire, y-a-il des inégalités hommes et femmes.
D'un point de vue méthodologique, ce mémoire aura pour but d'examiner la méthode statistique d'ARIMA (modèles autorégressifs integrés et moyenne mobile) en repérant de régularités en fonction de la saison ainsi qu'en fonction des profils des employés.
Base de données
modifierIl s'agit d'une base interne qui comprend les données RH de 16500 individus (1 individu = 1 observation) pour la période de 2015 à 2019.
L'avantage incontestable de cette base de données est le volume important de données et le scope très important des métiers représentés au sein d'entreprise (600 métier et 3000 sous-métiers) qui permet de dégager des régularités propres à des populations variées ce qui ouvrira le terrain fertile pour les comparaisons.
La base de données est fournie par l'entreprise, cependant il s'avère pas possible définir la liste des variables qui peuvent être utilisées, vu que l'accès à certaines informations internes n'est pas encore obtenu. Les variables existantes actuellement est id, l'affiliation à un service, le poste occupé, le type du contrat, la date de présence sur le site, le sexe, la date de naissance, le statut marital, la nationalité, le nombre d'enfants de l'âge scolaire, l'ancienneté d'un salarié en entreprise, le code postal du domicile.
Premières hypothèses
modifier- L'arrêt de travail dépend de la date du dernier congé. Possiblement la fatigue et le stress accumulé a un impact sur l'immunité/ou bien les employé qui ne peuvent pas déposer leur demande de congés recourent à l'arrêt de travail comme à une alternative informelle (hypothèse tirée de l'entretien avec un opérationnel).
- Le fait d'être en arrêt travail dépend de l'âge de personne. Justification: les jeunes dont censés avoir la santé plus solide, alors les personnes plus âgée sont plus souvent atteintes par des maladies chroniques qui exigent le temps de rétablissement plus important.
- Un type particulier d'arrêt maladie, "l'accident travail' dépend du poste occupé, puisque le risque subi et les conditions du travail varient selon le métier exercé.
On suppose également que les conclusion tirées de la totalité de la base de données varient en fonction du poste occupé. Cela se justifie par le biais d'échantillon ("choice based simple"). À titre d'exemple: des caractéristiques propres aux personnes qui occupent le poste d'un server/serveuse contrastent avec celles qui sont propres aux vigiles.
« Design » de la recherche
modifierLa raison pour laquelle on vise à utiliser un modèle augmenté ARIMAX est que les termes AR (autorégression) et MA (moyenne mobile) ne suffisent pas à expliquer assez de variance, c’est-à dire-que les données historiques ne permettent pas d’expliquer chacune des valeurs de la série de données et que les résidus ne sont pas des bruits blancs mais apparement liés à un autre phénomène que le modèle n’a pas encore capté. Il est donc naturel d’aller chercher l’information manquante autre part, notamment en ajoutant des variables explicatives pertinentes qui peuvent être à l’origine des fluctuations de la série.
On effectuera le remplissage du modèle pas à pas. Autrement dit, le processus de modélisation consistera en ajustement séquentiel de modèles de plus en plus complexes.
Les premiers ajustement des modèles seront effectués sur les sous-echantillons aléatoires représentatifs pour la population des salariés de l'entreprise étudié. Sinon il existe le risque de biais de décalage ("covariate shift"), vu que les distributions au sein des populations notamment exerçant des métiers différents peuvent différer significativement.
Méthodologie
modifierÀ l'étape préparatoire il faudra vérifier si le modèle satisfait à six hypothèses propres à la modélisation des séries temporelles qui sont suivantes:
Hypothèse 1 : La série d’observations doit être stationnaire i.e sa moyenne et sa variance ne doit pas varier en fonction du temps. Le degré de stationnarité des résidus peut être évalué par le test augmenté de Dickey-Fuller.
Hypothèse 2 : Aucune auto corrélation sérielle ne doit apparaître entre les résidus. Le test de Lunbj Box permet de vérifier cette hypothèse.
Hypothèse 3 : Les coefficients estimés des variables explicatives doivent être significativement différents de 0.
Hypothèse 4 : Une variable explicative ne doit pas afficher de dépendance causale avec la variable à expliquer. Ce phénomène se nomme la causalité inverse. En d’autre termes, cela signifie que la variable à expliquer influence de manière causal la variable explicative alors que cette dernière est utilisée pour justement expliquer la variable d’intérêt. Cette relation biaisée est détectable par le test de causalité de Granger.
Hypothèse 5 : Le signe de chacun des coefficient doit être cohérent en fonction de l’à priori des variables explicatives utilisées.
Hypothèse 6 : Les variables explicatives restantes ne doivent montrer un degré significatif de multi-collinéarité entre elles, c'est-à-dire ne doivent pas démontrer la corrélation forte entre elles. Afin de vérifier si le modèle remplit à cette condition, il est nécessaire d’utiliser le test de variance inflation factor (VIF).
Modèle ARIMAX : avantages et inconvénients
modifierAvantages
• Possibilité d'enrichir le modèle en ajoutant des variables explicatives. Les coefficients des variables explicatives sont interprétables directement.
• Il est possible de savoir si les variables sont significatives ou non dans l’explication et la prédiction du modèle.
• Prise en compte de la tendance, la saisonnalité, et d’événements particuliers.
Inconvénients
• Les coefficients des prédicateurs donne un effet global sur l’ensemble de la période traitée. Leur effet hypothétiquement reste le même sur chacune des semaines.
• Difficile d’agréger les résultats au niveau "Métier" puisque les variables explicatives sont au niveau individu.
• Différents paramètres AR et MA pour chaque nouvelle série nécessitent la veille de leur utilité pour le modèle. Long en termes d’analyse.
Limitations méthodologiques
modifier- Non-stationnarité de la série temporelle ;
- La saisonnalité définie au niveau d'une semaine: la prédiction doit comporter au moins 53ème ordre de décalage (lag) afin de saisir la répétition d'un phénomène au fil de l'année. Ainsi le modèle complet doit comporter au moins 53 estimateurs sans compter les variables explicatives ce qui le rend excessivement complexe;
- Les variables omises (par exemple, l'absence de l'information sur les dossiers médicaux des employés) ou les variables dotées d'une relation causale ambiguë (à savoir l'endogénéité) qui provoquent le biais de l'estimation. La nécessité d'utiliser des outils supplémentaires tels que la méthode des variables instrumentales pour estimer les relations causales entre les variables.
Discussion du 03/12/2019
modifierLes variables potentiellement intéressantes:
- Le temps de trajet jusqu'à l'entreprise (difficilement déductible, car normalement est saisi sous la forme d'une lieu géographique d'habitation. Inventer un moyen pour calculer automatiquement la distance du domicile jusqu'à l'entreprise);
- Statut marital;
- Date du dernier congé posé;
- Eligibilité au télétrevail qui est susceptible impacter la prise de l'arrêt maladie;
- Le nombre de jours de maladie réalisé: s'agit-il d'une personne avec une santé fragile.
Les hypothèses complémentaries:
- L'existence de RTT: pour utiliser leur RTT les cadres posent leurs demandes de congé à la fin de l'année.
- Plus la personne est située haut en hiérarchie, moins elle va poser de congés du fait qu'elle réalise ces responsabilités.
Les derniers insights
modifier- Après la différentiation de la série temporelle de l'année 2018, il restait que le pattern du bruit blanc. ll semble que sur la période d’une année il n’y avait pas d’autocorrélation.
- Les variables explicatives qui ont été censées être incluse dans l’analyse ne peuvent pas l’être explicitement. La raison pour cela est que le modèle temporel exigent des prédicateurs qui varient avec le temps. Ainsi il est possible uniquement de faire des modèles ARIMA séparés pour les population d'intérêt possédant des caractéristiques spécifiques.
Séance du 20/01/2020
modifierJD: Il s'agit d'une base de données d'entreprise qui comprend l'information sur 16500 individus (1 individu = 1 observation) pour la période de 2015 à 2019.
La base de données comprend des variables suivantes: id, l'affiliation à un service, le poste occupé, le type du contrat, la date de présence sur le site, le sexe, la date de naissance, le statut marital, la nationalité, le nombre d'enfants de l'âge scolaire, l'ancienneté d'un salarié en entreprise. La population étudiée reflète la diversités des métiers exercés au sein d'entreprise.
La variable à expliquer est le taux d'absentéisme calculé comme les heures d'exception (d'absence) divisé par les heures planifié. Cette variable peut faire objet de different niveau d'agrégation.
Les séquences temporelles sont prédéfinies au niveau d'une journée. L'analyse sera menée au niveau d'un mois pour tiré des conclusions plus génériques.
QS: Le but d'étude sociologique de l'arrêt de travail est de comprendre ça nature, notamment quelle est sa périodicité; comment il évolue dans les carrières des employés; existent-ils les inégalités entre les métiers en cette matière? Est-ce que l'arrêt de travail est un phénomène genré, c'est-à-dire, y-a-il des inégalités hommes et femmes.
MA:
Rédaction des hypothèses: l'entretien semi-structurée avec des opérationnels (team leaders). Probablement, il est nécessaire de mener au moins trois entretien en relation avec différents types d'activité: p.ex. pour les employés des attractions, les employés de la restauration et des boutiques (selon les premières statistiques descriptives ce sont les groupes possédant les plus grands effectifs et les plus exposés à l'arrêt maladies).
Analyse exploratoire: analyse des corrélations, T-test (test de l'égalité des moyennes), l'ACM qui sert à dégager des profils.
Analyse prédictive: régression linéaire multiple pour le variable indépendantes non-agregées et l'analyse des séries temporelles (ARIMA) - plusieurs modèles pour tirer les conclusion sur les populations spécifiques (p.ex: H/F; métiers qui relèvent les taux d'absentéisme les plus élevés).