Recherche:Techniques de prédictions/Traitement de l'échantillonnage prédictifiable idéal

**Traitement de l'échantillonnage prédictifiable idéal**
Recherche : Techniques de prédictions

Chapitre n^o 3
Chap. préc. :	Vers l'échantillonnage prédictifiable idéal
Chap. suiv. :	Décomposition paritaire de l'échantillon

En raison de limitations techniques, la typographie souhaitable du titre, « Techniques de prédictions : Traitement de l'échantillonnage prédictifiable idéal
Techniques de prédictions/Traitement de l'échantillonnage prédictifiable idéal », n'a pu être restituée correctement ci-dessus.

Forme brute du relevé et Objectif du traitement

Un relevé, base d'un échantillonnage, comporte de 5 couples de valeurs ( xi,yi ) à un nombre quelconque. Où :

x est la variable explicative indépendante, y la variable réponse dépendante.

x peut prendre des valeurs équipotentes réparties uniformément ou non. Chaque valeur de x peut être susceptible de présenter une variation ou une erreur suivant le relevé, donc dispersée entre un minimum et un maximum.

mais y peut être susceptible de présenter une variation ou une erreur suivant le relevé, donc dispersée entre un minimum et un maximum, et des couples non uniques.

Le but est de traiter ce relevé de l' Echantillonnage Brut EgB en le transformant en un Echantillonnage Brut Traité EgBT composé de 5 à N couples de valeurs ( Xi,Yi ) avec :

Les Xi répartis uniformémént de manière équipotentes avec des écarts égaux.

A un Xi correspond un seul Yi.

Exemple de résultat après traitement

[-12,-11,-10,-9,-8,-7,-6,-5,-4,-3,-2,-1,0,+1,+2,+3,+4,+5,+6]

Des trous peuvent exister où Yi n’est pas connu ( exclusion ou manque ). Ceci sous certaines conditions pour permettre le traitement.

Il va donc falloir lisser, uniformiser et concentrer l'écriture de l' EgB.

Construction de l'Echantillonnage Brut EgBT

Différentes causes conduisent au non-respect des conditions ci-dessus. ( voir les annexes ).

À partir du relevé initial, le but est d'obtenir un seul couple par groupe de valeurs dans le cas de disparités des valeurs des données explicatives et/ou réponses. On peut mais on doit aussi constituer des groupes et établir les moyennes :

Par répartition des valeurs explicatives en classes équipotentes

Répartir les données explicatives en classes aux moyennes équipotentes. Les moyennes des classes d'extrémité seront ramenées à des valeurs équipotentes des autres afin d’avoir topujours le même écart, noté unité 1.

Par contraction des valeurs réponses sur leur moyenne pour chaque valeur explicative

Faire une moyenne de valeurs de la variable réponse pour chaque valeur de la variable explicative , et faire la moyenne des moyennes pour chaque classe de la variable explicative, dans le cas où elles existent ou dans le cas où il a fallu en établir.

NOTA : Il y a plusieurs façon de faire la moyenne dont une barycentrique à coefficients différents, l'influence des valeurs éloignées pouvant être renforcée par un coefficient dépendant de la distance au barycentre.

Inutile de chercher une courbe de régression globale puisque c’est justement un des buts de la recherche.

Par atténuation de la rapidité de variation de la variable réponse

Effectuer un lissage global par les méthodes connues en splinant les pointes des crêtes, les pointes des fonds et en établissant leur courbe moyenne soit avant de spliner, soit après avoir spliné.

Ce sont des méthodes mises au point pour les courbes boursières, pour l'écrêtage par le haut et par le bas, la suppression du bruit.

Echantillonner ensuite selon le schéma d'un EPI ( 8n+1 valeurs explicatives équipotentes et centrées ) à partir de la valeur centrale de la variable explicative qui devient alors sa valeur médiane centrale et son zéro.

Nota : une variante de la méthode développées dans cette recherche permet de réduire le bruit et les écarts anormaux .

Par une réduction du nombre de couples

On peut aussi travailler, pour un traitement rapide, à constituer 3 ou 5 classes seulement, en considérant les moyennes par classe. Ainsi se fait une approche globale mais approchée. Les résidus d'erreur ( reliquats ) sont traités de la même façon globalement ou par classe. La procédure est réitéré jusqu'à obtention d'une erreur acceptable.

Réduction d'échelle explicative de l'Echantillonnage Brut EgB

Par la technique de réduction d'échelle RE décrite au chapitre 2 partie 2.

Exemple d'échantillonnage à 9 données ( 4k+1 avec avec k=2 ):

Explicatif de l'Echantillonage Brut Traité EgBT de 19 données ( 2*9données de l'échantillon +1 ) avant extrait de l' Echantillon Brut EB et avant Réduction d'Echelle RE:

$[-120,-110,-100,-90,-80,-70,-60,-50,-40,-30,-20,-10,x0=0,x1=+10,+20,+30,+40,+50,+60]$

Explicatif de l'Echantillonnage Brut Traité EgBTRE de 19 données ( 2*9données de l'échantillon +1 ) après Réduction d'Echelle RE:

$[-12,-11,-10,-9,-8,-7,-6,-5,-4,-3,-2,-1,0,+1,+2,+3,+4,+5,+6]$

Il s'agit , cas général, de diviser chaque valeur de x par x1=x0 soit x1.

Extraction d'un échantillon brut EB de l'échantillonnage traité EgBTRE

À partir de l'Echantillonnage brut traité EgBTRE, il va falloir extraire l'Echantillon Brut le plus représentatif. POur cela :

Il doit se trouver en extrémité de l'échantillonnage du côté à prédire. Si une extrapolation est attendue de chaque côté, il faudra faire deux modélisations, une à gauche et une à droite, et extraire deux échantillons, un à chaque bout.""

LA quantité de données de l'Echantillon doit se rapprocher de la moitié N totale de l'Echantilonnage Brut construit précédemment.

La quantité de données NE de l'Echantillon doit être de 3 ou de la forme 4k+1 avec k>0 entier.

Donc : $2*(4k+1)<N<2*(4(k+1)+1)$

Dans le cas ou N n’est pas de la forme $8n+1$ , on a donc le choix entre NE=4k+1 et NE=4k+5. Les deux cas seront modélisés.

Avec moins de la moitié de N, on aura plus de tests possibles donc moins de garanties et moins d'horizon prédictif mais une décomposition moins poussée ( modélisation moins fine ).

Avec plus de la moitié de N, on aura moins de tests possibles donc plus de garanties et plus d'horizon prédictif mais une décomposition plus poussée ( modélisation plus fine ).

Autres méthodes d'extraction

Lorsqu’il y a trop de données à traiter ou à modéliser, ou lorsque les données sont aléatoires, il est pratique d'xtraire, soit de l'échantionnage brut ou traité plusieurs échantillonnages, soit de l'échantillon brut ou traité plusieurs échantillons.

Exemples d'échantillonnages avec 19 données ordonnées :

Dans le cas de données aléatoires, elles ne sont pas ordonnées et doivent le rester ( la cas de tirages successifs est un cas particulier d'ordonnancements )

Exemples avec 19 données non encore rassemblées par classes :

| -14,-11,-10,-8,-5,-2,-1,0,2,4,8,10,11,13,17,21,22,24,25 |

On peut extraire 2 échantillonnages : 1 de données d'ordre impair ( places numéros 2k+1 ), 1 de données d'ordre pair ( places numéros 2k )

| -14,-10,-5,-1,2,8,11,17,22 | et | -11,-8,-2,0,4,10,13,21,24,25 |

On peut aussi en extraire 3 : places numéros k+1, k+2 et k+3 avec k entier positif ou nul

| -14,-8,-1,4,11,21,25 | et | -11,-5,-0,8,13,22 | et | -10,-2,2,10,17,24 | de quantité inégales.

On peut extraire n échantillonnages : places numéros k+1,...., k+n

Cas de la suite des tirages du loto avec données classées ou non par tirage.

Exemples d'échantillonnages ou d'échantillons avec 19 données non encore rassemblées par classes à échelle réduite :

| -12,-11,-10,-9,-8,-7,-6,-5,-4,-3,-2,-1,0,1,2,3,4,5,6 |

On peut extraire 2 échantillonnages : 1 de données d'ordre impair ( places numéros 2k+1 ), 1 de données d'ordre pair ( places numéros 2k )

| -12,-10,-8,-6,-4,-2,0,2,4,6 | et :| -11,-9,-7,-5,-3,-1,1,3,5 |

On peut aussi en extraire 3 : places numéros k+1, k+2 et k+3 avec k entier positif ou nul

| -12,-9,-6,-3,0,3,6 | et :| -11,-8,-5,-2,1,4, | et :| -10,-7,-4,-1,0,2,5 |

Il sera intéressant de voir ce que donne les échantillons en classes recentrés :

| -12,-10,-8,-6,-4,-2,0,2,4,6 | et :| -11,-9,-7,-5,-3,-1,1,3,5 | deviennent :

| -9,-7,-5,-3,-1,1,3,5,7,9 | et :| -4,-3,-2,-1,0,1,2,3,4 | on a toujours 1 de décalage.

| -12,-9,-6,-3,0,3,6 | et | -11,-8,-5,-2,1,4, | et | -10,-7,-4,-1,0,2,5 | devient

| -3,-2,-1,0,1,2,3 | et | -4,-3,-1,1,3,5, | et | -3,-2,-1,0,1,2,3 |

Traitement de l'échantillon EB extrait par changement d'origine

Voir chapitre 2 partie 2

En général, il y atoujours une différence d' origine explicative entre l'échantillon brut et l'échantillon modélisable .

Il est remarquable que l'EPIC ( Echantillon Prédictable Idéal Complet ), sous sa forme analysable, est centré et à son origine de la variable explicative au milieu de la plage min-max de cette variable. Cela doit en être ainsi si on désire l'analyser dans sa totalité.

L'origine ou zéro de la variable explicative de l'échantillon brut est là où il est : à gauche, à droite ou entre les deux, voire hors des limites de la plage min-max.

Exemple d'Echantillon Brut à Echelle Réduite ( EBER ) donné avec origine à droite :

$[(-4k,y_{-4k})(-4k+1,y_{-4k+1})...(-2k-1,y_{-2k-1})(-2k,y_{-2k})(-2k+1,y_{-2k+1})...(-1,y_{-1})(0,y_{0})]$

L'origine peut être à droite ou à gauche.

L' origine à droite, c’est l'exemple avec des chronogrammes, des frises et des suites chronologiques avec t=0 à droite pour x0.

$[(-4k,y_{-4k})(-4k+1,y_{-4k+1})...(-2k-1,y_{-2k-1})(-2k,y_{-2k})(-2k+1,y_{-2k+1})...(-1,y_{-1})(0,y_{0})]$

Effectuer un changement d'origine de "0" qui est le zéro de la variable explicative pour amener le nouveau zéro au milieu de la plage de l'échantillon.

Exemple de changement d'origine sur un échantillon EBER de 9 données :

Explicatif de l' EBER avant changement d'origine :

{\begin{vmatrix}-2,&-1,&0,&+1,&+2,&+3,&+4,&+5,&+6\\\end{vmatrix}}

Explicatif de l' EBER après changement d'origine ( l' EBERCO ou EBT , Echantillon Brut Traité, à savoir l' EPIC ) :

${\begin{vmatrix}-4,&-3,&-2,&-1,&0,&+1,&+2,&+3,&+4,\\\end{vmatrix}}$

EPIC de 4*2+1 données régulièrement espacées de 1 et centrées ( k=2 ).

La correspondance et le passage de $x^{*}$ à $X^{*}$ et de $X^{*}$ à $x^{*}$ se fait par un changement d'échelle et un d'origine zéro:

X^{*}={\frac {x^{*}-20}{10}}

et

x^{*}=(X^{*}*10)+20

Calcul général pour 4k+1 valeurs explicatives xi* :

Superposer à la plage $[xmin^{*},xmax^{*}]$ un axe X* orienté de gauche à droite, centré sur la position milieu $x_{4k+1}^{*}$ , et gradué en + et - avec l'unité 1.

Repérer la valeur $x_{i}^{*}$ correspondant à $X^{*}=0$ .

Le changement d'origine se fait par :

$X^{*}={\frac {x^{*}-x_{i}^{*}}{x_{4k+1}^{*}}}$ et $x^{*}=(X^{*}*x_{4k+1}^{*})+x_{i}^{*}$

Critères et paramètres de l'extraction

Bien sûr il est toujours possible de prendre plus ou moins de données que celles déterminées ci-dessus. Mais c’est augmenter la différence entre les 2 compromis contradictoires à évolution inverse ( fiabilité-garanties-horizon et précision-écart-finesse ) et s'éloigner de la modélisation optimale.

Cela peut néanmoins donner des renseignements supplémentaires intéressants.

Procédure limite : Travailler sur 3 données en analyse, puis les 2 suivantes et les 2 précédentes en tests, balayer la plage explicative de l'échantillonnage et faire le suivi, le graphe et la modélisation des paramètres trouvés lors de la décomposition de l'échantillon des 3 données.

Cette procédure peut se révéler plus qu'intéressante et exploitable pour représenter la dynamique de l'échantillonnage.

Il est possible d'appliquer la procédure limite ci-dessus avec 5,9,13,17 données pour l'échantillon.

Procédures d'analyse et de tests

Après décomposition, identification et modélisation des échantillons, les tests de chaque modélisation trouvée se feront progressivement, en augmentant à chaque fois d'une donnée l'échantillon du côté libre.

Est fait ensuite une analyse des écarts entre les modèles et les données restantes séparément et globalement par la somme pondérée des carrés des écarts.

Arrêter d'étendre les tests à des données supplémentaires plus éloignées dès que l’on a inversion de la tendance ( la moyennne pondérée des carrés des écarts passe normalement par un minimum à ce moment là ).( les données aléatoires ne suivent pas cette règle )

L'horizon prédictif est alors égal au nombre de valeurs testées.

L'erreur prédictive est alors égale à + ou - la racine de la moyennne pondérée des carrés des écarts.

Le cas de présence de trous sera évoqué dans les annexes.

Cette partie est à développer avec des exemples.

Conclusions possibles

On dispose à ce stade de la recherche de procédures établies, au moins standardisées, d'échantillons maîtrisés avec une structure mormalisée.

Déjà , le chercheur a pu effectuer des variantes raisonnables, mesurables et contrôlables des paramètres précédents et établir des contrats procéduraux.

Après ces étapes, liberté à chacun d'employer sa propre méthode. Je préconise fortement la décomposition des échantillons de 4k+1 paritairement et j'aurai l’occasion dans le chapitre suivant de démontrer la parfaite validité de cette méthode naturelle.

Techniques de prédictions

Vers l'échantillonnage prédictifiable idéal

Décomposition paritaire de l'échantillon