- Note : Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.
- Modèle de calculs avec mja NCBI [61] et eco NCBI [62], des intercalaires entre CDS, c+ c- x+ x-, et entre autres gènes.
*Modèle de calcul avec mja après suppression des commentaires dans NCBI
repeat_region 378..2126
gene complement(2216..3343)
CDS complement(2216..3343)
gene complement(3340..4071)
CDS complement(3340..4071)
gene <4252..4566
CDS <4252..4566
gene 4911..5381
CDS 4911..5381
après mise en forme j'obtiens
repeat_region 378..2126 intercalaire ax+ = 2216 - 2126 - 1 = 89 pbs intercalaire type autre-cds discontinu
comp CDS 2216..3343 intercalaire c- = 3340 - 3343 - 1 = -4 pbs intercalaire type cds-cds négatif continu
comp CDS 3340..4071 intercalaire x+ = 4252 - 4071 - 1 = 182 pbs intercalaire type cds-cds positif discontinu
CDS 4252..4566 intercalaire c+ = 4911 - 4566 - 1 = 346 pbs intercalaire type cds-cds positif continu
CDS 4911..5381
* Modèle de calcul avec eco présentant 2 pseudo gènes où la ligne "gene" n'est pas suivie de la ligne "CDS"
comp gene 238257..238736
comp CDS 238257..238736
comp gene 238746..239084 /pseudo
gene 239190..239378 /pseudo
comp gene 239419..240189
comp CDS 239419..240189
- Traitement par lots
- - Sauvegarder le NCBI sans ses commentaires
- Afficher le NCBI et relever taille et date
- Copier dans un txt puis dans un calc temporaire pour faciliter les sélections début ou fin.
- Sélectionner la 1ère cellule puis select ctrl+Maj+fin et trier croissant. Le curseur est à la fin. Rechercher (ctrl+H) " tRNA " précédent.
- Descendre le curseur d'une cellule puis select ctrl+Maj+fin et supprimer.
- Se positionner au début ctrl+début et rechercher (ctrl+H) "CDS" suivant sans les cotes.
- Monter le curseur d'une cellule et puis le mettre loin à droite et effacer le début, ctrl+Maj+début.
- Le curseur est au début rechercher CDS suivant puis sélectionner ctrl+Maj+fin et coller au début de la feuille en H9.
- Le fichier est alors sauvegardé dans un txt en remplaçant la tabulation par le caractère de séparation § (ctrl+H, remplacer \t par §). Au moment de la récupération ne doit exister qu'un seul caractère de séparation, ici le §. J'ai sauvegardé plusieurs génomes dans un même lien de wikipédia comme suit :
- - Formatage en 4 colonnes : complement gène adresse1 adresse2
- Retour au tableur. Rechercher "join(", résoudre ses adresses en adresses uniques et sauvegarder le join sur la même ligne.
- Sans sélection remplacer CDS gene rRNA tRNA en ajoutant (;)
- Rechercher tRNA; suivant, vérifier s’il n’y a pas d’autres gènes entre "CDS;" et "gene;" et les suffixer avec ";", comme ncRNA misc regulatory...
- Supprimer la ligne où le gène est ‘source’ puis tri croissant sur la colonne gène à partir de la ligne au-dessus de "source".
- Sélectionner tout ctrl+Maj+fin, copier dans txt puis dans le calc temporaire: à ce moment j'ai 3 colonnes, une contenant le nom du gène, CDS tRNA ..., à côté la colonne des adresses et à côté la note de join sauvegardée au 1er alinéa. Sauvegarder la note join dans le commentaire de la cellule correspondante de la colonne des gènes. Supprimer la note.
- Pour la discontinuité "complement-non complement", ajouter une colonne à gauche contenant comp pour les adresses avec "complement".
- Enlever les blancs dans le fichier, ctrl+H et remplacer " " par rien.
- Sélectionner la colonne contenant les adresses, ctrl+H et enlever les caractères ( <)> et les caractères alphabétiques avec l'expression régulière [:alpha:].
- Remplacer les 2 points des adresses .. en ; en copiant la colonne dans txt et ctrl H . Il ne doit y avoir qu'un seul caractère de séparation qui est le ;.
- Puis copier le tout en 2 colonnes dans calc en écrasant la colonne des adresses modifiée.
- - Traitement des pseudo gènes
- Sur la colonne à gauche de comp, numéroter en séquence gene puis CDS puis le reste : à la 1ère occurrence écrire 1 puis, à la 2ème, écrire la formule, cellule de la 1ère occurrence + 1. Couper la formule et select la plage, coller et couper coller format.
- Trier d’abord sur la colonne 1 des numéros, puis trier sur 1ère et 2ème adresse. À ce moment gene et CDS sont dans ce sens pour la même adresse.
- Dans certains cas la ligne gene n'est pas suivie par sa ligne CDS. À droite de la colonne 2ème adresse je crée une colonne de formule, "1èrme e adresse de la ligne suivante - (moins) celle de la ligne de la formule". Pour un couple "gene CDS" qui se suivent la différence est nulle. Pour un couple "CDS gene" ou "gene gene" qui se suivent la différence n'est pas nulle. Ensuite je fais la même chose sur la colonne suivante mais pour les 2èrmes adresses. Couper les 1ères cellules des 2 dernières colonnes puis select ctrl+H+fin à partir de ces cellules coupées, coller et couper coller format.
- En triant sur les 2 dernières colonnes à droite, toutes les lignes "gene" avec 0 et 0 dans les 2 dernières colonnes sont à supprimer.
- Supprimer les 2 colonnes des différences ainsi que la 1ère colonne de numérotation.
- - Calcul des intercalaires
- Trier le reste sur 1ère et 2ème adresse. Calculer les intercalaires avec la formule, 1ère adresse de la ligne suivante moins 2èrme adresse de la ligne moins 1. Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
- Rechercher et colorer les CDS de la colonne des gènes, "ctrl+H CDS". Les gènes différents de CDS apparaissent en clair.
- - Marquage des intercalaires types
- Marquage des discontinus : Soit G9 la cellule de la colonne comp, G, et de ligne 9, que je vais tester dans une cellule L9 dont la colonne est libre.
- + Initialiser la cellule L9 avec la fonction =SI(G9=G10,1,0). Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
- + Sélectionner la colonne résultat et supprimer les 1 avec ctrl+H, remplacer 1 par rien. La colonne des discontinus doit être en 1er et l'écraser par la colonne des * (autres gènes ci-dessous) en ignorant les cellules vides (choix dans ctrl+v).
- Marquage des gènes autres que CDS:
- + On peut marquer les gènes différents de CDS dans la cellule M9 avec la fonction =SI en comparant le contenu de la cellule H9 à la cellule contenant, $CDS$: =SI(($CDS$=H9) et (H9=H10),0,2). Avec cette formule un CDS suivi d'un autre gène a pour résultat un 2 qui correspondra plus loin au deb (pour début du pavé clair).
- + Faire sur la colonne adjacente N9, la formule =SI(($CDS$=H9) et (H9=H8),0,3). Avec cette formule un CDS précédé d'un gène différent de CDS a pour résultat un 3 qui correspondra plus loin à fin (pour fin du pavé clair).
- Cadrage des types "autres gènes" par une colonne deb-fin:
- + Dans la cellule F9 tester les cellules H9 et M9, =SI(($CDS$=H9) et (M9=2),7,0). Un résultat 7 correspond au résultat 2 de la colonne L.
- + Dans la cellule E9 tester les cellules M9 et N9, =SI((M9=0) et (N9=3),9,0). Un résultat 9 correspond au résultat 3 de la colonne N.
- + Supprimer les 0 des colonnes E et F, couper coller la colonne E sur F en ignorant les cellules vides et remplacer 7 par deb et 9 par fin.
- Compléter la colonne des intercalaires types: Compléter la colonne L pour les types d'intercalaires x+ x- c+ c- et * pour discontinus positifs négatifs, continus positifs négatifs et autres intercalaires. Pour cela supprimer les 0 de la colonnes M et effacer la colonne N. Remplacer les 2 dans la colonne M par * et couper coller M sur L en ignorant les cellules vides.
- - Calcul de la fréquence des intercalaires:
- Le tri : En triant dans l'ordre croissant, la colonne de marquage puis la colonne des intercalaires, apparaissent les discontinus négatifs suivis des discontinus positifs. Je colorie, pour repérer les erreurs lors des contrôles, les x- en vert et les x+ en cyan. Pour les x- je remplace les 0 par des 1. Ainsi après les mêmes tris j'obtiens les 0 qui sont des x+ colorés en cyan, les x- colorés en vert, les * en clair, les c- que je colorie en jaune sans caractère sur la colonne de marquage et les c+ que je laisse en clair en clair, sans caractère sur la colonne de marquage.
- Les fréquences : sur ces plages j'applique la fonction "fréquence" de calc pour créer les diagrammes 400 et les diagrammes 40.
- - Traitement des "autres gènes":
- deb-fin : Plusieurs "autres gènes" peuvent être en une séquence longue comme pour les tRNA. Ces pavés sont encadrés la colonne deb-fin.
- Sur la totalité du génome, trier les colonnes F G H adresse1 adresse2 intercalaire type, en 1er sur la colonne deb-fin (F) et en 2ème la colonne CDS (H),
- Copier les lignes avec deb et fin en supprimant les intercalaires (K) des lignes "fin", et les sauvegarder plus loin.
- Copier les lignes en clair qui se trouvent à la fin du génome et les coller sous les lignes du pavé deb-fin sauvegardé. Trier ce pavé sur adresse 1 puis 2.
- Les tableaux deb-fin sont publiés dans les chapitres "autres intercalaires" de chaque génome.
Intergen51. Décompte des autres intercalaires
modifier
- Image: taas
- Regroupement des intercalaires autres que CDS-CDS. Voir le tableur de amed autres intercalaires aas.
- Formatage du tableur (voir l'image ci-dessus pour le formatage et les calculs): La colonne des gènes est colorée comme suite,
- - tRNA en jaune
- - rRNA en orange
- - CDS en cyane
- - gene en bleu (voir eco)
- - les gènes non RNA sont en clair (blanc): ncRNA misc regulatory repeat_region ....
- Les intercalaires tRNA-CDS. Les regroupements des intercalaires continus (c) et des discontinus (x) séparément sont faits en six colonnes avec la fonction SI() de calc au format suivant
- deb fin
- tRNA
- deb c deb x fin c fin x deb-c deb-x
- - où deb fin sont recherchés sur la 1ère colonne et tRNA sur la 2ème colonne
- - où l'intercalaire continu "deb c" est reporté avec AT3 de la colonne des intercalaires. La colonne des deb fin est AO, la colonne des tRNAs est AQ et la colonne des comps (discontinuités) est AP. La formule appliquée est SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3=AP4),AT3,).
- - où l'intercalaire discontinu "deb x" est calculé avec la formule analogue SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3<>AP4),AT3,).
- - où l'intercalaire continu "fin c" est calculé avec la formule analogue SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP4=AP3),AT3,)
- - où l'intercalaire discontinu "fin x" est calculé avec la formule analogue SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP4<>AP3),AT3,).
- - deb-c et deb-x ont le label deb à l'intérieur d'un paquet "deb ...fin" sans le label fin correspondant. Leurs formules se trouvent à la fin de la série suivante qui regroupe les 6 formules
- deb c SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3=AP4),AT3,)
- deb x SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3<>AP4),AT3,)
- fin c SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP3=AP4),AT3,)
- fin x SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP3<>AP4),AT3,)
- deb-c SI(($AX$1=AO4) ET ($AX$2=AQ3) ET (AP3=AP4),AT3,)
- deb-x SI(($AX$1=AO4) ET ($AX$2=AQ3) ET (AP3<>AP4),AT3,)
- Les intercalaires contenant les rRNA et les intercalaires tRNA-tRNA: Peu nombreux mais très variés ils sont relevés manuellement.
Lien tableur: Voir le tableur pour les données intercalaires de amed.
- Légende:
- - Les décomptes sont faits pour chaque génome à partir de son tableau autres intercalaires aas, voir le chapitre précédent.
- - Les résultats sont ajoutés aux intercalaires CDS-CDS dans les données intercalaires de chaque génome.
- - Le tableau ci-dessous représente l'exemple de amed avec ses autres intercalaires plus le formatage des intercalaires CDS-CDS supérieurs à 400 pdbs pour les positifs (400-600 et sup 600).
- - De même les CDS-CDS inférieurs à -50 sont ajoutés à part dans 2 colonnes partiellement vides, CDS-CDS inf 50.
- - A la suite de inf 50, j'ai ajouté le décompte des non RNA et le total de tous les intercalaires positifs, total intercalaires, et leurs taux par rapport à la longueur des l'ADN de l'élément (donné par NCBI), ADN long.
- - A part les tRNA-CDS, j'ai ajouté une colonne (aa) pour le tRNA de l'intercalaire rRNA-tRNA, et les 2 tRNAs successifs de l'intercalaire tRNA-tRNA.
- - Les intercalaires tRNA-tRNA sont de 3 types: à l'intérieur du cluster rRNA (tRNA intra ou tRNA in), contigu au cluster (tRNA contig, non présenté ici) et enfin en dehors du cluster (tRNA hors ou tRNAh).
int51.2 Amed. Exemple du format des autres intercalaires.
tRNA CDS |
rRNA CDS |
rRNA bloc |
tRNA tRNA |
tRNA tRNA |
CDS-CDS |
400-600 |
Sup 600
|
intercalaire |
intercalaire |
intercalaire |
intercalaire |
intercalaire |
frequence |
effectif |
long
|
c |
x |
c |
x |
c |
aa |
c |
aa |
c |
aa |
amed |
fx |
fc |
fx |
fc
|
47 |
244 |
CDS 16s |
|
23s 5s |
|
tRNA tRNA |
hors bloc |
tRNA tRNA |
suite |
400 |
1233 |
2273 |
602 |
602
|
252 |
64 |
518 |
516 |
2* 120 |
|
52 |
ttc |
40 |
tta |
410 |
5 |
6 |
609 |
605
|
103 |
363 |
424 |
596 |
2* 126 |
|
3 |
aca |
35 |
tgc |
420 |
8 |
7 |
612 |
608
|
116 |
195 |
432 |
627 |
2* 123 |
|
45 |
ttc |
** |
ggc |
430 |
5 |
3 |
616 |
609
|
190 |
556 |
469 |
626 |
127 |
|
** |
aac |
30 |
tac |
440 |
6 |
6 |
645 |
613
|
881 |
203 |
599 |
481 |
124 |
|
71 |
ctg |
** |
tac |
450 |
7 |
6 |
646 |
613
|
177 |
132 |
|
516 |
122 |
|
46 |
ctg |
104 |
gga |
460 |
6 |
6 |
662 |
621
|
236 |
104 |
5s CDS |
|
16s tRNA |
|
46 |
ctg |
** |
ggg |
470 |
4 |
6 |
665 |
624
|
9 |
271 |
386 |
268 |
3* 72 |
atc |
51 |
ctg |
57 |
tgc |
480 |
4 |
2 |
669 |
624
|
166 |
126 |
275 |
99 |
2* 274 |
gaa |
** |
ctg |
** |
ggc |
490 |
1 |
1 |
674 |
631
|
235 |
121 |
164 |
|
2* 198 |
gaa |
5 |
aac |
32 |
tac |
500 |
4 |
2 |
686 |
639
|
173 |
119 |
|
|
2* 224 |
gaa |
** |
ttc |
45 |
tac |
510 |
4 |
3 |
700 |
642
|
131 |
75 |
|
|
tRNA 23s |
|
29 |
ggc |
25 |
cgt |
530 |
2 |
1 |
733 |
660
|
226 |
248 |
|
|
3* 238 |
gca |
38 |
ggc |
25 |
cgt |
540 |
6 |
4 |
740 |
668
|
301 |
133 |
|
|
252 |
gaa |
25 |
ggc |
26 |
cgt |
550 |
5 |
3 |
744 |
681
|
460 |
380 |
|
|
3* 236 |
gaa |
23 |
ggc |
98 |
cgt |
560 |
3 |
2 |
761 |
693
|
425 |
198 |
|
|
237 |
gaa |
** |
ggc |
4 |
cgt |
570 |
2 |
1 |
803 |
695
|
181 |
126 |
|
|
238 |
gaa |
28 |
gcc |
** |
agc |
580 |
2 |
2 |
887 |
703
|
83 |
142 |
|
|
5s tRNA |
|
66 |
gcc |
38 |
gga |
590 |
1 |
1 |
907 |
709
|
83 |
369 |
|
|
98 |
gac |
58 |
gcc |
** |
tac |
600 |
3 |
3 |
935 |
716
|
177 |
302 |
|
|
2* 106 |
acc |
40 |
gcc |
58 |
cca |
|
28 |
41 |
938 |
722
|
146 |
263 |
|
|
98 |
gac |
** |
gcc |
20 |
ctg |
|
|
|
1001 |
724
|
127 |
202 |
|
|
95 |
gac |
91 |
ctc |
49 |
cac |
|
|
|
1018 |
724
|
163 |
258 |
|
|
tRNA 5s |
|
** |
atgf |
** |
cgg |
|
|
|
1028 |
753
|
438 |
|
|
|
23 |
acc |
8 |
cta |
18 |
gta |
|
|
|
1275 |
760
|
151 |
|
|
|
tRNA tRNA |
intra |
38 |
atgj |
34 |
aaa |
|
|
|
1406 |
781
|
772 |
|
|
|
3* 10 |
atc |
47 |
caa |
18 |
gta |
|
|
|
1663 |
794
|
170 |
|
|
|
** |
gca |
17 |
caa |
23 |
aaa |
|
|
|
|
815
|
145 |
|
|
|
|
|
35 |
atgj |
18 |
gta |
|
|
|
|
838
|
268 |
|
|
|
|
|
47 |
caa |
23 |
aaa |
|
|
|
|
840
|
350 |
|
|
|
|
|
13 |
caa |
18 |
gta |
|
|
|
|
881
|
181 |
|
|
|
|
|
** |
atgj |
34 |
aaa |
|
|
|
|
884
|
259 |
|
|
|
|
|
2 |
aac |
22 |
gta |
|
|
|
|
913
|
87 |
|
|
|
|
|
** |
gga |
46 |
aag |
|
|
|
|
936
|
114 |
|
|
CDS-CDS inf 50 |
|
123 |
cac |
22 |
gta |
|
|
|
|
940
|
318 |
|
|
intercalaire |
|
36 |
aga |
46 |
aag |
|
|
|
|
1098
|
50 |
|
|
c- |
x- |
|
** |
cca |
32 |
gta |
|
|
|
|
1211
|
230 |
|
|
-89 |
-75 |
|
36 |
gtc |
** |
aaa |
|
|
|
|
1501
|
135 |
|
|
-83 |
-71 |
|
26 |
gtc |
|
|
|
|
|
|
2076
|
113 |
|
|
-82 |
-58 |
|
15 |
gtc |
|
|
|
|
|
|
2281
|
213 |
|
|
-80 |
-57 |
|
11 |
gtc |
|
|
|
|
|
|
|
60 |
|
|
-65 |
|
|
** |
gtc |
|
|
|
|
|
|
|
52 |
|
|
-53 |
|
|
110 |
atgf |
|
|
|
|
|
|
|
171 |
|
|
total intercalaires |
|
102 |
atgf |
|
|
|
|
|
|
|
306 |
|
|
|
601,332 |
|
101 |
atgf |
|
|
|
|
|
|
|
658 |
|
|
ADN long |
4,777,154 |
|
101 |
atgf |
|
|
|
|
|
|
|
140 |
|
|
% |
12.6 |
|
103 |
atgf |
|
|
|
|
|
|
|
174 |
|
|
|
|
|
102 |
atgf |
|
|
|
|
|
|
|
233 |
|
|
non RNA |
38 |
|
102 |
atgf |
|
|
|
|
|
|
|
167 |
|
|
|
|
|
92 |
atgf |
|
|
|
|
|
|
|
153 |
|
|
|
|
|
** |
atgf |
|
|
|
|
|
|
|
174 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
344 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
- amed Le prélèvement: alpha gama
- amed données intercalaires
- amed autres intercalaires aas
- Note : c'est un ancien tableau. Le refaire avec la sauvegarde du tableur ci-dessus.
- Tableau des autres intercalaires aas : C'est un tableau détaillé des autres intercalaires que ceux des CDS-CDS auxquels j'ai ajouté les noms des tRNA tirés du tableau de la première étude axée principalement sur les clusters à RNA, parfois sans CDS, et nommé amed opérons. La correspondance entre les 2 tableaux pour le nom du tRNA est basée sur l’exacte adresse entre celle de tRNA du 1er tableau à celle du codon de l'acide aminé du second.
- Légende :
- - comp, le gène est sur le brin complement
- - deb, fin sont respectivement dans le sens des adresses croissantes, le cds avant le 1er tRNA et le cds après le dernier tRNA du bloc.
- - misc_f, pour misc_feature
- - regul, pour regulatory
- Totaux : 10 regulatory 3 ncRNA 2 misc_f 1 tmRNA : à adapter à amed
tRNA-cds tRNA-tRNA autres-cds total
c+ x+ x- c+ x+ c- c+ x+ c-
46 34 1 141 22 6 2 252 1 acdsx-
- Méthode de calculs des intercalaires autres que les CDS-CDS voir le cas de amed.
amed Les autres intercalaires.
deb fin |
comp |
gene |
adresse1 |
adresse2 |
intercalaire |
autre |
aas
|
deb |
comp |
CDS |
7163 |
8359 |
516 |
* |
|
|
|
rRNA |
8876 |
10415 |
72 |
* |
1540
|
|
|
tRNA |
10488 |
10564 |
10 |
* |
atc
|
|
|
tRNA |
10575 |
10650 |
238 |
* |
gca
|
|
|
rRNA |
10889 |
13778 |
120 |
* |
2890
|
|
|
rRNA |
13899 |
14013 |
386 |
* |
115
|
fin |
|
CDS |
14400 |
14717 |
|
|
|
deb |
|
CDS |
45743 |
46576 |
187 |
* |
|
|
|
ncRNA |
46764 |
47150 |
46 |
* |
|
fin |
|
CDS |
47197 |
48777 |
|
0 |
|
deb |
|
CDS |
117188 |
117850 |
47 |
* |
|
|
|
tRNA |
117898 |
117973 |
52 |
* |
ttc
|
|
|
tRNA |
118026 |
118101 |
3 |
* |
aca
|
|
|
tRNA |
118105 |
118180 |
45 |
* |
ttc
|
|
|
tRNA |
118226 |
118301 |
252 |
* |
aac
|
fin |
|
CDS |
118554 |
119573 |
|
|
|
deb |
comp |
CDS |
170063 |
170329 |
103 |
* |
|
|
comp |
tRNA |
170433 |
170518 |
71 |
* |
ctg
|
|
comp |
tRNA |
170590 |
170675 |
46 |
* |
ctg
|
|
comp |
tRNA |
170722 |
170807 |
46 |
* |
ctg
|
|
comp |
tRNA |
170854 |
170939 |
51 |
* |
ctg
|
|
comp |
tRNA |
170991 |
171076 |
116 |
* |
ctg
|
fin |
comp |
CDS |
171193 |
172653 |
|
|
|
deb |
|
CDS |
318836 |
320692 |
190 |
* |
|
|
|
tRNA |
320883 |
320959 |
244 |
* |
atgi
|
fin |
comp |
CDS |
321204 |
323780 |
|
|
|
deb |
|
CDS |
386382 |
386732 |
518 |
* |
|
|
|
rRNA |
387251 |
388796 |
274 |
* |
1546
|
|
|
tRNA |
389071 |
389146 |
252 |
* |
gaa
|
|
|
rRNA |
389399 |
392290 |
126 |
* |
2892
|
|
|
rRNA |
392417 |
392531 |
268 |
* |
115
|
fin |
comp |
CDS |
392800 |
394413 |
|
0 |
|
deb |
|
CDS |
476261 |
476482 |
64 |
* |
|
|
comp |
tRNA |
476547 |
476622 |
5 |
* |
aac
|
|
comp |
tRNA |
476628 |
476703 |
881 |
* |
ttc
|
fin |
comp |
CDS |
477585 |
478565 |
|
|
|
deb |
|
CDS |
500269 |
500814 |
177 |
* |
|
|
|
tRNA |
500992 |
501067 |
24 |
* |
ggc
|
|
|
tRNA |
501092 |
501167 |
29 |
* |
ggc
|
|
|
tRNA |
501197 |
501272 |
38 |
* |
ggc
|
|
|
tRNA |
501311 |
501386 |
25 |
* |
ggc
|
|
|
tRNA |
501412 |
501487 |
23 |
* |
ggc
|
|
|
tRNA |
501511 |
501586 |
363 |
* |
ggc
|
fin |
comp |
CDS |
501950 |
502159 |
|
|
|
deb |
|
CDS |
505552 |
507110 |
236 |
* |
|
|
|
tRNA |
507347 |
507422 |
28 |
* |
gcc
|
|
|
tRNA |
507451 |
507526 |
66 |
* |
gcc
|
|
|
tRNA |
507593 |
507668 |
58 |
* |
gcc
|
|
|
tRNA |
507727 |
507802 |
40 |
* |
gcc
|
|
|
tRNA |
507843 |
507918 |
471 |
* |
gcc
|
|
|
regulatory |
508390 |
508473 |
148 |
* |
|
fin |
|
CDS |
508622 |
511627 |
|
0 |
|
deb |
|
CDS |
642476 |
642802 |
9 |
* |
|
|
|
tRNA |
642812 |
642896 |
91 |
* |
ctc
|
|
|
tRNA |
642988 |
643064 |
166 |
* |
atgf
|
fin |
|
CDS |
643231 |
643689 |
|
|
|
deb |
|
CDS |
772218 |
774050 |
195 |
* |
|
|
comp |
tRNA |
774246 |
774329 |
8 |
* |
cta
|
|
comp |
tRNA |
774338 |
774414 |
38 |
* |
atgj
|
|
comp |
tRNA |
774453 |
774527 |
47 |
* |
caa
|
|
comp |
tRNA |
774575 |
774649 |
17 |
* |
caa
|
|
comp |
tRNA |
774667 |
774743 |
35 |
* |
atgj
|
|
comp |
tRNA |
774779 |
774853 |
47 |
* |
caa
|
|
comp |
tRNA |
774901 |
774975 |
13 |
* |
caa
|
|
comp |
tRNA |
774989 |
775065 |
235 |
* |
atgj
|
fin |
comp |
CDS |
775301 |
776392 |
|
|
|
deb |
comp |
CDS |
779541 |
780488 |
173 |
* |
|
|
comp |
tRNA |
780662 |
780736 |
-21 |
* |
caa
|
fin |
comp |
CDS |
780716 |
781630 |
|
|
|
deb |
comp |
CDS |
1154914 |
1155384 |
131 |
* |
|
|
comp |
tRNA |
1155516 |
1155592 |
226 |
* |
ccc
|
fin |
comp |
CDS |
1155819 |
1157162 |
|
0 |
|
deb |
comp |
CDS |
1224854 |
1226290 |
301 |
* |
|
|
comp |
tRNA |
1226592 |
1226667 |
2 |
* |
aac
|
|
comp |
tRNA |
1226670 |
1226744 |
460 |
* |
gga
|
fin |
comp |
CDS |
1227205 |
1228818 |
|
|
|
deb |
comp |
CDS |
1240786 |
1241733 |
425 |
* |
|
|
comp |
tRNA |
1242159 |
1242234 |
556 |
* |
aac
|
deb |
|
CDS |
1242791 |
1244527 |
181 |
* |
|
|
|
tRNA |
1244709 |
1244796 |
83 |
* |
tcc
|
fin |
|
CDS |
1244880 |
1246145 |
|
0 |
|
deb |
comp |
CDS |
1407358 |
1408665 |
83 |
* |
|
|
comp |
tRNA |
1408749 |
1408836 |
177 |
* |
tcc
|
fin |
comp |
CDS |
1409014 |
1409631 |
|
|
|
deb |
|
CDS |
1444233 |
1444688 |
146 |
* |
|
|
|
tRNA |
1444835 |
1444922 |
127 |
* |
tcc
|
fin |
|
CDS |
1445050 |
1446834 |
|
|
|
deb |
comp |
CDS |
1461184 |
1462401 |
163 |
* |
|
|
comp |
tRNA |
1462565 |
1462640 |
438 |
* |
cac
|
fin |
comp |
CDS |
1463079 |
1464389 |
|
|
|
deb |
comp |
CDS |
1526374 |
1527606 |
151 |
* |
|
|
comp |
tRNA |
1527758 |
1527833 |
123 |
* |
cac
|
|
comp |
tRNA |
1527957 |
1528033 |
36 |
* |
aga
|
|
comp |
tRNA |
1528070 |
1528146 |
203 |
* |
cca
|
fin |
|
CDS |
1528350 |
1529207 |
|
0 |
|
deb |
comp |
CDS |
1587325 |
1589010 |
772 |
* |
|
|
comp |
tRNA |
1589783 |
1589858 |
132 |
* |
aac
|
fin |
|
CDS |
1589991 |
1592003 |
|
|
|
deb |
|
CDS |
1649438 |
1651867 |
104 |
* |
|
|
comp |
tRNA |
1651972 |
1652048 |
36 |
* |
gtc
|
|
comp |
tRNA |
1652085 |
1652161 |
26 |
* |
gtc
|
|
comp |
tRNA |
1652188 |
1652264 |
15 |
* |
gtc
|
|
comp |
tRNA |
1652280 |
1652356 |
11 |
* |
gtc
|
|
comp |
tRNA |
1652368 |
1652444 |
170 |
* |
gtc
|
fin |
comp |
CDS |
1652615 |
1653994 |
|
|
|
deb |
comp |
CDS |
1734629 |
1735525 |
28 |
* |
|
|
comp |
misc_f |
1735554 |
1735678 |
185 |
* |
|
fin |
|
CDS |
1735864 |
1736109 |
|
|
|
deb |
comp |
CDS |
1931438 |
1932934 |
145 |
* |
|
|
comp |
tRNA |
1933080 |
1933156 |
110 |
* |
atgf
|
|
comp |
tRNA |
1933267 |
1933343 |
102 |
* |
atgf
|
|
comp |
tRNA |
1933446 |
1933522 |
101 |
* |
atgf
|
|
comp |
tRNA |
1933624 |
1933700 |
101 |
* |
atgf
|
|
comp |
tRNA |
1933802 |
1933877 |
103 |
* |
atgf
|
|
comp |
tRNA |
1933981 |
1934057 |
102 |
* |
atgf
|
|
comp |
tRNA |
1934160 |
1934236 |
102 |
* |
atgf
|
|
comp |
tRNA |
1934339 |
1934415 |
92 |
* |
atgf
|
|
comp |
tRNA |
1934508 |
1934584 |
268 |
* |
atgf
|
fin |
comp |
CDS |
1934853 |
1935572 |
|
|
|
deb |
|
CDS |
1977322 |
1978332 |
353 |
* |
|
|
comp |
ncRNA |
1978686 |
1978779 |
94 |
* |
|
fin |
|
CDS |
1978874 |
1979143 |
|
0 |
|
deb |
comp |
CDS |
1980394 |
1981206 |
97 |
* |
|
|
comp |
ncRNA |
1981304 |
1981397 |
269 |
* |
|
fin |
|
CDS |
1981667 |
1981849 |
|
0 |
|
deb |
comp |
CDS |
1997119 |
1998258 |
85 |
* |
|
|
comp |
ncRNA |
1998344 |
1998440 |
102 |
* |
|
fin |
comp |
CDS |
1998543 |
1999331 |
|
|
|
deb |
|
CDS |
2154455 |
2154631 |
277 |
* |
|
|
|
ncRNA |
2154909 |
2155037 |
-9 |
* |
|
fin |
comp |
CDS |
2155029 |
2155319 |
|
0 |
|
deb |
|
CDS |
2234810 |
2235142 |
16 |
* |
|
|
|
ncRNA |
2235159 |
2235341 |
133 |
* |
|
fin |
comp |
CDS |
2235475 |
2236674 |
|
|
|
deb |
comp |
CDS |
2426470 |
2427675 |
350 |
* |
|
|
comp |
tRNA |
2428026 |
2428112 |
40 |
* |
tta
|
|
comp |
tRNA |
2428153 |
2428226 |
35 |
* |
tgc
|
|
comp |
tRNA |
2428262 |
2428337 |
181 |
* |
ggc
|
fin |
comp |
CDS |
2428519 |
2429073 |
|
|
|
deb |
comp |
CDS |
2546995 |
2547534 |
271 |
* |
|
|
|
tRNA |
2547806 |
2547882 |
259 |
* |
ccc
|
fin |
|
CDS |
2548142 |
2548282 |
|
|
|
deb |
|
CDS |
2658354 |
2659094 |
87 |
* |
|
|
|
tRNA |
2659182 |
2659257 |
114 |
* |
acg
|
fin |
|
CDS |
2659372 |
2659665 |
|
0 |
|
deb |
comp |
CDS |
2827175 |
2828170 |
-13 |
* |
|
|
comp |
regulatory |
2828158 |
2828297 |
79 |
* |
|
fin |
|
CDS |
2828377 |
2830089 |
|
|
|
deb |
comp |
CDS |
2858527 |
2859036 |
126 |
* |
|
|
|
tRNA |
2859163 |
2859247 |
30 |
* |
tac
|
|
|
tRNA |
2859278 |
2859362 |
121 |
* |
tac
|
fin |
comp |
CDS |
2859484 |
2863335 |
|
|
|
deb |
|
CDS |
2953473 |
2953961 |
121 |
* |
|
|
|
tmRNA |
2954083 |
2954442 |
177 |
* |
|
fin |
|
CDS |
2954620 |
2955903 |
|
|
|
deb |
|
CDS |
2978639 |
2979358 |
119 |
* |
|
|
comp |
tRNA |
2979478 |
2979552 |
104 |
* |
gga
|
|
comp |
tRNA |
2979657 |
2979730 |
201 |
* |
ggg
|
fin |
|
CDS |
2979932 |
2981701 |
|
|
|
deb |
|
CDS |
3023194 |
3023487 |
75 |
* |
|
|
comp |
tRNA |
3023563 |
3023636 |
57 |
* |
tgc
|
|
comp |
tRNA |
3023694 |
3023769 |
248 |
* |
ggc
|
fin |
|
CDS |
3024018 |
3027455 |
|
0 |
|
deb |
|
CDS |
3044891 |
3045361 |
133 |
* |
|
|
comp |
tRNA |
3045495 |
3045584 |
380 |
* |
tcg
|
fin |
|
CDS |
3045965 |
3046882 |
|
|
|
deb |
comp |
CDS |
3052964 |
3053617 |
105 |
* |
|
|
comp |
regulatory |
3053723 |
3053869 |
209 |
* |
|
fin |
|
CDS |
3054079 |
3054915 |
|
0 |
|
deb |
comp |
CDS |
3093394 |
3094776 |
249 |
* |
|
|
comp |
regulatory |
3095026 |
3095141 |
508 |
* |
|
fin |
|
CDS |
3095650 |
3096798 |
|
0 |
|
deb |
comp |
CDS |
3268030 |
3268398 |
318 |
* |
|
|
comp |
tRNA |
3268717 |
3268804 |
198 |
* |
tca
|
fin |
|
CDS |
3269003 |
3269752 |
|
0 |
|
deb |
comp |
CDS |
3286866 |
3287465 |
164 |
* |
|
|
|
misc_f |
3287630 |
3287752 |
38 |
* |
|
fin |
|
CDS |
3287791 |
3288963 |
|
0 |
|
deb |
|
CDS |
3290470 |
3291624 |
50 |
* |
|
|
|
tRNA |
3291675 |
3291751 |
126 |
* |
agg
|
fin |
comp |
CDS |
3291878 |
3292798 |
|
0 |
|
deb |
|
CDS |
3334670 |
3335758 |
230 |
* |
|
|
|
tRNA |
3335989 |
3336073 |
32 |
* |
tac
|
|
|
tRNA |
3336106 |
3336190 |
45 |
* |
tac
|
|
|
tRNA |
3336236 |
3336320 |
135 |
* |
tac
|
fin |
|
CDS |
3336456 |
3336731 |
|
|
|
deb |
comp |
CDS |
3382564 |
3385161 |
111 |
* |
|
|
comp |
regulatory |
3385273 |
3385359 |
203 |
* |
|
fin |
comp |
CDS |
3385563 |
3389024 |
|
|
|
deb |
comp |
CDS |
3497173 |
3497463 |
91 |
* |
|
|
|
regulatory |
3497555 |
3497645 |
99 |
* |
|
fin |
|
CDS |
3497745 |
3498725 |
|
|
|
deb |
comp |
CDS |
3505823 |
3506272 |
275 |
* |
|
|
comp |
rRNA |
3506548 |
3506662 |
123 |
* |
115
|
|
comp |
rRNA |
3506786 |
3509675 |
236 |
* |
2890
|
|
comp |
tRNA |
3509912 |
3509987 |
224 |
* |
gaa
|
|
comp |
rRNA |
3510212 |
3511756 |
596 |
* |
1545
|
fin |
|
CDS |
3512353 |
3515220 |
|
|
|
deb |
comp |
CDS |
3676304 |
3677323 |
113 |
* |
|
|
comp |
tRNA |
3677437 |
3677521 |
142 |
* |
ttg
|
fin |
|
CDS |
3677664 |
3678182 |
|
0 |
|
deb |
|
CDS |
3688045 |
3688872 |
369 |
* |
|
|
comp |
tRNA |
3689242 |
3689318 |
25 |
* |
cgt
|
|
comp |
tRNA |
3689344 |
3689420 |
25 |
* |
cgt
|
|
comp |
tRNA |
3689446 |
3689522 |
26 |
* |
cgt
|
|
comp |
tRNA |
3689549 |
3689625 |
98 |
* |
cgt
|
|
comp |
tRNA |
3689724 |
3689800 |
4 |
* |
cgt
|
|
comp |
tRNA |
3689805 |
3689897 |
213 |
* |
agc
|
fin |
comp |
CDS |
3690111 |
3690299 |
|
|
|
deb |
|
CDS |
3886846 |
3887601 |
302 |
* |
|
|
comp |
tRNA |
3887904 |
3887980 |
98 |
* |
gac
|
|
comp |
rRNA |
3888079 |
3888193 |
127 |
* |
115
|
|
comp |
rRNA |
3888321 |
3891210 |
238 |
* |
2890
|
|
comp |
tRNA |
3891449 |
3891524 |
10 |
* |
gca
|
|
comp |
tRNA |
3891535 |
3891611 |
72 |
* |
atc
|
|
comp |
rRNA |
3891684 |
3893228 |
424 |
* |
1545
|
fin |
comp |
CDS |
3893653 |
3894195 |
|
|
|
deb |
comp |
CDS |
3912946 |
3913317 |
60 |
* |
|
|
comp |
tRNA |
3913378 |
3913454 |
52 |
* |
tgg
|
deb |
comp |
CDS |
3913507 |
3914691 |
171 |
* |
|
|
comp |
tRNA |
3914863 |
3914937 |
38 |
* |
gga
|
|
comp |
tRNA |
3914976 |
3915060 |
263 |
* |
tac
|
fin |
|
CDS |
3915324 |
3916262 |
|
0 |
|
deb |
comp |
CDS |
3962163 |
3963533 |
306 |
* |
|
|
comp |
tRNA |
3963840 |
3963916 |
202 |
* |
tgg
|
fin |
|
CDS |
3964119 |
3964703 |
|
|
|
deb |
comp |
CDS |
4024345 |
4026816 |
658 |
* |
|
|
comp |
tRNA |
4027475 |
4027551 |
140 |
* |
ccg
|
fin |
comp |
CDS |
4027692 |
4028417 |
|
|
|
deb |
|
CDS |
4109413 |
4111986 |
99 |
* |
|
|
comp |
rRNA |
4112086 |
4112200 |
123 |
* |
115
|
|
comp |
rRNA |
4112324 |
4115213 |
238 |
* |
2890
|
|
comp |
tRNA |
4115452 |
4115527 |
198 |
* |
gaa
|
|
comp |
rRNA |
4115726 |
4117269 |
627 |
* |
1544
|
fin |
|
CDS |
4117897 |
4118388 |
|
0 |
|
deb |
comp |
CDS |
4119290 |
4121155 |
51 |
* |
|
|
comp |
regulatory |
4121207 |
4121385 |
207 |
* |
|
fin |
|
CDS |
4121593 |
4122102 |
|
|
|
deb |
comp |
CDS |
4149775 |
4150278 |
174 |
* |
|
|
comp |
tRNA |
4150453 |
4150529 |
58 |
* |
cca
|
|
comp |
tRNA |
4150588 |
4150673 |
20 |
* |
ctg
|
|
comp |
tRNA |
4150694 |
4150769 |
49 |
* |
cac
|
|
comp |
tRNA |
4150819 |
4150895 |
258 |
* |
cgg
|
fin |
|
CDS |
4151154 |
4151744 |
|
|
|
deb |
|
CDS |
4226547 |
4227725 |
432 |
* |
|
|
|
rRNA |
4228158 |
4229702 |
198 |
* |
1545
|
|
|
tRNA |
4229901 |
4229976 |
236 |
* |
gaa
|
|
|
rRNA |
4230213 |
4233102 |
126 |
* |
2890
|
|
|
rRNA |
4233229 |
4233343 |
106 |
* |
115
|
|
|
tRNA |
4233450 |
4233525 |
23 |
* |
acc
|
|
|
rRNA |
4233549 |
4233663 |
164 |
* |
115
|
fin |
|
CDS |
4233828 |
4234793 |
|
|
|
deb |
comp |
CDS |
4354145 |
4355686 |
626 |
* |
|
|
|
rRNA |
4356313 |
4357857 |
274 |
* |
1545
|
|
|
tRNA |
4358132 |
4358207 |
237 |
* |
gaa
|
|
|
rRNA |
4358445 |
4361342 |
124 |
* |
2898
|
|
|
rRNA |
4361467 |
4361581 |
106 |
* |
115
|
|
|
tRNA |
4361688 |
4361763 |
233 |
* |
acc
|
fin |
|
CDS |
4361997 |
4363241 |
|
|
|
deb |
|
CDS |
4434674 |
4435198 |
469 |
* |
|
|
|
rRNA |
4435668 |
4437211 |
225 |
* |
1544
|
|
|
tRNA |
4437437 |
4437512 |
236 |
* |
gaa
|
|
|
rRNA |
4437749 |
4440638 |
122 |
* |
2890
|
|
|
rRNA |
4440761 |
4440875 |
98 |
* |
115
|
|
|
tRNA |
4440974 |
4441050 |
167 |
* |
gac
|
fin |
|
CDS |
4441218 |
4442054 |
|
0 |
|
deb |
comp |
CDS |
4481974 |
4482513 |
481 |
* |
|
|
|
rRNA |
4482995 |
4484539 |
547 |
* |
1545
|
|
|
misc_f |
4485087 |
4486108 |
236 |
* |
|
|
comp |
tRNA |
4486345 |
4486419 |
224 |
* |
gaa
|
|
comp |
rRNA |
4486644 |
4488189 |
559 |
* |
1546
|
fin |
comp |
CDS |
4488749 |
4489795 |
|
|
|
deb |
comp |
CDS |
4560642 |
4561715 |
153 |
* |
|
|
comp |
tRNA |
4561869 |
4561944 |
18 |
* |
gta
|
|
comp |
tRNA |
4561963 |
4562038 |
34 |
* |
aaa
|
|
comp |
tRNA |
4562073 |
4562148 |
18 |
* |
gta
|
|
comp |
tRNA |
4562167 |
4562242 |
23 |
* |
aaa
|
|
comp |
tRNA |
4562266 |
4562341 |
18 |
* |
gta
|
|
comp |
tRNA |
4562360 |
4562435 |
23 |
* |
aaa
|
|
comp |
tRNA |
4562459 |
4562534 |
18 |
* |
gta
|
|
comp |
tRNA |
4562553 |
4562628 |
34 |
* |
aaa
|
|
comp |
tRNA |
4562663 |
4562738 |
22 |
* |
gta
|
|
comp |
tRNA |
4562761 |
4562836 |
46 |
* |
aag
|
|
comp |
tRNA |
4562883 |
4562958 |
22 |
* |
gta
|
|
comp |
tRNA |
4562981 |
4563056 |
46 |
* |
aag
|
|
comp |
tRNA |
4563103 |
4563178 |
32 |
* |
gta
|
|
comp |
tRNA |
4563211 |
4563286 |
174 |
* |
aaa
|
fin |
comp |
CDS |
4563461 |
4564267 |
|
|
|
deb |
|
CDS |
4626091 |
4627785 |
262 |
* |
|
|
|
regulatory |
4628048 |
4628133 |
65 |
* |
|
fin |
|
CDS |
4628199 |
4629623 |
|
|
|
deb |
comp |
CDS |
4635172 |
4636104 |
344 |
* |
|
|
comp |
tRNA |
4636449 |
4636525 |
95 |
* |
gac
|
|
comp |
rRNA |
4636621 |
4636735 |
120 |
* |
115
|
|
comp |
rRNA |
4636856 |
4639749 |
238 |
* |
2894
|
|
comp |
tRNA |
4639988 |
4640063 |
10 |
* |
gca
|
|
comp |
tRNA |
4640074 |
4640150 |
72 |
* |
atc
|
|
comp |
rRNA |
4640223 |
4641767 |
516 |
* |
115
|
fin |
|
CDS |
4642284 |
4643480 |
|
0 |
|
deb |
comp |
CDS |
4698779 |
4700680 |
360 |
* |
|
|
comp |
regulatory |
4701041 |
4701154 |
88 |
* |
|
fin |
|
CDS |
4701243 |
4702160 |
|
|
|
- Lien au tableur : amed_données_intercalaires.
- Note: tableau de amed en exemple
- Légende: Ce sont des effectifs bruts des
- - intercalaires entre un tRNA et un CDS, fxt pour les discontinus et fct pour les continus.
- - intercalaires entre 2 CDS, pour les fréquences de 10 en 10 fx discontinu et fc continu, pour les fréquences par unité fx40 et fc40, pour les fréquences par unité négative fx- et fc-.
- - total des intercalaires pour un diagramme, diagr, de 1 à 400, 1 à 40 et de -6 à -50.
- - total des intercalaires de 1 à 30: t30 et %t30 par rapport au total.
- - total des intercalaires qui reste après le diagramme: reste et %reste par rapport au total.
int51.1 amed. Formatage des intercalaires CDS-CDS et tRNA-CDS
CDS-tRNA |
CDS-CDS |
CDS-CDS |
CDS-CDS
|
frequence |
effectif |
|
frequence |
effectif |
|
frequence |
effectif |
|
frequence |
effectif |
|
amed |
fxt |
fct |
amed |
fx |
fc |
amed |
fx40 |
fc40 |
amed |
fx- |
fc-
|
0 |
|
1 |
0 |
2 |
12 |
0 |
2 |
12 |
-1 |
0 |
91
|
10 |
|
1 |
10 |
38 |
225 |
1 |
2 |
26 |
-2 |
1 |
0
|
20 |
|
0 |
20 |
20 |
167 |
2 |
0 |
41 |
-3 |
0 |
0
|
30 |
|
0 |
30 |
23 |
110 |
3 |
4 |
34 |
-4 |
8 |
212
|
40 |
|
0 |
40 |
34 |
92 |
4 |
9 |
18 |
-5 |
0 |
0
|
50 |
|
2 |
50 |
43 |
75 |
5 |
0 |
12 |
-6 |
1 |
0
|
60 |
|
2 |
60 |
76 |
92 |
6 |
6 |
6 |
-7 |
0 |
10
|
70 |
1 |
0 |
70 |
90 |
111 |
7 |
4 |
12 |
-8 |
3 |
47
|
80 |
1 |
0 |
80 |
100 |
99 |
8 |
6 |
17 |
-9 |
1 |
0
|
90 |
|
3 |
90 |
59 |
120 |
9 |
3 |
34 |
-10 |
0 |
2
|
100 |
|
0 |
100 |
54 |
90 |
10 |
4 |
25 |
-11 |
2 |
31
|
110 |
1 |
1 |
110 |
58 |
112 |
11 |
1 |
21 |
-12 |
0 |
0
|
120 |
1 |
3 |
120 |
50 |
96 |
12 |
3 |
18 |
-13 |
2 |
6
|
130 |
3 |
1 |
130 |
35 |
81 |
13 |
2 |
20 |
-14 |
1 |
7
|
140 |
2 |
3 |
140 |
30 |
74 |
14 |
2 |
22 |
-15 |
1 |
0
|
150 |
1 |
2 |
150 |
25 |
72 |
15 |
1 |
14 |
-16 |
0 |
8
|
160 |
|
2 |
160 |
33 |
70 |
16 |
3 |
13 |
-17 |
0 |
4
|
170 |
|
4 |
170 |
29 |
32 |
17 |
2 |
20 |
-18 |
1 |
0
|
180 |
|
6 |
180 |
35 |
50 |
18 |
1 |
17 |
-19 |
1 |
1
|
190 |
|
3 |
190 |
25 |
44 |
19 |
2 |
6 |
-20 |
1 |
7
|
200 |
2 |
0 |
200 |
37 |
53 |
20 |
3 |
16 |
-21 |
1 |
0
|
210 |
3 |
0 |
210 |
39 |
48 |
21 |
3 |
11 |
-22 |
2 |
1
|
220 |
|
1 |
220 |
25 |
34 |
22 |
0 |
8 |
-23 |
0 |
1
|
230 |
|
2 |
230 |
30 |
26 |
23 |
1 |
16 |
-24 |
0 |
0
|
240 |
|
3 |
240 |
26 |
30 |
24 |
3 |
10 |
-25 |
1 |
2
|
250 |
2 |
0 |
250 |
20 |
26 |
25 |
3 |
13 |
-26 |
0 |
1
|
260 |
1 |
2 |
260 |
21 |
25 |
26 |
1 |
7 |
-27 |
0 |
0
|
270 |
1 |
1 |
270 |
22 |
36 |
27 |
4 |
10 |
-28 |
0 |
0
|
280 |
1 |
0 |
280 |
25 |
28 |
28 |
2 |
11 |
-29 |
1 |
1
|
290 |
|
0 |
290 |
13 |
24 |
29 |
2 |
15 |
-30 |
0 |
0
|
300 |
|
0 |
300 |
8 |
14 |
30 |
4 |
9 |
-31 |
0 |
1
|
310 |
1 |
2 |
310 |
19 |
17 |
31 |
3 |
9 |
-32 |
0 |
0
|
320 |
|
1 |
320 |
12 |
14 |
32 |
3 |
11 |
-33 |
2 |
0
|
330 |
|
0 |
330 |
8 |
15 |
33 |
4 |
11 |
-34 |
0 |
2
|
340 |
|
0 |
340 |
9 |
8 |
34 |
1 |
9 |
-35 |
2 |
2
|
350 |
|
2 |
350 |
13 |
13 |
35 |
1 |
12 |
-36 |
1 |
0
|
360 |
|
0 |
360 |
15 |
8 |
36 |
1 |
5 |
-37 |
0 |
0
|
370 |
2 |
0 |
370 |
7 |
5 |
37 |
5 |
4 |
-38 |
1 |
0
|
380 |
1 |
0 |
380 |
8 |
7 |
38 |
7 |
13 |
-39 |
0 |
0
|
390 |
|
0 |
390 |
7 |
9 |
39 |
7 |
10 |
-40 |
0 |
0
|
400 |
|
0 |
400 |
10 |
9 |
40 |
2 |
8 |
-41 |
0 |
0
|
reste |
1 |
6 |
reste |
110 |
109 |
reste |
1226 |
1776 |
-42 |
0 |
0
|
total |
25 |
54 |
total |
1343 |
2382 |
total |
1343 |
2382 |
-43 |
0 |
0
|
%reste |
4.0 |
11.1 |
%reste |
8.2 |
4.6 |
diagr |
115 |
594 |
-44 |
0 |
1
|
t30 |
0 |
1 |
t30 |
81 |
502 |
|
|
|
-45 |
0 |
0
|
%t30 |
0 |
1.9 |
%t30 |
6.0 |
21.1 |
|
|
|
-46 |
3 |
0
|
diagr |
24 |
47 |
diagr |
1231 |
2261 |
|
|
|
-47 |
0 |
0
|
|
|
|
|
|
|
|
|
|
-48 |
0 |
0
|
|
Récapitulatif des effectifs |
|
|
|
-49 |
0 |
0
|
|
>0 |
<0 |
zéro |
total |
* |
|
|
|
-50 |
1 |
0
|
x |
1341 |
42 |
2 |
1385 |
|
|
|
|
reste |
4 |
6
|
c |
2370 |
444 |
12 |
2826 |
|
|
|
|
total |
42 |
444
|
|
|
|
|
4211 |
239 |
|
|
|
%reste |
9.5 |
1.4
|
|
|
|
|
total |
4450 |
|
|
|
diagr |
29 |
135
|
Les intercalaires en continu-discontinu
modifier
- Lien tableur: comparaison continu-discontinu
- Légende:
- - Tableau tRNA-cds01, les intercalaires tRNA-cds positifs : Ils sont comptabilisés pour chaque génome dans intercalaires tRNA, par exemple abra. Les intercalaires inférieurs à 201 sont reportés dans les colonnes deb, fin (début et fin d'une transition continue cds-tRNA, complement ou non) et les colonnes deb'-fin' (changement de sens entre cds et tRNAs, direct-complement ou complement-direct). La colonne total est la somme de tous les intercalaires, les >200 aussi.
- - Tableau tRNA-cds01, les intercalaires cds-cds négatifs, l'ensemble: 3 colonnes sont extraites du tableau des fréquences cds-cds (exemple abra, cds le total des intercalaires cds-cds, <0 (continu + discontinu) le total des négatifs et r32 correspondant au reste du label fréquence-1. Deux colonnes sont des rapports extraits du tableau des détails tRNA-cds02, comp'% (discontinu sur les négatifs) et min% (200*différence/somme, en valeur absolue, de min-min').
- - Tableau tRNA-cds02, détail des cds-cds négatifs: Les effectifs sont tirés du tableur au paragraphe intercalaires négatifs de chaque génome exemple abra. Pour les continus con et les discontinus comp' j'ai mis 3 colonnes total, le minimum (min' pour comp') et le reste des effectifs après la fréquence (-50), r50. Pour les continus seulement, car con1 des comp' est toujours nul, j'ai ajouté 2 colonnes, les effectifs de la fréquence (-1), con1, et ceux de la fréquence (-4), con4.
- Note : erreur sur eco, intercalaire 233 (voir eco intercalaires tRNA). corrigé ici.
- MAJ du 23.2.22: les 2 colonnes ensemble sont maj d'après le tableau positif-négatif. Restent les autres colonnes de négatifs à faire avec les maj de tous les négatifs.
tRNAs-cds0. Comparaison continu-discontinu des intercalaires des tRNA-cds positifs et des cds-cds négatifs.
tRNAs-cds01. Détail des tRNA-cds et l'ensemble des cds-cds négatifs.
|
détail |
tRNA-cds positifs |
ensemble |
cds-cds négatifs
|
gen |
deb |
fin |
deb’ |
fin’ |
total |
cds |
<0 |
r32 |
r32% |
comp’% |
min%
|
abra |
7 |
12 |
5 |
4 |
41 |
1 667 |
417 |
20 |
4,8 |
1,4 |
117
|
ade |
20 |
16 |
7 |
9 |
69 |
4 464 |
815 |
40 |
4,9 |
11,9 |
6
|
afn |
20 |
17 |
2 |
5 |
53 |
2 038 |
307 |
21 |
6,8 |
1,3 |
31
|
ant |
11 |
12 |
4 |
1 |
34 |
3 095 |
762 |
17 |
2,2 |
10,9 |
11
|
ase |
18 |
16 |
12 |
12 |
101 |
8 197 |
1 652 |
128 |
7,7 |
19,3 |
1
|
blo |
15 |
15 |
5 |
6 |
78 |
1 772 |
228 |
8 |
3,5 |
7,0 |
17
|
bsu |
3 |
5 |
7 |
5 |
28 |
4 213 |
608 |
52 |
8,7 |
4,9 |
182
|
cbei |
9 |
5 |
4 |
1 |
47 |
5 622 |
400 |
24 |
6,0 |
2,8 |
59
|
cbn |
12 |
12 |
2 |
2 |
40 |
2 491 |
176 |
6 |
3,4 |
4,5 |
54
|
cvi |
22 |
20 |
7 |
9 |
78 |
4 282 |
756 |
26 |
3,4 |
8,2 |
5
|
eco |
10 |
11 |
5 |
7 |
65 |
4 024 |
738 |
55 |
7,5 |
12,3 |
107
|
mba |
9 |
8 |
7 |
4 |
90 |
3 943 |
329 |
26 |
7,9 |
5,5 |
23
|
mja |
6 |
15 |
8 |
1 |
43 |
1 729 |
219 |
17 |
7,8 |
24,2 |
29
|
myr |
18 |
15 |
12 |
10 |
79 |
3 555 |
302 |
12 |
4,0 |
6,6 |
37
|
pmg |
16 |
17 |
13 |
8 |
67 |
1 800 |
253 |
12 |
4,7 |
36,0 |
3
|
pmq |
8 |
11 |
2 |
5 |
42 |
7 223 |
795 |
52 |
6,5 |
4,3 |
45
|
pub |
13 |
14 |
11 |
11 |
50 |
1 307 |
473 |
14 |
3,0 |
19,0 |
41
|
rru |
15 |
18 |
10 |
11 |
83 |
3 786 |
683 |
32 |
4,7 |
10,1 |
12
|
rtb |
9 |
12 |
0 |
2 |
56 |
793 |
102 |
7 |
6,9 |
2,9 |
35
|
scc |
13 |
8 |
11 |
5 |
67 |
1 805 |
347 |
14 |
4,0 |
7,8 |
47
|
spl |
9 |
9 |
4 |
3 |
62 |
4 213 |
426 |
10 |
2,3 |
2,8 |
61
|
total |
263 |
268 |
138 |
121 |
1 273 |
72 019 |
10 788 |
593 |
5,5 |
10,6 |
|
|
tRNAs-cds02. Détail des cds-cds négatifs.
|
con |
cds-cds négatifs continus |
comp’ |
cds-cds négatifs discontinus
|
gen |
total |
min |
con1 |
con4 |
c1/c4 |
r50 |
r50% |
total |
min’ |
r50 |
r50%
|
abra |
411 |
-92 |
68 |
142 |
0,48 |
13 |
3,2 |
6 |
-24 |
0 |
|
ade |
718 |
-109 |
70 |
540 |
0,13 |
10 |
1,4 |
97 |
-116 |
14 |
14,4
|
afn |
303 |
-113 |
38 |
129 |
0,29 |
9 |
3,0 |
4 |
-83 |
1 |
25,0
|
ant |
679 |
-71 |
164 |
221 |
0,74 |
6 |
0,9 |
83 |
-79 |
1 |
1,2
|
ase |
1333 |
-119 |
168 |
892 |
0,19 |
32 |
2,4 |
319 |
-120 |
49 |
15,4
|
blo |
212 |
-86 |
52 |
109 |
0,48 |
2 |
0,9 |
16 |
-102 |
2 |
12,5
|
bsu |
578 |
-7 616 |
72 |
233 |
0,31 |
17 |
2,9 |
30 |
-361 |
7 |
23,3
|
cbei |
389 |
-110 |
71 |
82 |
0,87 |
4 |
1,0 |
11 |
-60 |
1 |
9,1
|
cbn |
168 |
-47 |
34 |
28 |
1,21 |
0 |
|
8 |
-27 |
0 |
|
cvi |
694 |
-97 |
118 |
377 |
0,31 |
4 |
0,6 |
62 |
-102 |
6 |
9,7
|
eco |
647 |
-2 400 |
163 |
261 |
0,62 |
22 |
3,4 |
91 |
-723 |
11 |
12,1
|
mba |
311 |
-59 |
33 |
119 |
0,28 |
7 |
2,3 |
18 |
-74 |
2 |
11,1
|
mja |
166 |
-83 |
25 |
52 |
0,48 |
7 |
4,2 |
53 |
-62 |
0 |
|
myr |
282 |
-47 |
71 |
60 |
1,18 |
0 |
|
20 |
-68 |
1 |
5,0
|
pmg |
162 |
-65 |
36 |
72 |
0,50 |
2 |
1,2 |
91 |
-67 |
2 |
2,2
|
pmq |
761 |
-119 |
80 |
387 |
0,21 |
17 |
2,2 |
34 |
-75 |
4 |
11,8
|
pub |
383 |
-65 |
152 |
81 |
1,88 |
3 |
0,8 |
90 |
-43 |
0 |
|
rru |
614 |
-137 |
81 |
396 |
0,20 |
13 |
2,1 |
69 |
-122 |
7 |
10,1
|
rtb |
99 |
-50 |
10 |
33 |
0,30 |
0 |
|
3 |
-35 |
0 |
|
scc |
320 |
-74 |
39 |
156 |
0,25 |
6 |
1,9 |
27 |
-120 |
1 |
3,7
|
spl |
414 |
-98 |
126 |
136 |
0,93 |
5 |
1,2 |
12 |
-52 |
1 |
8,3
|
total |
9 644 |
|
1 671 |
4 506 |
0,37 |
179 |
1,9 |
1 144 |
|
110 |
9,6
|
|
Notes, comparaison continu-discontinu
modifier
- Les intercalaires tRNA-cds: tableau tRNA-cds01
- - Pour les intercalaires positifs les totaux deb et fin sont à égalité de même que les deb' et les fin' (notation des intercalaires tRNA, par exemple abra). Cependant les deb-fin sont 2 fois plus nombreux que les deb'-fin' car les plages des adresses direct ou complement sont très étendues, sous-tendues par l'architecture globale du chromosome et la discontinuité ne concerne que le passage d'une plage à l'autre. Dans les intercalaires négatifs, qui sont rares, ce sont les discontinus qui prennent l'avantage comme si la discontinuité ajoutée à la difficulté de réparation due aux appariements des tRNAs provoquait le chevauchement, il y a 2 continus contre 6 discontinus négatifs (voir 1er petit tableau parmi ceux qui suivent). C'est ce résultat partiel qui m’a poussé à étudier les intercalaires cds-cds négatifs.
- - Les intercalaires tRNA-cds négatifs, 8/1273 soit 0.6%, sont rares alors que les négatifs représentent environ 15% (10 788/72 023) des intercalaires cds-cds. Je les ai comparés à la rareté des tRNA-cds nuls: il semblerait que ceux-ci soient aussi rares, 4/1273 soit 0.3% (voir le 2ème petit tableau parmi ceux qui suivent). Mais les nuls sont aussi très faibles chez les cds-cds. Le décompte des nuls des 21 génomes avec cds donne 510 nuls pour 72 023 intercalaires cds-cds, soit 0,7% (voir "génome" les fréquences: exemple abra) et la comparaison des nuls/négatifs des cds-cds pour 8 génomes donne 210/24482 soit 0.9%, et en plus le rapport comp'/con égale à 39/171 soit 0.23 est du même ordre de grandeur et même 2 fois plus élevé que celui des cds-cds négatifs de 0.11 = 346/3035 (Les effectifs des nuls sont obtenus en même temps que les relevés des négatifs, mais seulement pour ces 8 génomes. Les effectifs des négatifs sont extraits du tableau tRNA-cds02).
Fin cds01
tRNA-cds intercalaires négatifs
gen deb fin deb’ fin’ total
mba - - -12 - 1
spl - - -23 - 1
myr - - -38 - 1
pmg -30 - - - 1
ase - - - -12 1
blo -17 - -39 -8 3
tRNA-cds intercalaires nuls
mba - 1 - - 1
pmg - - 1 - 1
pub - - 2 - 2
total - 1 3 - 4
cds-cds intercalaires nuls/négatifs
nuls - - <0 - -
gen con comp’ con comp’ cds
myr 14 4 282 20 3 555
pmg 34 12 162 91 1 800
pmq 26 5 761 34 7 223
pub 58 13 383 90 1 307
rru 11 2 614 69 3 786
rtb 4 1 99 3 793
scc 7 1 320 27 1 805
spl 17 1 414 12 4 213
total 171 39 3035 346 24 482
- Les intercalaires cds-cds négatifs: tableau tRNA-cds01 partie de droite pour les caractéristiques de l'ensemble des négatifs et tableau tRNA-cds02 pour les détails.
- Les intercalaires négatifs tRNAs-cds sont très rares par rapport aux cds-cds négatifs
- - Suite à la constatation de la quasi absence des intercalaires négatifs chez les tRNA-cds (note du début) j'ai entamé l'étude détaillée des cds-cds, positifs-négatifs, continus-discontinus. J'ai regroupé le tout dans le tableau récapitulatif des taux discontinu/continu, dans le tableau par classe génomique et dans le tableau des cds-cds positifs-négatifs.
- + Les intercalaires cds-cds négatifs S-: Le taux Sx-% des discontinus négatifs varie beaucoup d'un génome à l'autre et suit le classement par génome basé notamment sur le taux de négativité, S-%. Cependant la corrélation n'est pas totale puisque abra a le taux parmi les plus faibles, 1.4%, alors qu'il a un taux élevé de négativité de 25%; de même pour afn de la classe moyenne (II) a respectivement 1.3% et 15%. La classe I regroupe donc 4 forts en Sx-% et 1 génome très faible, la classe II est un mélange de 4 forts de 3 moyens et de 2 faibles et la classe III 2 faibles et 5 moyens. La classe III est l'opposée de la classe I puisqu'elle regroupe aussi les plus faibles taux S-%. Au total les Sx- sont 10 fois plus faibles que les Sc- varient fortement avec un écart supérieur à 50% par rapport à la moyenne.
- + Les intercalaires cds-cds positifs S+: Le taux Sx+% par contre est très homogène avec un écart de seulement de 10% par rapport à la moyenne. Au total les Sx+ ne sont que 3 fois plus faibles que les continus Sc+.
- + Les intercalaires tRNA-cds positifs R+: Ils se comportent exactement comme les S+, le taux Rx+% est homogène avec un écart de 20% par rapport à la moyenne et il y a 3 fois plus de continus que de discontinus. Cependant leur moyenne de 37% est supérieure de 20% à la moyenne des Sx+% de 31%.
- - Les tRNAs-cds négatifs pour 43 génomes restent très rares, 0.7%, mais le rapport c- / x- tend vers l'unité, 9/10. Si les cds-cds négatifs sont beaucoup plus abondants que les tRNA-cds négatifs, 15% contre 0.7%, ce sont surtout les Sc- qui les représentent. En ramenant au total des S, les Sx- ne représentent que 1144/72023 soit 1.6% et en ramenant au total des R, les Rx- représentent 10/2688 soit 0.4% et donc les Sx- sont peu fréquents mais sont 4 fois plus abondants que les Rx- dans leur catégories respectives.
- - Les intercalaires tRNA-tRNA discontinus positifs x+ (1% pour 50 génomes et 1745 intercalaires) sont aussi rares que les tRNA-cds négatifs et les x- sont quasi inexistants, 1 seul cas et d'une seule paire de base. En plus sur 18 intercalaires discontinus relevés 5 sont tellement grands (supérieurs à 400 pbs) qu'ils résulteraient plutôt d'un remaniement du chromosome que d'une propriété des blocs à tRNAs seuls, 9 entre 130 et 290 pbs et 4 entre 50 et 90 pbs. Voir le tableur du même lien.
- - Les intercalaires discontinus dans les blocs à rRNAs sont inexistants pour 50 génomes et 1984 intercalaires.
- - Les intercalaires positifs de 1 à 40 pbs:
- + La comparaison des tRNA-cds aux cds-cds (tRNA-cds1), avec intervalle de confiance, m'a montré que les 1ers ont un comportement propre aux tRNA et surtout que la fréquence attendue des "petit" était inférieure à la borne inférieure de l'intervalle. Cela veut dire que les petits intervalles sont moins fréquents que les grands, relativement aux cds-cds. Ceci m'a poussé à comparer les moyennes des cds-cds et des tRNA-cds dans le sous tableau tRNA-cds2 (même lien). Et effectivement les moyennes des tRNA-cds sont toujours et nettement supérieures à celles des cds-cds (colonne diff). De même les grands intercalaires (grd%) sont encore plus grands que la moyenne cds-cds et les petits intercalaires (pet%) plus petits (14 génomes) qu'elle, ou égaux (4) et pour 3 génomes légèrement supérieurs (bsu spl scc).
- + Ce résultat va dans le même sens que la faible fréquence des tRNA-cds négatifs et donc de l'orientation des blocs à tRNAs seuls, sans rRNA. Aussi j'ai comparé les fréquences des petits intercalaires positifs cds-cds (S) et tRNA-cds (R) de 1 à 40 pbs. Les R sont au moins 3 fois plus faibles que les S (colonne taux) pour 13 génomes et 7 ont si peu de R (0 1 2) que leur taux doit être supérieur à 3. Un seul génome pub a un taux proche de l'unité, mais son taux approche 3 quand je compare les 10 plus petits intercalaires. J'ai calculé aussi le taux des R40 discontinus R40x% sur le total R40, il est du même ordre de grandeur que celui des Sx+% et Rx+% calculés sur la totalité des intercalaires, 26% contre respectivement 31 et 37 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser.
- - En conclusion:
- Les intercalaires tRNA-tRNA, à l’intérieur des blocs à tRNA, avec rRNA ou non, sont toujours continus. Ils peuvent être discontinus dans les blocs sans rRNA, jusqu'à 1%, sous la forme positive Rx+ seule et sont souvent très longs. Ceci suggèrent qu'ils sont plutôt le résultat des remaniements du chromosome que du processus de la formation du bloc.
- Les intercalaires tRNA-cds, en contact avec les gènes protéiques, orientent les blocs à tRNAs seuls. L'orientation n'est pas définie par la disposition des tRNA dans le bloc comme le font les rRNAs dans les blocs les contenant, mais par la difficulté (faible fréquence) à réaliser des intercalaires courts d'un côté et la facilité à en réaliser des longs de l'autre côté (forte fréquence). La différence avec les blocs à rRNA, comme je le montrerai plus loin, c'est que le côté long varie peu en longueur pour ceux-ci alors qu'il est très variable pour les blocs sans rRNA.
- Comparaison entre les intercalaires cds-cds négatifs continus et discontinus:
- - Comparaison avec les positifs: quand on voit les minima des négatifs on a l'impression que leur étendue est très grande, mais en fait les négatifs ont des intercalaires inférieures à 32 pbs dans 95% des cas alors que les positifs ne dépassent pas les 27% dans la plage 1-40 pbs. Voir ici les comparaisons positifs-négatifs dans le 1er sous-tableau. Les négatifs supérieurs à 140 pbs ne représentent que 0.2% du total, 21/10788, et ne concernent que 2 génomes dans mon étude de 21, bsu et eco. Voir en fin de chapitre la liste des intercalaires négatifs supérieurs à 140 pbs.
- - Comparaison entre continus et discontinus: Maintenant, quand on voit les minima des négatifs entre continus et discontinus (voir la comparaison dans les colonnes min et min' dans le 2ème sous-tableau et leurs taux dans le 1er sous-tableau ainsi que leur liste en fin de chapitre), on a l'impression qu'ils sont similaires, 9 de plus de 360 pbs chez les continus et 5 chez les discontinus. Et même les négatifs seraient plus fréquents puisque le rapport c-/x- est de 2 alors qu'il est de 10 pour le total des négatifs. Or des recouvrements longs pour les discontinus me posaient problème: à l'instar d'un tRNA où son complément n'est pas un tRNA à cause de la dissymétrie des tRNAs, je pensais que le complément d'un cds ne pouvait être que rarement un cds et que s'il y avait recouvrement il ne pourrait être que court. C'est ce qui expliquerait par ailleurs la rareté des discontinus.
- - Aussi j'ai étudié les recouvrements réels chez les continus et les discontinus. Ce qui en ressort c'est que les intercalaires longs ont un recouvrement total et les courts ont un recouvrement partiel. Et ceci que les intercalaires soient continus ou non. Et il y a ainsi 2 intercalaires discontinus à recouvrement total long, 297 et 486 pbs, et un 3ème discontinu partiel de 210 pbs. Sur 6 discontinus les autres ont un recouvrement inférieur à 75 pbs. Le taux des recouvrements longs pour les discontinus parait donc très élevé, 33 à 50%. Mais sur les 10788 de négatifs ils sont extrêmement rares 2 à 3 pour 10 000 intercalaires. On pourrait suggérer que ce sont des accidents dus aux remaniements du chromosome mais l'étude des fréquences de tous les négatifs qui suit montre que le processus sous-tendu par les intercalaires continus s'apparente au processus de traduction et de transcription basé sur une périodicité de 3 bases ou triplet qui défini les aas, et que le processus sous-tendus par les intercalaires discontinus s'apparente au processus de réparation qui ne concerne que les propriétés physiques de l'ADN double brin mais qui néanmoins fait apparaître une périodicité de 3 paires de bases différente de celle ces continus.
- Les fréquences des intercalaires négatifs cds-cds, c- et x-
- - Les c- reproduisent dans l'ADN le processus traductionnel des triplets mais décalés.
- - Les x- mettent en évidence 2 processus de réparation, un qui reproduit partiellement le processus traductionnel des triplets auquel se superpose le 2ème par des triplets décalés
- Les intercalaires cds-cds négatifs inférieurs à -140
Les intercalaires cds-cds négatifs inférieurs à -140 pbs: continu, le chevauchement se fait sur le même brin et comp' pour discontinu, le chevauchement se fait sur 2 brins.
continu continu comp’
eco bsu eco
-2400 -7616 -723
-2130 -500 -530
-1295 -492 -527
-897 -164 -436
-729 -154 -210
-448 -143 -
-242 - bsu
-212 - -361
-153 - -
Rareté des tRNA-cds négatifs et petits positifs
modifier
- Lien tableur: Rareté des tRNA-cds négatifs et petits positifs.
- Légende:
- Les tRNA-cds négatifs: Les décomptes et la dénomination du tRNA sont faits à partir des "génome"-opérons quand ils ont des cds sinon à partir de "génome"-autres-intercalaires. Aux 21 génomes étudiés avec les discontinuités (comp') s'ajoute 22 autres génomes avec un total de 11 intercalaires négatifs. Ces derniers sont en gras et le total de tRNA-cds négatifs, 1407 pbs, est reporté dans le tableur (lien ci-dessus). Le taux des négatifs passe donc à 19 pour un total de 2688 intercalaires (1407 plus ceux des 21 génomes, 1281), soit 0.7%, 2 fois plus faible que les discontinus positifs entre tRNA dans les blocs sans rRNA.
- - Note: le rapport c-/x- maintenant est proche de l'unité, 9c- / 10x- pour 43 génomes. Voir les 1ères estimations avec les 21 génomes.Ce rapport et la rareté des tRNA-cds négatif suggèrent que le processus est aléatoire avec une probabilité de 0.5.
- - tga*, cette adresse n'apparaît pas dans spl opérons du 30.6.19 mais apparaît dans fréquences de spl du 24.9.20 dont est issu spl-autres-intercalaires.
- - blo*, dans blo opérons il n'y a pas de cds. Voir dans blo autres intercalaires qui est du 15.10.20 (voir blo-fréquences) alors que blo-opérons est du 30.6.19.
- Les tRNA-cds positifs: les génomes gen pointent sur les intercalaires des tRNA-cds des 21 étudiés pour les discontinuités.
- - S40% voir les intercalaires cds-cds 1-40 colonne 1-40% du 1er tableau, pourcentage des Sx+ sur le total, (100*Sx+ / S+).
- - total, total des tRNA-cds du génome reporté dans l'encadré au-dessus de son tableau.
- - R40 est le total des intercalaires positifs de 1 à 40 pbs des 2 parties du tableau de chaque génome (gen): continu pour Rc+ et comp' ou discontinu pour Rx+. Le pourcentage du total des Rx+, Rx+%, égale à (100*Rx+ / R+), est le même que celui des Sx+% et Rx+% calculés sur le total, soit 100*33/129 = 25,6 contre respectivement 31 et 36 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser. En effet quand je compare les moyennes (tableau tRNA-cds2) des intercalaires positifs des cds-cds à celles des tRNA-cds ces dernières sont toujours et nettement plus élevées que les 1ères. Et quand j'oriente les blocs de tRNA sans rRNA les grands sont donc normalement tous plus élevés que cds-cds mais pour les petits 7 génomes à égalité ou presque (spl et bsu), 7 sont nettement plus petits ( différence supérieure à 40%) 7 moyennement petits (différence de 16 à 40%).
- - R40%, pourcentage des 1-40 par rapport au total des tRNA-cds; taux, S40% / R40%.
- - Note:
- + les taux de cbn et bsu sont calculés avec R40=1. Quand j'enlève pub le taux du total passe à 3.6 au lieu de 2.9 et le pourcentage à 7.5 pour un cumulé de 1213 et un R40 total de 91.
- + Ce tableau est à comparer aux moyennes des tRNA-cds.
génomes. Rareté des tRNA-cds négatifs et des petits positifs
génomes. Les tRNA-cds négatifs
genome |
adresse |
tRNA |
inter
|
Intercalaire continu nc
|
vha chrII |
1842556 |
ctc |
-36
|
amed |
779541 |
caa |
-21
|
oan |
1945985 |
aag |
-38
|
oan |
34057 |
gcc |
-40
|
ppm plasm |
7953 |
gac |
-24
|
hmo |
2497882 |
gtg |
-10
|
mfi |
314088 |
caa |
-1
|
pmg |
1600898 |
gta |
-30
|
blo* |
207388 |
tgg |
-17
|
Intercalaire discontinu xc comp’
|
rpm |
1941413 |
agc |
-30
|
oan |
1639492 |
atgj |
-44
|
aua |
1350534 |
cgt |
-30
|
npu |
3439846 |
gca |
-19
|
mba |
1315521 |
cgc |
-12
|
spl |
552630 |
tga* |
-23
|
myr |
1926118 |
tta |
-38
|
ase |
1249593 |
aag |
-12
|
blo* |
440078 |
aac |
-39
|
blo* |
1424907 |
gag |
-8
|
total |
|
19 |
|
|
génomes. Les poisitifs de 1 à 40
gen |
S40% |
total |
R40 |
R40% |
taux |
Rc+ |
Rx+
|
abra |
37,3 |
41 |
2 |
4,9 |
7,6 |
2 |
|
ade |
32,6 |
69 |
8 |
11,6 |
2,8 |
7 |
1
|
afn |
35,8 |
53 |
4 |
7,5 |
4,7 |
4 |
|
ant |
45,1 |
34 |
5 |
14,7 |
3,1 |
3 |
2
|
ase |
23,9 |
100 |
14 |
14,0 |
1,7 |
11 |
3
|
blo |
19,1 |
75 |
1 |
1,3 |
14,4 |
1 |
|
bsu |
34,6 |
28 |
0 |
0 |
9,7 |
|
|
cbei |
19,0 |
47 |
3 |
6,4 |
3,0 |
1 |
2
|
cbn |
29,3 |
40 |
0 |
0 |
11,7 |
|
|
cvi |
26,9 |
78 |
8 |
10,3 |
2,6 |
8 |
|
eco |
29,1 |
65 |
4 |
6,2 |
4,7 |
1 |
3
|
mba |
13,3 |
88 |
4 |
4,5 |
2,9 |
2 |
2
|
mja |
39,4 |
43 |
5 |
11,6 |
3,4 |
5 |
|
myr |
30,8 |
78 |
7 |
9,0 |
3,4 |
5 |
2
|
pmg |
42,9 |
65 |
11 |
16,9 |
2,5 |
8 |
3
|
pmq |
19,1 |
42 |
1 |
2,4 |
8,0 |
1 |
|
pub |
59,6 |
48 |
27 |
56,3 |
1,1 |
18 |
9
|
rru |
26,1 |
83 |
3 |
3,6 |
7,2 |
1 |
2
|
rtb |
20,3 |
56 |
6 |
10,7 |
1,9 |
6 |
|
scc |
31,0 |
67 |
4 |
6,0 |
5,2 |
2 |
2
|
spl |
20,0 |
61 |
1 |
1,6 |
12,2 |
|
1
|
total |
27,1 |
1261 |
118 |
9,4 |
2,9 |
86 |
32
|
|
- Lien tableur: Les cds-cds positif-négatif
- Légende:
- Les intercalaires cds-cds positifs de 1 à 40: Les liens des génomes gen pointent sur les fréquences des intercalaires cds-cds.
- - <0%: intercalaires négatifs / total des intercalaires cds-cds, extrait du sous-tableau génomes3. De même total est extrait du sous-tableau génomes2.
- - <1 reste: sont extraits du tableau des fréquences de chaque génome (lien dans la colonne gen de gauche) et concernent la colonne frequence1. <1 est la somme des fréquences (-1) et (0), et reste est à la fin de la colonne. Leur somme est soustraite du total pour donner le total des intercalaires positifs (>0).
- - >0: total des intercalaires positifs, égale à total - <1.
- - 1-40 et 1-40%: 1-40, le total des intercalaires positifs de 1 à 40 est égale à >0 - reste et son taux, 1-40%, à 1-40 / >0.
- - 1-32%: taux des négatifs de -1 à -32, extrait du tableau tRNA-cds02, après avoir retranché la colonne reste32% de 100%.
- - Note: Tous les taux calculés pour chaque génome (lien à la colonne gen) sont faits par rapport au total des intercalaires cds-cds. Dans le tableau tRNA-cds02 reste32% est calculé par rapport au total des négatifs seuls. Pour ne pas refaire tous les calculs des intercalaires positifs de 1 à 32 la comparaison de 1-40% à 1-32% me paraît pertinente puisque leur différence est très forte, que la différence des effectifs est très faible (40 contre 32) et que leurs calculs sont faits de la même façon, par rapports à leur totaux.
- Les intercalaires continu-discontinu: voir ici la méthode de ces décomptes.
- - S R a pour intercalaires cds-cds, tRNA-cds, autres
- - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S.
- - total, total de tous les gènes
- - nc, intercalaires entre 2 gènes non marqués CDS
- - lien a, vers autres intercalaires, lien S vers les décomptes sous forme de nombres séparés par des points virgules à remplacer lors de la copie vers le tableur.
- tRNA-cds positifs: mêmes notations que précédemment. Les liens des génomes gen pointent sur les intercalaires tRNA-cds. Les génomes avec * (ase*) ont des R- contenus dans les R+ pour retrouver les totaux de tRNA-cds01 précédents.
- - attention correction pour eco, 37 28 et non 37 27. corrigée ici.
génomes. Les intercalaires cds-cds, comparaison positif négatif.
gen1. Les intercalaires cds-cds positifs de 1 à 40
gen |
<0 % |
<1 |
reste |
total |
1-40 |
>0 |
1-40% |
1-32%
|
abra |
25 |
430 |
776 |
1667 |
461 |
1237 |
37 |
95
|
ade |
18 |
844 |
2440 |
4464 |
1180 |
3620 |
33 |
95
|
afn |
15 |
318 |
1104 |
2038 |
616 |
1720 |
36 |
93
|
ant |
25 |
827 |
1246 |
3095 |
1022 |
2268 |
45 |
98
|
ase |
20 |
1687 |
4956 |
8197 |
1554 |
6510 |
24 |
92
|
blo |
13 |
231 |
1246 |
1772 |
295 |
1541 |
19 |
97
|
bsu |
14 |
635 |
2341 |
4213 |
1237 |
3578 |
35 |
91
|
cbei |
7 |
419 |
4214 |
5622 |
989 |
5203 |
19 |
94
|
cbn |
7 |
187 |
1628 |
2491 |
676 |
2304 |
29 |
97
|
cvi |
18 |
771 |
2566 |
4282 |
945 |
3511 |
27 |
97
|
eco |
18 |
767 |
2310 |
4024 |
947 |
3257 |
29 |
93
|
mba |
8 |
351 |
3113 |
3943 |
479 |
3592 |
13 |
92
|
mja |
13 |
240 |
902 |
1729 |
587 |
1489 |
39 |
92
|
myr |
9 |
320 |
2239 |
3555 |
996 |
3235 |
31 |
96
|
pmg |
14 |
298 |
857 |
1800 |
645 |
1502 |
43 |
95
|
pmq |
11 |
826 |
5173 |
7223 |
1224 |
6397 |
19 |
94
|
pub |
36 |
544 |
308 |
1307 |
455 |
763 |
60 |
97
|
rru |
18 |
696 |
2285 |
3786 |
805 |
3090 |
26 |
95
|
rtb |
13 |
107 |
547 |
793 |
139 |
686 |
20 |
93
|
scc |
19 |
355 |
1001 |
1805 |
449 |
1450 |
31 |
96
|
spl |
10 |
444 |
3017 |
4213 |
752 |
3769 |
20 |
98
|
total |
|
11297 |
|
72019 |
16453 |
60722 |
27 |
94.5
|
écart |
|
|
|
|
|
|
27±7 |
95±3
|
|
gen2. Les intercalaires cds-cds, continu - discontinu
lien a |
total |
nc |
ac |
ax |
lien S |
Sc- |
Sx- |
Sx-% |
Sc+ |
Sx+ |
Sx+% |
S-% |
total S
|
abra |
1795 |
37 |
78 |
13 |
abra |
409 |
8 |
1.9 |
979 |
271 |
22 |
25 |
1667
|
ade |
4569 |
22 |
57 |
26 |
ade |
713 |
102 |
12.5 |
2339 |
1310 |
36 |
18 |
4464
|
afn |
2192 |
44 |
88 |
22 |
afn |
303 |
4 |
1.3 |
1385 |
346 |
20 |
15 |
2038
|
ant |
3190 |
47 |
37 |
11 |
ant |
679 |
83 |
10.9 |
1702 |
631 |
27 |
25 |
3095
|
ase |
8380 |
65 |
69 |
49 |
ase |
1300 |
352 |
21.3 |
3866 |
2679 |
41 |
20 |
8197
|
blo |
1900 |
24 |
71 |
33 |
blo |
210 |
18 |
7.9 |
1045 |
499 |
32 |
13 |
1772
|
bsu |
4537 |
99 |
205 |
20 |
bsu |
573 |
35 |
5.8 |
2515 |
1090 |
30 |
14 |
4213
|
cbei |
5814 |
106 |
68 |
18 |
cbei |
390 |
10 |
2.5 |
4010 |
1212 |
23 |
7 |
5622
|
cbn |
2638 |
87 |
45 |
15 |
cbn |
167 |
9 |
5.1 |
1773 |
542 |
23 |
7 |
2491
|
cvi |
4487 |
79 |
85 |
41 |
cvi |
687 |
69 |
9.1 |
2424 |
1102 |
31 |
18 |
4282
|
eco |
4700 |
65 |
580 |
31 |
eco |
644 |
94 |
12.7 |
2211 |
1075 |
33 |
18 |
4024
|
mba |
4071 |
22 |
54 |
52 |
mba |
307 |
22 |
6.7 |
2381 |
1233 |
34 |
8 |
3943
|
mja |
1828 |
21 |
41 |
37 |
mja |
163 |
56 |
25.6 |
1071 |
439 |
29 |
13 |
1729
|
myr |
3754 |
87 |
69 |
43 |
myr |
282 |
20 |
6.6 |
2274 |
979 |
30 |
8 |
3555
|
pmg |
1884 |
v5 |
45 |
34 |
pmg |
158 |
95 |
37.5 |
950 |
597 |
39 |
14 |
1800
|
pmq |
7479 |
185 |
51 |
20 |
pmq |
753 |
42 |
5.3 |
4543 |
1885 |
29 |
11 |
7223
|
pub |
1386 |
7 |
44 |
28 |
pub |
381 |
92 |
19.5 |
599 |
235 |
28 |
36 |
1307
|
rru |
3946 |
23 |
79 |
58 |
rru |
614 |
69 |
10.1 |
2140 |
963 |
31 |
18 |
3786
|
rtb |
868 |
5 |
51 |
19 |
rtb |
98 |
4 |
3.9 |
506 |
185 |
27 |
13 |
793
|
scc |
1909 |
20 |
47 |
37 |
scc |
319 |
28 |
8.1 |
1001 |
457 |
31 |
19 |
1805
|
spl |
4466 |
141 |
70 |
42 |
spl |
414 |
12 |
2.8 |
2486 |
1301 |
34 |
10 |
4213
|
total |
75793 |
1191 |
1934 |
649 |
|
9564 |
1224 |
11.3 |
42200 |
19031 |
31 |
15 |
72019
|
écart |
|
|
|
|
|
|
|
10±9 |
|
|
30±5 |
16±7 |
|
|
|
Récapitulatif des taux discontinu/continu
modifier
- Lien tableur: Récapitulatif des taux discontinu/continu.
- Légende: >0, intercalaires positifs zéro compris. <0, intercalaires négatifs
- - S R a nc pour intercalaires cds-cds, tRNA-cds, autres cds et non cds.
- - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S
- - Liens: S RS t1, Scx- RS t2, Scx+ S+ t2, nc,acx a t2, Rcx R+ t3 et R-. (t1 t2 t3 pour les sous-tableaux des liens).
- - Voir les tRNA-cds négatifs, Rcx-, dans Notes.
- Note: Les autres intercalaires contiennent ceux des tRNA-tRNA qui ne produisent pas de discontinuités. En enlevant ces intercalaires, environ 500 (spl 133, bsu 60, pmq 138, cbn 22, cbei 140) j'arrive à un rapport ax% de 463/1500 soit 31%, celui de Sx+%. En plus eco contient 129 pseudo-gènes comptés dans autres intercalaires et qui se comportent comme les cds S+. Donc sans eco et les tRNAs le reste doit avoir un rapport ax% semblable à celui des Sx%.
Récapitulatif continu - discontinu
>0 |
<0 |
total |
taux <0
|
tRNA-cds |
tRNA-cds |
|
|
Rc+ |
Rx+ |
Rx+ % |
Rc- |
Rx- |
Rx- % |
|
R- %
|
808 |
465 |
36,5 |
2 |
6 |
75 |
1 281 |
0,6
|
cds-cds |
cds-cds |
|
|
Sc+ |
Sx+ |
Sx+ % |
Sc- |
Sx- |
Sx- % |
|
S- %
|
42 200 |
19 031 |
31,08 |
9 564 |
1 224 |
11,3 |
72 019 |
15,0
|
nc |
ac |
ax |
ax% |
a% |
intercal |
|
Sx%
|
1 191 |
1 934 |
649 |
25,1 |
3,4 |
75 793 |
|
28,1
|
Les taux de discontinus par classe génomique
modifier
génomes. Les taux de discontinus par classe génomique
gen |
Sx-% |
Sx+% |
S-% |
Rx+% |
ax%
|
I |
|
|
|
|
|
abra |
1,4 |
22 |
25 |
24 |
6
|
ant |
10,9 |
27 |
25 |
15 |
8
|
mja |
24,2 |
30 |
13 |
42 |
36
|
pmg |
36,0 |
39 |
14 |
39 |
41
|
pub |
19,0 |
29 |
36 |
44 |
45
|
II |
|
|
|
|
|
ade |
11,9 |
36 |
18 |
32 |
13
|
afn |
1,3 |
20 |
15 |
19 |
11
|
ase |
19,3 |
42 |
20 |
41 |
11
|
bsu |
4,9 |
30 |
14 |
57 |
16
|
cbn |
4,5 |
23 |
7 |
25 |
5
|
cvi |
8,2 |
32 |
18 |
33 |
18
|
eco |
12,3 |
33 |
18 |
43 |
35
|
rru |
10,1 |
31 |
18 |
41 |
33
|
spl |
2,8 |
34 |
10 |
37 |
11
|
III |
|
|
|
|
|
blo |
7,0 |
32 |
13 |
33 |
18
|
cbei |
2,8 |
23 |
7 |
26 |
6
|
mba |
5,5 |
34 |
8 |
47 |
28
|
myr |
6,6 |
30 |
8 |
39 |
9
|
pmq |
4,3 |
29 |
11 |
36 |
4
|
rtb |
2,9 |
27 |
13 |
29 |
25
|
scc |
7,8 |
32 |
19 |
48 |
18
|
total |
10,6 |
31 |
15 |
37 |
19
|
écart |
10±6 |
31±4 |
15±5 |
37±7 |
19±10
|
Les fréquences des intercalaires négatifs cds-cds
modifier
Les fréquences des intercalaires négatifs cds-cds. Tableau
modifier
- Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Voir aussi les détails à la suite du tableau dans le tableur.
- Légende: inter, intercalaire; comp', pour discontinu.
- - nc, nombre de continus; nc%, proportion par rapport au total des continus; pc%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des continus.
- - xc, nombre de discontinus; xc%, proportion par rapport au total des discontinus; px%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des discontinus.
- - Le 1er pas de 3 intercalaires comprend les fréquences, inter, 6 7 8. Le rapport des continus est alors pc%=(4 + 139)/945=0.15. Pour les discontinus px%=(35+19)/51=1.06.
- - diff différence entre la fréquence 6 et 7.
cds-cds. Les fréquences des intercalaires négatifs cds-cds
|
continu |
comp’
|
inter |
nc |
nc% |
pc% |
nx |
nx% |
px% |
diff
|
-1 |
1671 |
17.5 |
|
0 |
0 |
|
|
-2 |
4 |
0.0 |
|
40 |
3.3 |
|
|
-3 |
5 |
0.1 |
|
0 |
0 |
|
|
-4 |
4476 |
46.8 |
0.38 |
410 |
33.5 |
0.10 |
|
-5 |
9 |
0.1 |
|
3 |
0.2 |
|
|
-6 |
4 |
0.0 |
|
35 |
2.9 |
|
16
|
-7 |
139 |
1.5 |
|
19 |
1.6 |
|
|
-8 |
945 |
9.9 |
0.15 |
51 |
4.2 |
1.06 |
|
-9 |
3 |
0.0 |
|
25 |
2.0 |
|
14
|
-10 |
93 |
1.0 |
|
11 |
0.9 |
|
|
-11 |
498 |
5.2 |
0.19 |
52 |
4.3 |
0.69 |
|
-12 |
2 |
0.0 |
|
23 |
1.9 |
|
8
|
-13 |
94 |
1.0 |
|
15 |
1.2 |
|
|
-14 |
329 |
3.4 |
0.29 |
45 |
3.7 |
0.84 |
|
-15 |
1 |
0.0 |
|
25 |
2.0 |
|
12
|
-16 |
58 |
0.6 |
|
13 |
1.1 |
|
|
-17 |
235 |
2.5 |
0.25 |
42 |
3.4 |
0.90 |
|
-18 |
5 |
0.1 |
|
13 |
1.1 |
|
1
|
-19 |
43 |
0.4 |
|
12 |
1.0 |
|
|
-20 |
162 |
1.7 |
0.30 |
24 |
2.0 |
1.04 |
|
-21 |
0 |
0 |
|
11 |
0.9 |
|
3
|
-22 |
22 |
0.2 |
|
8 |
0.7 |
|
|
-23 |
107 |
1.1 |
0.21 |
20 |
1.6 |
0.95 |
|
-24 |
1 |
0.0 |
|
19 |
1.6 |
|
8
|
-25 |
34 |
0.4 |
|
11 |
0.9 |
|
|
-26 |
101 |
1.1 |
0.35 |
21 |
1.7 |
1.43 |
|
-27 |
2 |
0.0 |
|
6 |
0.5 |
|
-2
|
-28 |
19 |
0.2 |
|
8 |
0.7 |
|
|
-29 |
61 |
0.6 |
0.34 |
10 |
0.8 |
1.40 |
|
-30 |
0 |
0 |
|
5 |
0.4 |
|
-3
|
-31 |
16 |
0.2 |
|
8 |
0.7 |
|
|
-32 |
45 |
0.5 |
0.36 |
18 |
1.5 |
0.72 |
|
-33 |
0 |
0 |
|
3 |
0.2 |
|
-4
|
-34 |
15 |
0.2 |
|
7 |
0.6 |
|
|
-35 |
35 |
0.4 |
0.43 |
19 |
1.6 |
0.53 |
|
-36 |
0 |
0 |
|
3 |
0.2 |
|
0
|
-37 |
9 |
0.1 |
|
3 |
0.2 |
|
|
-38 |
31 |
0.3 |
0.29 |
12 |
1.0 |
0.50 |
|
-39 |
0 |
0 |
|
3 |
0.2 |
|
-4
|
-40 |
5 |
0.1 |
|
7 |
0.6 |
|
|
-41 |
34 |
0.4 |
0.15 |
8 |
0.7 |
1.25 |
|
-42 |
0 |
0 |
|
4 |
0.3 |
|
-2
|
-43 |
16 |
0.2 |
|
6 |
0.5 |
|
|
-44 |
24 |
0.3 |
0.67 |
4 |
0.3 |
2.50 |
|
-45 |
0 |
0 |
|
2 |
0.2 |
|
-1
|
-46 |
5 |
0.1 |
|
3 |
0.2 |
|
|
-47 |
11 |
0.1 |
0.45 |
4 |
0.3 |
1.25 |
|
-48 |
0 |
0 |
|
2 |
0.2 |
|
-2
|
-49 |
11 |
0.1 |
|
4 |
0.3 |
|
|
-50 |
9 |
0.1 |
1.22 |
6 |
0.5 |
1.00 |
|
reste |
169 |
1.8 |
|
120 |
9.8 |
|
|
total |
9558 |
100.0 |
|
1223 |
100.0 |
|
|
- Totaux: voir les restes des cds-cds négatifs (14.8.21).
14.8.21 c50 creste ctotal x50 xreste x80 xtotal
6 mod3 18 2 20 179 14 16 209
7 mod3 579 65 644 135 12 19 166
8 mod3 2627 87 2714 336 19 34 389
autres - 15 15 - 6 - 6
1 à 5 6165 453
total 9558 1223
- Notes:
- - Exception pour les discontinus: si les continus ont des pas avec les 2 1ères fréquences toujours très faibles par rapport à la 3ème fréquence, chez les discontinus les 2 1ères sont toujours plus faibles que la 3ème mais leur somme peut être supérieure à elle, ce qui donne des px% supérieurs à l'unité et un seul cas (fréquence 44) où la 3ème n'est pas la plus grande. Le dernier pas des continus, 48 49 50, 49 et 50 sont égaux.
- - Les fréquences 1 2 3 4 5: Les 2 lots continu et comp' ont en commun les fréquences 3 4 5, avec la proportion la plus élevée de la fréquence 4 (47% en continu et 34% en discontinu), les fréquences 3 et 5 sont quasiment nuls. Par contre les 2 lots se différencient nettement pour les fréquences 1 et 2: la 1 des continus a la 2ème proportion la plus élevée et rivalise avec le 1er pas (17% contre 10%) et la fréquence 2 est quasiment nulle et portée par un seul génome, bsu (effectif de 4 en gras); la 1 des discontinus est nulle, par contre la fréquence 2 rivalise avec le 1er pas avec un effectif de 40 contre 47.
- - Les restes après la fréquence 50: D'après la 1ère note la progression des continus est plus rapide que celle des comp' ce qui fait que les restes sont 5 fois plus élevés chez les comp' 9,6% contre 1.9% pour les continu. Mais la progression s'annule presque au-delà de la fréquence 100, voir le tableau des caractéristiques globales de ces 2 lots (tRNA-cds02 les colonnes des minima).
- - Chez les discontinus une seconde périodicité apparaît avec les -8 (modulo 3): les 3 1ères sont constantes entre 44 et 48 puis 39, suivent 3 autres de 17 à 22 puis 10, suivent 3 autres de 12 à 17 puis 8 et enfin la queue qui diminue lentement avec des 3 et 4, dépassant rarement 7 (voir la suite dans -80).
- - Les courbes de progression de chaque fréquence modulo 3 sont des exponentielles.
- périodicité supérieure des discontinus, modulo 9.
-6 35 25 23 -7 19 11 15 -8 51 52 45 -8 51 52 45 42
-15 25 13 11 -16 13 12 8 -17 42 24 20 -20 24 20 21 10
-24 19 6 5 -25 11 8 8 -26 21 10 18 -32 18 19 12
-33 3 3 3 -34 7 3 7 -35 19 12 8 -41 8 4 4
-42 4 2 2 -43 6 3 4 -44 4 4 6 -50 6 3 5
-51 5 1 2 -52 1 2 5 -53 4 5 7 -59 7 3 6
-60 1 1 1 -61 2 1 4 -62 3 6 3 -68 3 1 3
-69 2 2 1 -70 1 1 0 -71 1 3 0 -77 0 2 ?
-78 0 ? ? -79 2 ? ? -80 2 ? ? -86 -
Les fréquences des intercalaires négatifs cds-cds. Diagrammes
modifier
- Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Diagrammes. Voir aussi les détails à la suite du tableau dans le tableur.
- Légende:
- - droite exp p4 coefficient de détermination R2 de la courbe de tendance, respectivement, d'une droite, de la fonction exponentielle, du polynôme de d° 4.
- - Paramètre des courbes, -a pente b constante pour la droite; -x exposant multiplié par 1000, x' constante pour l'exponentiel; w constante du polynôme.
- - fréquence: 6 6' 6" pour les fréquences -6 modulo 3; 7 7' 7" pour -7 modulo 3; et 8 8' 8" pour -8 modulo 3. Les diagrammes sont faits avec la valeur absolue de la fréquence.
- - abscisse modulo 3, abscisse 1: abscisse des diagrammes pour modulo 3 de fréquence ci-dessus, et abscisse modulo 1 de 1 à 15 pour les fréquences jusqu'à 50 et de 1 à 25 pour les fréquences jusqu'à 80. -x1 et x'1 pour l'exponentielle en abscisse1, à comparer avec les exponentielles des génomes.
- - moyennes: pour m e m/e respectivement moyenne écart type et leur rapport des fréquences modulo 3.
- - continu 50 et discontinu 50 80, diagrammes pour les cds-cds continus jusqu'à la fréquence 50 et les cds-cds discontinus jusqu'aux fréquences 50 et 80.
- Note: Les fréquences des continus 8 et 7 progressent rapidement par rapport aux discontinus qui s'étalent sur une plus grande plage. Aussi les diagrammes sur 80 fréquences améliorent les paramètres des courbes des discontinus. En effet les R2 des droites 6" et 8" sont nettement inférieures à ceux de leurs exponentielles avec les facteurs x1 élevés quoiqu'ils aient diminués par rapport à la série -50. Par contre pour 7" les R2 des 2 courbes sont identiques ce qui milite pour une courbe de tendance linéaire quoique le facteur -x1 et le m/e soient supérieurs à ceux des génomes en discontinu.
cds-cds. Diagrammes des fréquences des intercalaires négatifs cds-cds
|
R2 |
abscisses modulo 3 |
abscisses 1 |
moyennes
|
fréquence |
droite |
exp |
p4 |
-a |
b |
-x |
x’ |
w |
-x1 |
x’1 |
m |
e |
m/e
|
continu 50 |
|
|
|
|
|
|
|
|
|
|
|
|
|
6 |
537 |
190 |
585 |
0,1 |
4 |
36 |
4 |
6 |
107 |
3.5 |
1.2 |
1.66 |
0.72
|
7 |
735 |
855 |
971 |
2,6 |
111 |
72 |
176 |
245 |
215 |
132 |
38.6 |
40.2 |
0.96
|
8 |
608 |
973 |
987 |
14,8 |
603 |
100 |
1389 |
2611 |
301 |
841 |
175.1 |
253.9 |
0.69
|
discontinu 50 |
|
|
|
|
|
|
|
|
|
|
|
|
|
6’ |
820 |
912 |
913 |
0.7 |
32 |
72 |
54 |
45 |
217 |
43 |
11.9 |
10.8 |
1.11
|
7’ |
806 |
779 |
835 |
0.3 |
17 |
36 |
22 |
26 |
109 |
19 |
9.0 |
4.5 |
1.99
|
8’ |
857 |
888 |
933 |
1.2 |
56 |
61 |
97 |
56 |
184 |
71 |
22.4 |
17.0 |
1.32
|
discontinu 80 |
|
|
|
|
|
|
|
|
|
|
|
|
|
6” |
667 |
834 |
931 |
0.4 |
23 |
51 |
32 |
45 |
152 |
28 |
7.8 |
9.76 |
0.80
|
7” |
806 |
769 |
887 |
0.2 |
15 |
38 |
22 |
21 |
115 |
19 |
6.2 |
5.04 |
1.22
|
8” |
739 |
874 |
949 |
0.6 |
42 |
48 |
70 |
80 |
144 |
55 |
14.8 |
16.14 |
0.92
|
Les intercalaires négatifs cds-cds, recouvrements
modifier
- Lien tableur: Les intercalaires négatifs cds-cds, recouvrements.
- Légende:
- - add1 add2 adresse du début et de fin d'un cds. Je nomme pour les opérations qui suivent add11 add12 le 1er cds de la 1ère ligne. La ligne suivante contient les adresses du cds suivant que je nomme add21 add22.
- - Les opérations:
- + intercal, intercalaire entre un cds et le suivant. Il est calculé comme add12-add21-1.
- + shift, différence entre les extrémités des 2 cds, add22-add12. Quand le shift est nul (à droite ou à gauche) il est coloré en jaune.
- + couvre, le recouvrement des 2 cds. Quand le shift est négatif (cyan) le cds est complètement recouvert et la longueur du recouvrement est égale à la longueur du 2ème cds, soit add22-add21+1, inférieure à l'intercalaire. Si le shift est positif le recouvrement est partiel et sa longueur est add12-add21+1, égale à l'intercalaire. Si le shift est nul (à droite ou à gauche) le recouvrement d'un des 2 cds est total.
- Note:
- - Donc la longueur du recouvrement ne peut pas être supérieure à l'intercalaire.
- - Tous les longs intercalaires ont un recouvrement total. Sur les 21 intercalaires de longueur supérieure à 140 pbs, 17 ont un recouvrement total dont 16 ont des intercalaires supérieurs à 212 pbs et 4 ont un recouvrement partiel avec des intercalaires inférieurs à 210 pbs. J'ai étudié plusieurs cds-cds négatifs de plus en plus courts, inférieurs à 140 pbs, que je n'ai pas représentés ici, et à part le -127 de bsu tous se sont révélés des recouvrements partiels comme certainement les 97% des intercalaires négatifs de moins de 50 pbs.
- - Les continus ont de longs recouvrements allant jusqu'à 2400 et ne descendent pas en dessous de 140. 9 sur 15 génomes ont plus de 200 pbs de recouvrement.
- - Les discontinus, à l'inverse, ne dépassent pas les 500 pbs de recouvrement et 5 sur 8 sont en dessous de 100 pbs. 3 sur 8 génomes ont plus de 200 pbs.
cds-cds0. Les intercalaires cds-cds négatifs, les recouvrements.
cds-cds01. Recouvrements chez bsu
intercal |
add1 |
add2 |
shift |
couvre
|
intercalaire continu
|
-7616 |
387744 |
398495 |
-7475 |
141
|
|
390880 |
391020 |
|
|
|
|
|
|
|
-500 |
3717238 |
3717825 |
-20 |
480
|
|
3717326 |
3717805 |
|
|
|
|
|
|
|
-492 |
2909520 |
2910011 |
735 |
492
|
|
2909520 |
2910746 |
|
|
|
|
|
|
|
-164 |
1252815 |
1253021 |
52 |
164
|
|
1252858 |
1253073 |
|
|
|
|
|
|
|
-154 |
2466721 |
2467953 |
209 |
154
|
|
2467800 |
2468162 |
|
|
|
|
|
|
|
-143 |
1916663 |
1917097 |
205 |
143
|
|
1916955 |
1917302 |
|
|
|
|
|
|
|
intercalaire discontinu
|
-361 |
2601528 |
2603339 |
-64 |
297
|
|
2602979 |
2603275 |
|
|
|
|
|
|
|
-127 |
3666841 |
3667059 |
-43 |
84
|
|
3666933 |
3667016 |
|
|
|
|
|
|
|
-93 |
2652993 |
2653463 |
1410 |
93
|
|
2653371 |
2654873 |
|
|
|
|
|
|
|
|
|
|
|
|
|
cds-cds02. Recouvrements chez eco
intercal |
add1 |
add2 |
shift |
couvre
|
intercalaire continu
|
-2400 |
164730 |
167264 |
0 |
2400
|
|
164865 |
167264 |
|
|
-2130 |
2731600 |
2733729 |
444 |
2130
|
|
2731600 |
2734173 |
|
|
-1295 |
492092 |
493386 |
637 |
1295
|
|
492092 |
494023 |
|
|
-897 |
4577958 |
4578854 |
483 |
897
|
|
4577958 |
4579337 |
|
|
-729 |
1179520 |
1180359 |
0 |
729
|
|
1179631 |
1180359 |
|
|
-448 |
1639030 |
1639527 |
-193 |
255
|
|
1639080 |
1639334 |
|
|
-242 |
578107 |
578568 |
-59 |
183
|
|
578327 |
578509 |
|
|
-212 |
508875 |
511379 |
0 |
212
|
|
511168 |
511379 |
|
|
-153 |
16751 |
16903 |
57 |
153
|
|
16751 |
16960 |
|
|
intercalaire discontinu
|
-723 |
3111128 |
3111988 |
-663 |
60
|
|
3111266 |
3111325 |
|
|
-530 |
3838248 |
3839171 |
-470 |
60
|
|
3838642 |
3838701 |
|
|
-527 |
10643 |
11356 |
-41 |
486
|
|
10830 |
11315 |
|
|
-436 |
3796948 |
3798207 |
-361 |
75
|
|
3797772 |
3797846 |
|
|
-210 |
3993739 |
3994059 |
276 |
210
|
|
3993850 |
3994335 |
|
|
|
Classement des génomes par les fréquences des cds-cds négatifs discontinus
modifier
- Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs discontinus.
- Légende:
- - couleurs,
- + Les colonnes en jaunes: rouge pour les rapports non significatifs, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes et soulignées pour les extrêmes.
- + Le classement, ordre décroissant de x6 x7 x8: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 x7.
- - clde, ordre des génomes en 9 forts et 12 faibles par rapport à x‰. Ils sont séparés par la ligne très grasse.
- - r80, total des effectifs des fréquences négatives supérieures à 80.
- - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
- - "6 "7 "8, somme des effectifs des fréquences -6 -7 -8 modulo 3 jusqu'à -80.
- - "p pour périodique, somme des 3 modulo 3, "6 "7 "8
- - "80, somme des effectifs de ("5 "6 "7 "8)
- - cds, total des intercalaires cds-cds décomptés pour un génome, gen.
- -x5, % par rapport au total ("80 + r80).
- - x6 x7 x8, pourcentage d'un modulo 3 par rapport au total "p des 3 modulo 3, "6 "7 "8.
- - x‰, pour 1000 cds-cds, somme de "80 et r80 divisée par la colonne cds
cds-cds-x. Intercalaires négatifs discontinus. Classement
clde |
gen |
r80 |
“6 |
“7 |
“8 |
“p |
x6 |
x7 |
x8 |
x‰ |
cds |
“5 |
x5 |
“80
|
1 |
pub |
0 |
17 |
3 |
25 |
45 |
38 |
7 |
56 |
70.4 |
1307 |
47 |
51 |
92
|
2 |
pmg |
0 |
16 |
9 |
30 |
55 |
29 |
16 |
55 |
48.9 |
1800 |
33 |
38 |
88
|
3 |
ase |
17 |
48 |
55 |
123 |
226 |
21 |
24 |
54 |
42.9 |
8197 |
109 |
31 |
335
|
4 |
mja |
0 |
19 |
3 |
8 |
30 |
63 |
10 |
27 |
32.4 |
1730 |
26 |
46 |
56
|
5 |
ant |
0 |
20 |
5 |
18 |
43 |
47 |
12 |
42 |
26.8 |
3095 |
40 |
48 |
83
|
6 |
eco |
10 |
15 |
6 |
18 |
39 |
38 |
15 |
46 |
23.4 |
4024 |
45 |
48 |
84
|
7 |
ade |
9 |
4 |
17 |
36 |
57 |
7 |
30 |
63 |
22.8 |
4464 |
36 |
35 |
93
|
8 |
rru |
5 |
6 |
13 |
22 |
41 |
15 |
32 |
54 |
19.5 |
3786 |
28 |
38 |
69
|
9 |
cvi |
1 |
7 |
16 |
20 |
43 |
16 |
37 |
47 |
16.1 |
4282 |
25 |
36 |
68
|
10 |
scc |
1 |
9 |
3 |
12 |
24 |
38 |
13 |
50 |
15.5 |
1805 |
3 |
11 |
27
|
11 |
blo |
2 |
1 |
4 |
8 |
13 |
8 |
31 |
62 |
10.2 |
1772 |
3 |
17 |
16
|
12 |
bsu |
4 |
5 |
7 |
5 |
17 |
29 |
41 |
29 |
8.3 |
4215 |
14 |
40 |
31
|
13 |
myr |
0 |
5 |
1 |
5 |
11 |
45 |
9 |
45 |
5.6 |
3555 |
9 |
45 |
20
|
14 |
pmq |
1 |
8 |
5 |
14 |
27 |
30 |
19 |
52 |
5.8 |
7223 |
14 |
33 |
41
|
15 |
mba |
0 |
3 |
3 |
10 |
16 |
19 |
19 |
63 |
5.6 |
3943 |
6 |
27 |
22
|
16 |
rtb |
0 |
0 |
0 |
3 |
3 |
0 |
0 |
100 |
5.0 |
793 |
1 |
25 |
4
|
17 |
abra |
0 |
3 |
0 |
3 |
6 |
50 |
0 |
50 |
4.8 |
1667 |
2 |
25 |
8
|
18 |
cbn |
0 |
5 |
0 |
4 |
9 |
56 |
0 |
44 |
3.6 |
2491 |
0 |
0 |
9
|
19 |
spl |
0 |
1 |
1 |
3 |
5 |
20 |
20 |
60 |
2.8 |
4213 |
7 |
58 |
12
|
20 |
cbei |
0 |
2 |
2 |
3 |
7 |
29 |
29 |
43 |
2.0 |
5622 |
4 |
36 |
11
|
21 |
afn |
1 |
1 |
1 |
0 |
2 |
50 |
50 |
0 |
2.0 |
2039 |
1 |
25 |
3
|
|
total |
51 |
195 |
154 |
370 |
719 |
27 |
21 |
51 |
17.0 |
72023 |
453 |
37 |
1172
|
- Note: Le tableau est construit à partir du tableau détaillé dans le tableur ainsi que les restes des cds-cds négatifs (14.8.21).
- - Classement: Le classement est fait suivant l'ordre décroissant de x6 x7 x8. Il y a ainsi 3 catégories: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 avec x7 quelconque. Chaque catégorie est divisée en x‰ fort, faible et rouge ou incetain. Ainsi le classement indique la couleur, l'ordre, l'effectif de la sous-catégorie et la fourchette du taux de x6.
- - Les forts x‰: Le taux de négatifs discontinus x‰ dépasse pour 8/9 le taux du total, 17.0 et le 9ème fait 16.1‰; 4 taux sont les plus élevés des 21, dépassant les 30‰. Le total de cds ne les impacte pas, il y a 5 grands cds pour 4 petits (inférieurs à 3100). Le taux des fréquences 1-5 varie peu et est très élevé, entre 31 et 51%. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds.
- bleu ordre x6 x8, deux, 47-64: mja 32‰ 1730 ant 27‰ 3095
- v.clair ordre x8 x6 x7, trois, 29-38: pub 70‰ 1 307 pmg 49‰ 1 800 eco 23‰ 4 024
- v.foncé ordre x8 x7 x6, quatre, 7-21: ase 43‰ 8 197 ade 23‰ 4 464 rru 19‰ 3 786 cvi 16‰ 4 282
- - Les faibles x‰: Le taux de négatifs discontinus x‰ ne dépasse pas 7‰ pour 10/12 d'entre eux; blo fait 10‰ et seul scc égale celui du fort cvi; j'ai gardé scc parmi les faibles à cause du faible taux des fréquences 1-5. Le total de cds ne les impacte pas, il y a 6 grands cds pour 6 petits (inférieurs à 2 500). Le taux des fréquences 1-5 varie beaucoup, est impacté par le total de cds; les 6 taux 1-5 les plus petits ont un cds inférieur à 2500; tandis que 5 grands ont un cds supérieur à 3555 et rtb est ambigu du à sa faiblesse en cds. Le taux des "6 par rapport au total des "p n'est impacté ni par le total cds ni par le taux des 1-5. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par le taux des 1-5 en %.
- v.clair ordre x8 x6 x7, trois, 30-45: scc 15‰ 1 805-11 myr 6‰ 3 555-45 pmq 6‰ 7 223-33
- v.foncé ordre x8 x7 x6, cinq, 8-29: blo 10‰ 1 772-17 mba 6‰ 3 943-27 spl 3‰ 4 213-58 cbei 2‰ 5 622-36 bsu 8‰ 4 215-40
- - Les rouges ou incertains, en x‰: Les effectifs sont très faibles d'où les ? pour zéro. Leurs cds ne dépassent pas 2500. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par l'effectif des 1-5.
- bleu ordre x6 x8, trois, 50-56: afn 2‰ 2 039-1 abra 5‰ 1 667-2 cbn 4‰ 2 491-?
- v.clair ordre x8 x6 x7, un ?, 0: rtb 5‰ 793-1
- Coefficient de détermination, moyenne et corrélation des taux des périodiques par rapport au total des cds-cds. Les colonnes ‰. (pour 10 000) sont à faire d'après le tableau ci-joint extrait des discontinus et des continus, x6‰. pour "6/cds des discontinus et c7‰. pour "7/cds pour les continus par exemple. Ainsi le coefficient de détermination R2 (ici multiplié par 1000 et correspond à la progression croissante de 1 à 21 des taux) est nettement à l'avantage d'une exponentielle chez les discontinus avec une différence minimale de 106 points pour x7‰. et plus de 200 points pour les 4 autres; la fonction exponentielle est très prononcée avec une constante de l'exposant a, b*exp(-ax), proche de 0.2. Les variances très élevées des taux vont dans le même sens avec des rapports moyenne/écartype, m/e, inférieurs à l'unité. Chez les continus l'avantage vers la linéarité est très prononcé en comparaison avec les discontinus: R2 linéaire supérieur à celui de l'exponentielle pour c7‰. et c5‰. avec le coefficient a 4 fois inférieur pour c7‰. et 2 fois inférieur pour c5‰.; pour c8‰. et c‰. très grande ressemblance avec x8‰. et x‰. pour le R2 mais les coefficients a sont analogues à ceux de c7‰. et c5‰. militant plutôt pour la linéarité car plus a tend vers zéro plus l'exponentielle tend vers 1+ax [63]; enfin les très faibles variances des taux, m/e entre 1.7 et 3.9 vont dans le même sens. On retrouve ces comportements de l'exponentielle avec les fréquences des intercalaires où -x1 et x'1 correspondent à -a et b avec les mêmes abscisses que les génomes après tri (suite de 1 à 15 ou 25). Cependant le classement des continus en fonction de c‰, pour 1000, (voir cds-cds-cx) avait montré au moins 4 groupes dont un plateau et 2 pentes de progression élevées, une de 7 et l'autre de 37 (voir note) et apparemment cette hétérogénéité est supportée par les c5‰ (pas de classe avec un intrus) et c8‰ (une seule avec blo comme intrus) mais pas par c7‰ (les 4 classes ont au moins un intrus, dans l'ordre, cbei mja (ade eco) abra ). Enfin les fortes corrélations entre 2 colonnes de taux des discontinus et celles très faibles entre les taux des continus confirment respectivement leur parentés à la fonction exponentielle et à la fonction linéaire.
14.8.21 discontinu continu
x6‰. x7‰. x8‰. x5‰. x‰. c7‰. c8‰. c5‰. c‰.
moyenne 32.4 18.2 52.8 69.5 178.3 84.2 427.9 859.9 1398.9
écart 37.6 18.2 53.8 86.6 181.3 22.4 248.2 422.8 592.4
m/e 0.9 1.0 1.0 0.8 1.0 3,9 1,7 2,0 2,4
R2 progrès
droite 753 850 758 687 783 978 793 967 888
exponentiel 980 956 961 969 986 975 941 957 967
a 0.195 0.183 0.165 0.202 0.171 0.043 0.081 0.089 0.065
b 1.98 1.44 5.37 3.75 16.4 50 153 283 629
corrélation, pour coefficient de détermination de 2 colonnes.
5-6 5-7 5-8 6-7 6-8 7-8 5-7 5-8 7-8
788 244 728 154 569 555 37 176 177
Classement des génomes par les fréquences des cds-cds négatifs continus
modifier
- Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs continus.
- Légende: voir le tableau des détails dans le tableur ainsi que les restes des cds-cds négatifs.
- Les continus
- - couleurs des continus, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, gras pour très faibles et soulignées pour les extrêmes.
- - c5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs continus.
- - c‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
- - cont, total des continus négatifs
- - r50, reste des continus après la fréquence -50.
- - "6 "7 "8, somme des effectifs continus des fréquences -6 -7 -8 modulo 3 jusqu'à -50.
- - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
- - "p, somme de "6 "7 "8
- - c7 en % somme des effectifs continus de la fréquence -7 modulo3 jusqu'à -50, sur la somme des mêmes sommes -6 -7 -8 modulo 3.
- - c1/c4, en %, rapport de la fréquence -1 sur la fréquence -4 des négatifs continus, tiré du tableau comparaison continu-discontinu
- Les discontinus voir leur chapitre
- - c‰ c5‰ c7‰ c8‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
- - x5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs discontinus.
- - x‰, pour 1000 cds-cds, total des intercalaires négatifs discontinus divisé par cds (total des cds-cds). Pour x5 et x‰ les couleurs sont celles des continus avec le rouge pour les effectifs peu significatifs.
- - x6 en %, somme des effectifs des discontinus de la fréquence -6 modulo 3 jusqu'à -80, sur la somme des mêmes sommes -6 -7 -8 modulo 3. Les couleurs des 3 classes de discontinus basés sur x6, sont dans l'ordre décroissant, bleu (x6 x8 x7), vert clair (x8 x6 x7) et vert foncé (x8 x7 x6).
cds-cds. Intercalaires négatifs. Classements
cds-cds-c. Intercalaires négatifs continus. Classement
gen |
r50 |
cont |
“6 |
“7 |
“8 |
“p |
c8 |
c7 |
“5 |
c5 |
c‰ |
cds
|
cbn |
0 |
167 |
|
23 |
82 |
105 |
78 |
21.9 |
62 |
37 |
67 |
2 491
|
cbei |
4 |
389 |
|
32 |
200 |
232 |
86 |
13.8 |
153 |
39 |
69 |
5 622
|
mba |
6 |
307 |
7 |
34 |
108 |
149 |
77 |
22.8 |
152 |
50 |
78 |
3 943
|
myr |
0 |
282 |
|
22 |
127 |
149 |
85 |
14.8 |
133 |
47 |
79 |
3 555
|
pmg |
2 |
158 |
|
10 |
41 |
51 |
80 |
19.6 |
105 |
66 |
88 |
1 800
|
mja |
6 |
163 |
|
17 |
62 |
79 |
79 |
21.5 |
78 |
48 |
94 |
1 730
|
spl |
5 |
414 |
|
30 |
117 |
147 |
80 |
20.4 |
262 |
63 |
98 |
4 213
|
pmq |
16 |
753 |
1 |
44 |
226 |
271 |
84 |
16.2 |
466 |
62 |
104 |
7 223
|
blo |
2 |
210 |
1 |
10 |
36 |
47 |
79 |
21.3 |
161 |
77 |
119 |
1 772
|
rtb |
0 |
98 |
|
9 |
46 |
55 |
84 |
16.4 |
43 |
44 |
124 |
793
|
bsu |
17 |
573 |
|
42 |
209 |
251 |
83 |
16.7 |
305 |
53 |
136 |
4 215
|
afn |
9 |
303 |
2 |
20 |
105 |
127 |
84 |
15.7 |
167 |
55 |
149 |
2 039
|
ase |
28 |
1300 |
3 |
70 |
145 |
218 |
68 |
32.1 |
1054 |
81 |
158.6 |
8 197
|
ade |
9 |
713 |
|
25 |
72 |
97 |
74 |
25.8 |
607 |
85 |
159.7 |
4 464
|
eco |
22 |
644 |
|
47 |
152 |
199 |
76 |
23.6 |
423 |
66 |
160.0 |
4 024
|
cvi |
4 |
687 |
|
38 |
152 |
190 |
80 |
20.0 |
493 |
72 |
160.4 |
4 282
|
rru |
11 |
609 |
|
26 |
97 |
123 |
79 |
21.1 |
475 |
78 |
160.9 |
3 786
|
scc |
6 |
319 |
1 |
22 |
95 |
118 |
81 |
18.6 |
195 |
61 |
177 |
1 805
|
ant |
6 |
679 |
1 |
33 |
252 |
286 |
89 |
11.5 |
387 |
57 |
219 |
3 095
|
abra |
13 |
409 |
|
11 |
174 |
185 |
94 |
5.9 |
211 |
52 |
245 |
1 667
|
pub |
3 |
381 |
2 |
14 |
129 |
145 |
90 |
9.7 |
233 |
61 |
292 |
1 307
|
total |
169 |
9558 |
18 |
579 |
2627 |
3224 |
82 |
18.0 |
6165 |
64 |
134 |
72 023
|
|
cds-cds-cx. Intercalaires négatifs. Classement
gen |
c5‰ |
c7‰ |
c8‰ |
c‰ |
c1/c4 |
cds |
x6 |
x5 |
x‰
|
cbn |
25 |
9.2 |
33 |
67 |
121 |
2 491 |
56 |
0 |
3.6
|
cbei |
27 |
5.7 |
36 |
69 |
87 |
5 622 |
29 |
36 |
2.0
|
mba |
39 |
8.6 |
27 |
78 |
28 |
3555 |
19 |
27 |
5.6
|
myr |
37 |
6.2 |
36 |
79 |
118 |
3943 |
45 |
45 |
5.6
|
pmg |
58 |
5.6 |
23 |
88 |
52 |
1 800 |
29 |
38 |
48.9
|
mja |
45 |
9.8 |
36 |
94 |
49 |
1 730 |
63 |
46 |
32.4
|
spl |
62 |
7.1 |
28 |
98 |
93 |
4213 |
20 |
58 |
2.8
|
pmq |
65 |
6.1 |
31 |
104 |
21 |
7 223 |
30 |
33 |
5.8
|
blo |
91 |
5.6 |
20 |
119 |
48 |
1 772 |
8 |
17 |
10.2
|
rtb |
54 |
11.3 |
58 |
124 |
30 |
793 |
0 |
25 |
5.0
|
bsu |
72 |
10.0 |
50 |
136 |
31 |
4215 |
29 |
40 |
8.3
|
afn |
82 |
9.8 |
51 |
149 |
29 |
2 039 |
50 |
25 |
2.0
|
ase |
129 |
8.5 |
18 |
158.6 |
19 |
8 197 |
21 |
31 |
42.9
|
ade |
136 |
5.6 |
16 |
159.7 |
13 |
4464 |
7 |
35 |
22.8
|
eco |
105 |
11.7 |
38 |
160.0 |
63 |
4024 |
38 |
48 |
23.4
|
cvi |
115 |
8.9 |
35 |
160.4 |
31 |
3786 |
16 |
36 |
16.1
|
rru |
125 |
6.9 |
26 |
160.9 |
21 |
4282 |
15 |
38 |
19.5
|
scc |
108 |
12.2 |
53 |
177 |
25 |
1 805 |
38 |
11 |
15.5
|
ant |
125 |
10.7 |
81 |
219 |
74 |
3095 |
47 |
48 |
26.8
|
abra |
127 |
6.6 |
104 |
245 |
48 |
1 667 |
50 |
25 |
4.8
|
pub |
178 |
10.7 |
99 |
292 |
190 |
1 307 |
38 |
51 |
70.4
|
total |
86 |
8.0 |
36 |
134 |
37 |
72023 |
27 |
37 |
17.0
|
|
- Note: voir la note des discontinus seuls. Ici les couleurs ont été harmonisées pour le tri et pour comparer rapidement 2 génomes: jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, en gras pour très faibles et soulignées pour les extrêmes.
- - Les négatifs continus se distinguent des discontinus par 3 points essentiels:
- Le taux des intercalaires, voir le petit tableau en bas de cette note.
- - c‰: La courbe de détermination des négatifs continus triés est une droite à forte pente de 9. Elle a un palier à pente nul de 5 génomes avec un taux de 160 ‰. Ce palier sépare une queue de 12 génomes avec une droite de pente 7 (R2 99), d'une tête de 4 génomes de pente 37 (R2 97). Les cds ne semblent pas impacter ce taux, la queue a 6 faibles cds contre 6 forts, le palier est un palier aussi pour 4 cds moyens et le 5ème fort extrême, la tête de la courbe a un cds moyen pour 3 faibles. Les c5 impactent différemment les 3 parties, les 4 1ers c‰ de la queue semblent être corrélés positivement aux c5 alors que la tête est corrélée négativement, le palier est aussi un palier c5 et les 8 génomes restant ne semblent pas être corrélés entre eux.
- - x‰: La courbe de détermination des négatifs discontinus triés est une exponentielle nette et régulière. J'ai détaillé ses fréquences dans le chapitre précédent. La fonction exponentielle dénote la difficulté physique d’établir la discontinuité entre 2 cds, on passe d'un état vibratoire à l'autre en les chevauchant. Les intercalaires négatifs continus répondent, eux, à une logique fonctionnelle, le chevauchement ne peut pas être à l'identique (0 modulo 3) sinon on tombe dans les domaines protéiques communs à plusieurs gènes et qui ont un rôle fonctionnel; le chevauchement doit être décalé (-1 -2 modulo 3) et c'est pour cela qu'on n'a que rarement des -6 modulo 3 ("6).
- Les intercalaires de -1 à -5: voir le petit tableau en bas de cette note et les fréquences périodiques. Ces intercalaires ont une moyenne de 60% et 33% par rapport au total respectivement des continus et des discontinus négatifs, avec des écarts identiques faibles. Ceci s'explique par la difficulté des discontinus à s'ancrer avec une seule paire de bases, ils n'ont aucun intercalaire de ce genre, alors qu'il y en a 17% chez les continus (le rapport c1/c4 ne concerne donc que les continus et varie beaucoup d'un génome à l'autre). Par contre les discontinus ont un taux de fréquence -2 équivalent à celui de -8 comme s'ils initialisaient cette périodicité, alors que les continus malgré qu'ils soient 10 fois plus nombreux n'en présentent que 4 et pour le seul génome bsu.
- Les intercalaires périodiques - 6 -7 -8 modulo 3
- - "6 continu (voir le tableur): cas de mba avec 7 occurrences 1 pour 9 27 et 5 pour 18. Au total les continus ont 26 occurrences jusqu'à -50 et 5 sur les 179 restants avec eco (66 75) ase (51 57) et mba (51) pour les occurrences inférieures à 140. Pour les discontinus, les 6 modulo 3 apparaissent régulièrement, ainsi pour ase il y a 7 au-delà de -80 jusqu'à une occurrence de -120 soit 40 aas! De même pour eco 2 occurrences après -80, 102 129 avant les plus grands; de même bsu a une occurrence à 93, mais ade qui a 9 au-delà de -80 n'en a pas. Jusqu'à -50 il y a 171 discontinus et 13 de -51 à -80.
- - Les rapports entre les périodiques "6 "7 "8: Chez les continus ils sont complémentaires puisque "6 est quasi nul (26 contre 171 chez les discontinus). Ils sont très homogènes (m/e de 3.2 et 14 respectivement et un R2 de 91) avec une pente de progression de 0.89 contre 2.15 et 2.70 pour les discontinus. Ces pentes fortes et leur faible homogénéité (m/e 1.7 1.4 2.6 pour "6 "7 "8 respectivement et un R2 des "8 de 79) rapprochent les discontinus des courbes exponentielles en pourcentage du total.
- - Les pourcentages par rapport au total des cds: Dans cette comparaison on retrouve l'homogénéité des continus avec un m/e entre 1.7 et 3.9 et l'hétérogénéité des discontinus avec un m/e inférieur à 1.0. Par contre les courbes de tendance de progression des discontinus sont nettement exponentielles (R2 de la droite très inférieur à celui de l'exponentielle sauf pour x7‰) alors que celles des continus sont nettement linéaires (R2 de la droite supérieur ou presque égale à celui de l'exponentielle). Cette tendance à l'exponentielle explique la corrélation forte, comparaison entre 2 à 2 colonnes, chez les discontinus (80 76 58 54 27 15) et très faible chez les continus (5 15 18) où la corrélation entre ces derniers est réduite à leurs différences de pente. Il ne faut confondre l'exponentielle des fréquences qui est fonction de la longueur des recouvrements valable pour les continus et les discontinus, des tendances des génomes qui reflètent chez les continus la facilité à établir le recouvrement et sa difficulté chez les discontinus.
- - Le classement des continus voir en bas du chapitre: Les classes sont ordonnées sur le taux par rapport au total c‰. Il est suivi de /pas pour l'écart entre 2 taux successifs, ça correspond à la pente que j'ai signalé au paragraphe ci-dessus c‰. On remarque le palier de 5 génomes avec un /pas de 1. Il y a ainsi 5 classes dont 4 sont quasiment des paliers et la dernière avec une pente très forte. Les colonnes c5 et c7 présentent une plage avec éventuellement une exception après la virgule. Cette exception ne s'écarte réellement de l'homogénéité que dans 2 cas sur 5 pour c5 dans les classes 3 (43-55,76) et 5 (6-12,18). Cette écart est du à l'hétérogénéité du c1/c4. La colonne cds montre clairement que les cds n'impactent pas l'homogénéité d'une classe tant l'écart dans une classe est très grand. Le classement des 21 génomes en continu et discontinu (2ème tableau) montre la différence entre les 2 types de négatifs: dans chaque classe de continus il y a au moins 2 classes de discontinus sur les 3, v.clair v.foncé et bleu. Le palier de 5 en continus a 4 v.foncés et 1 v.clair, ce qui confirme sa grande homogénéité en plus de ses 4 cds.
- - Les caractéristiques communes aux continu-discontinu: Voir le récapitulatif en fin de chapitre.
- + Ces 2 types d'intercalaires ont en commun la périodicité modulo 3 des occurrences -6 -7 -8, les occurrences uniques -3 -4 -5 et les taux de ces occurrences cumulées pour -8 (respectivement continu discontinu 28 32 %), pour -4 (respectivement continu discontinu 47 34 %) et enfin -3 et -5 qui sont quasiment nulles.
- + Ils diffèrent par les taux des occurrences cumulées des -6 d'un facteur 50 (respectivement continu discontinu 0.3 17 %), des occurrences cumulées -7 d'un facteur 2 (respectivement continu discontinu 6.8 13 %), des occurrences -1 (respectivement continu discontinu 17 0 %) et des occurrences -2 (respectivement continu discontinu 0 3.5 %) et enfin ils diffèrent par les totaux des effectifs d'un facteur 10 (respectivement continu discontinu 9644 1144).
- + Une caractéristique commune entre les 2 types d'intercalaires apparaît après une analyse approfondie de la corrélation entre -7 et -8: Le taux moyen en % des continus, c7, ("7)/("7+"8) et celui des discontinus, x7, ("7)/("6+"7+"8) sont équivalents 18.6% contre 19.2%. Certes les c7 sont plus beaucoup plus homogènes (m/e de 3.2) que les x7 (m/e de 1.4) mais ceci est du au fait que les taux individuels en (‰.) par rapport au total des cds des c7 ont une progression linéaire alors que les x7 ont une progression exponentielle. Et la corrélation entre les taux individuels x7-x8 est forte avec un coefficient de détermination de 0.54. C'est comme si, quelle que soit la longueur de l'intercalaire, le taux "7/"8 était toujours le même. Ce rapport commun aux 2 types d'intercalaires renforce l'idée que la périodicité commune aux deux est un processus lié aux propriétés physiques de l'ADN et non aux fonctionnalités des 2 cds. Les corrélations fortes chez les discontinus, 5-6 (0.80) 5-8 (0.76) 6-8 (0.58) vont aussi dans ce sens grâce aux coefficients de détermination de leurs courbes exponentielles de progression listés dans le même tableau. Chez les continus les corrélations sont très faibles parce que leurs moyennes sont très homogènes ou autrement dit leurs taux sont presque constants. Ce qui va toujours dans le même sens de la propriété physique de l'ADN pour 2 processus différents, un linéaire pour les continus et l'autre exponentiel pour les discontinus.
- Les taux entre périodiques: Les calculs sont faits à partir du tableau des continus. Comme c7 et c8 sont complémentaires ils ont même ecartype, même pente et même R2. Avec une moyenne de 81.5 (100-18.5) c8 obtient donc un m/e de 14.
14.8.21 c5 c7 c‰ x5 x6 x7 x8 x‰
moyenne 59,7 18,6 140,9 34,0 30,8 19,6 49,6 17,8
ecart 13,4 5,9 59,5 14,0 17,2 13,9 18,5 18,1
m/e 4,4 3,2 2,4 2,4 1,8 1,4 2,7 1,0
a 2,16 0,88 9 2,17 2,74 2,19 2,55 x0,17
b 35,9 8,82 40,91 10,17 0,62 -4,47 21,46 1,64
r2 98 91 89 92 98 96 74 99
pal 5 pal 5 expo
- Les classes des continus,14.8.21
classe c‰ /pas c5 c7 cds
cbn cbei mba myr: 67-79 /3 37-50 14-23 2 491 - 5 622
pmg mja spl pmq: 88-104 /4 62-66,48 16-21 1 730 - 7 223
blo rtb bsu afn: 119-149 /7 44-55,77 16-21 793 - 4 215
eco ade rru cvi ase: 159-161 /1 72-85,66 20-26,32 3 786 - 8 197
scc ant abra pub: 177-292 /29 52-61 6-12,19 1 307 - 3 095
- Récapitulatif continus discontinus du 14.8.21: Les compilations sont tirées des -50 des continus, des -80 des discontinus et les occurrences négatives supérieures à 130 dans les restes. Période: "6 "7 "8 pour les -6 -7 -8 modulo 3; 1,2 pour -1 -2; 4 pour -4; et 3,5 pour -3 et -5; reste pour les occurrences négatives supérieures à 130.
période cont % discont %
6 20 0.21 209 17.09
7 644 6.74 166 13.57
8 2714 28.4 389 31.8
reste 15 0.16 6 0.49
1 1671 17.5 0 0
2 4 0.04 40 3.27
3,5 14 0.15 3 0.25
4 4476 46.8 410 33.5
total 9558 100 1223 100
Les fréquences des intercalaires positifs cds-cds
modifier
Les fréquences des intercalaires positifs cds-cds. Diagrammes 400
modifier
- Lien tableur: Les fréquences des intercalaires positifs cds-cds. Diagrammes 400.
- Légende: Ces tableaux sont suivis par les corrélations et fréquences faibles, cds-cds.31 et cds-cds.32.
- - gen: pour génome. Le 1er tableau cds-cds.11 pointe sur le génome au chapitre "gen intercalaires positifs S+". Au lien du tableur de ce dernier se trouvent les effectifs, dont eff eff3 teff de ces diagrammes 400. Le total eff représente le total de la fréquence 1 à 400 (cds-cds.11 et 21), eff3 de 31 à 400 (cds-cds.12 et 22) et de 51 à 400 pour bsu (colonne f3, tF51) et teff le total du génome, positifs, zéros et négatifs compris. Le total teff est la somme des 2 colonnes x et c du tableau cds-cds.32 sous la rubrique teff. Le x+ correspond aux diagrammes des discontinus et le c+ aux continus. La colonne "gen de cds-cds.11" pointe sur la fiche du génome pour ses diagrammes. La colonne "gen de cds-cds.12" pointe sur ses diagrammes. Sur les diagrammes sont indiqués eff et eff3.
- - Pour la construction des diagrammes et leurs symboles, -7 -5 R2 flex R2’ f3, pour les corrélations du tableau cds-cds.31 et les fréquences faibles du tableau cds-cds.32, voir la légende de cvi.
- - m50x: Les polynômes Sx+ présentent soit un maximum (max) soit un minimum (min) à l'abscisse 50 (ou bien proches de 50,40 60) soit ni l'un ni l'autre et ils paraissent réguliers.
- - m50c: comme m50x mais ce sont tous des minima.
- - f3: c'est la forme de la courbe du polynôme. Quand le coefficient de la variable x3 est négatif (colonne -7) la courbe a la forme d'un S majuscule, d'abord concave ensuite convexe. Quand ce coefficient est positif la forme est un tilde (t), convexe puis concave. Si la forme f3 est nette avec un R2' élevé, elle est suivie de F pour fort, de m si R2' est moyen et de f si R2' est faible.
- - clx+: c'est le classement des génomes à partir du tableau cds-cds.11, d'abord avec R2' puis f3. Dans la classe a les génomes ont un minimum et de forme S. Dans la classe b les génomes sont réguliers et de forme tilde. Dans la classe c les génomes ont un mmaximum et de forme tilde sauf pour bsu dont la forme Sf (R2' 18) très faible peut être confondue avec un tilde. Ce classement est reporté tel quel dans les autres tableaux.
cds-cds-d. Diagrammes 400 des intercalaires cds-cds.
cds-cds.11 Intercalaires positifs discontinus. Fréquences Sx+ 1-400
|
|
Polynome de d°3 |
|
|
|
|
gen |
m50x |
-7 |
-5 |
R2 |
flex x+ |
R2’ |
eff |
f3 |
clx+
|
rru |
min 50 |
-13 |
90 |
818 |
231 |
20 |
874 |
Sf |
6 b1
|
rtb |
max 80 |
45 |
-332 |
496 |
246 |
191 |
118 |
tF |
14 c3
|
pub |
min 20 |
-58 |
495 |
853 |
284 |
249 |
218 |
SF |
1 a1
|
cvi |
max 70 |
29 |
-174 |
611 |
200 |
30 |
1008 |
tf |
8 b2
|
ade |
min 50 |
-20 |
145 |
782 |
242 |
39 |
1229 |
Sf |
5 b1
|
ant |
min 50 |
-25 |
209 |
680 |
279 |
70 |
601 |
Sm |
4 a2
|
eco |
max 50 |
22 |
-151 |
532 |
230 |
43 |
1003 |
tm |
11 c2
|
spl |
max 80 |
47 |
-333 |
611 |
236 |
336 |
1071 |
tF |
16 c5
|
bsu |
max 40 |
-6.4 |
69 |
458 |
359 |
18 |
1028 |
Sf |
9 c1
|
pmq |
régulier |
31 |
-283 |
878 |
304 |
813 |
1614 |
tF |
19 d2
|
cbn |
max 50 |
16 |
-109 |
454 |
227 |
27 |
489 |
tf |
10 c1
|
cbei |
régulier |
32 |
-258 |
712 |
269 |
708 |
946 |
tF |
18 d2
|
afn |
max 4-14 |
29 |
-227 |
486 |
261 |
183 |
328 |
tF |
15 c4
|
ase |
max 70 |
19 |
-108 |
872 |
189 |
25 |
2398 |
tf |
7 b2
|
blo |
régulier |
33 |
-233 |
728 |
235 |
138 |
448 |
tF |
21 d3
|
mja |
min 50 |
-16 |
150 |
660 |
313 |
78 |
406 |
Sm |
3 a2
|
mba |
régulier |
4.9 |
-71 |
350 |
483 |
348 |
705 |
tF |
17 d1
|
myr |
max 70 |
33 |
-213 |
708 |
215 |
68 |
828 |
tm |
12 c2
|
pmg |
min 40 |
-67 |
515 |
607 |
256 |
179 |
559 |
SF |
2 a1
|
abra |
max 50 |
53 |
-314 |
734 |
197 |
96 |
256 |
tF |
13 c3
|
scc |
régulier |
30 |
-200 |
690 |
222 |
71 |
416 |
tm |
20 d3
|
|
cds-cds.21 Intercalaires positifs continus. Fréquences Sc+ 1-400
|
|
Polynome de d°3 |
|
|
|
gen |
m50c |
-7 |
-5 |
R2 |
flex c+ |
R2’ |
eff |
clx+
|
rru |
50 |
-34 |
275 |
878 |
270 |
139 |
2056 |
6 b1
|
rtb |
50 |
-36 |
279 |
569 |
258 |
82 Sm |
402 |
14 c3
|
pub |
50 |
-236 |
1732 |
559 |
245 |
338 |
537 |
1 a1
|
cvi |
50 |
-44 |
372 |
852 |
282 |
203 |
2320 |
8 b2
|
ade |
50 |
-61 |
489 |
843 |
267 |
232 |
2242 |
5 b1
|
ant |
40 |
-135 |
1021 |
664 |
252 |
306 |
1616 |
4 a2
|
eco |
50 |
-74 |
565 |
805 |
255 |
265 |
2130 |
11 c2
|
spl |
50 |
-47 |
363 |
806 |
257 |
192 |
2215 |
16 c5
|
bsu |
50 |
-41 |
352 |
790 |
286 |
173 |
2444 |
9 c1
|
pmq |
70 |
-29 |
229 |
946 |
263 |
140 |
4164 |
19 d2
|
cbn |
50 |
-50 |
394 |
855 |
263 |
203 |
1701 |
10 c1
|
cbei |
50 |
-46 |
338 |
779 |
245 |
213 |
3399 |
18 d2
|
afn |
50 |
-95 |
712 |
722 |
250 |
297 |
1323 |
15 c4
|
ase |
50 |
-43 |
352 |
910 |
273 |
216 |
3558 |
7 b2
|
blo |
40 |
-5.7 |
69 |
868 |
404 |
41 Sf |
993 |
21 d3
|
mja |
50 |
-94 |
719 |
856 |
255 |
319 |
1047 |
3 a2
|
mba |
50 |
-50 |
359 |
823 |
239 |
287 |
1651 |
17 d1
|
myr |
50 |
-94 |
717 |
742 |
254 |
290 |
2081 |
12 c2
|
pmg |
60 |
-107 |
844 |
869 |
263 |
368 |
895 |
2 a1
|
abra |
60 |
-99 |
750 |
702 |
253 |
277 |
934 |
13 c3
|
scc |
60 |
-86 |
660 |
830 |
256 |
331 |
961 |
20 d3
|
|
cds-cds.12 Intercalaires positifs discontinus. Fréquences Sx+ 31-400
|
|
Polynome de d°3 |
|
|
|
|
gen |
teff |
-7 |
-5 |
R2 |
flex x+ |
R2’ |
eff3 |
f3 |
clx+
|
rru |
3786 |
12 |
-97 |
833 |
269 |
36 |
726 |
tf |
6 b1
|
rtb |
793 |
|
|
|
|
|
|
|
14 c3
|
pub |
1307 |
-49 |
437 |
918 |
297 |
256 |
149 |
SF |
1 a1
|
cvi |
4282 |
|
|
|
|
|
|
|
8 b2
|
ade |
4464 |
32 |
-228 |
874 |
238 |
67 |
958 |
tm |
5 b1
|
ant |
3095 |
60 |
-400 |
785 |
222 |
112 |
432 |
tF |
4 a2
|
eco |
4024 |
|
|
|
|
|
|
|
11 c2
|
spl |
4213 |
|
|
|
|
|
|
|
16 c5
|
bsu |
4216 |
48 |
-359 |
861 |
249 |
167 |
645 |
tF 51 |
9 c1
|
pmq |
7223 |
|
|
|
|
|
|
|
19 d2
|
cbn |
2493 |
|
|
|
|
|
|
|
10 c1
|
cbei |
5623 |
|
|
|
|
|
|
|
18 d2
|
afn |
2039 |
|
|
|
|
|
|
|
15 c4
|
ase |
8197 |
|
|
|
|
|
|
|
7 b2
|
blo |
1773 |
|
|
|
|
|
|
|
21 d3
|
mja |
1729 |
47 |
-300 |
711 |
213 |
88 |
309 |
tF |
3 a2
|
mba |
3943 |
|
|
|
|
|
|
|
17 d1
|
myr |
3555 |
|
|
|
|
|
|
|
12 c2
|
pmg |
1800 |
23 |
-124 |
774 |
180 |
48 |
377 |
tm |
2 a1
|
abra |
1667 |
|
|
|
|
|
|
|
13 c3
|
scc |
1805 |
|
|
|
|
|
|
|
20 d3
|
|
cds-cds.22 Intercalaires positifs continus. Fréquences Sc+ 31-400
|
|
Polynome de d°3 |
|
|
|
gen |
f3 |
-7 |
-5 |
R2 |
flex c+ |
R2’ |
eff3 |
clx+
|
rru |
tm |
13 |
-61 |
957 |
156 |
41 |
1509 |
6 b1
|
rtb |
tF |
70 |
-478 |
788 |
228 |
190 |
284 |
14 c3
|
pub |
SF |
-48 |
403 |
945 |
280 |
365 |
200 |
1 a1
|
cvi |
tF |
5.3 |
22 |
915 |
-138 |
107 |
1621 |
8 b2
|
ade |
tF |
2.5 |
38 |
957 |
-507 |
103 |
1490 |
5 b1
|
ant |
tF |
4.8 |
28 |
888 |
-194 |
142 |
833 |
4 a2
|
eco |
tm |
7.6 |
-18 |
934 |
79 |
61 |
1389 |
11 c2
|
spl |
tf |
10.3 |
-50 |
915 |
162 |
30 |
1618 |
16 c5
|
bsu |
tF |
12 |
-27 |
954 |
75 |
104 |
1424 |
9 c1
|
pmq |
Sm |
-13 |
112 |
937 |
287 |
51 |
3257 |
19 d2
|
cbn |
tm |
8.8 |
-32 |
932 |
121 |
41 |
1171 |
10 c1
|
cbei |
Sf |
-13 |
15 |
935 |
38 |
8 |
2571 |
18 d2
|
afn |
tm |
9.5 |
-42 |
904 |
147 |
45 |
791 |
15 c4
|
ase |
SF |
-18 |
182 |
976 |
337 |
149 |
2619 |
7 b2
|
blo |
tf |
28 |
-174 |
897 |
207 |
36 |
786 |
21 d3
|
mja |
SF |
-6.2 |
87 |
964 |
468 |
105 |
623 |
3 a2
|
mba |
SF |
-6.7 |
100 |
789 |
495 |
209 |
2156 |
17 d1
|
myr |
tF |
7.8 |
-12 |
897 |
51 |
86 |
1265 |
12 c2
|
pmg |
SF |
-35 |
327 |
973 |
311 |
286 |
510 |
2 a1
|
abra |
tF |
21 |
-104 |
912 |
165 |
85 |
548 |
13 c3
|
scc |
SF |
-17 |
162 |
949 |
318 |
162 |
622 |
20 d3
|
|
- Diagrammes 400 note: Cette note analyse le tableau des diagrammes 400 et son annexe des corrélations et faibles fréquences.
- Classement: J’ai classé les 21 génomes suivant la pente des fréquences faibles des x+ de 1 à 30 pbs et suivant la forme de leurs diagrammes après la fréquence 30. J'ai obenu 4 groupes a b c d.
- Le groupe a: La pente des fréquences faibles est fortement négative et aboutit au minimum local d'abscisse 40 50. Il n'y a pas de maximum local supérieur à celui des faibles fréquences au-delà de ce minmum. La forme des 4 polynomes de d°3 sont tous de forme S, de force supérieure à 70, égale à la différence R2', R2 polynome moins R2 droite. Ce sont les génomes pub pmg mja ant. Les 2 1ers sont de forme S forte et les autres de forme S moyenne. Les génomes mja et ant ont un maximum à la fréquence 10 avec les taux respectifs de 121 et 136 ‰ et le maximum local à la fréquence 90 avec respectivement 69 et 58 ‰. Leur taux total des 1-30 ‰ sont respectivement 239 et 281 ‰ bien plus faibles que ceux de pub et pmg avec 317 et 326.
- Le groupe b: Ce sont dans l'ordre ade rru ase cvi. Ils présentent tous un minimum local vers 40-50 après une forte pente négatve comme le groupe a. Je les présentent ici comme mja et ant, fréquence du maximum des faibles suivie de son taux puis fréquence du maximum local au-delà du minimum des faibles suivie de son taux puis total du taux des faibles (1-30‰) puis la forme S ou tilde du diagramme suivi de sa force:
- - groupe a2, mja 10-121 90-69 239 Sm78, ant 10-136 90-58 281 Sm70.
- - groupe b1, ade 20-85 80-48 221 Sf39, rru 30-58 110-43 169 Sf20.
- - groupe b2, ase 10-59 70-57 135 tf25, cvi 10-62 70-91 112 tf30.
- + Note: dans la colonne m50x j'ai mis un minimum pour les b1 qui correspond au local 40-50 et un maximum pour les b2 qui ont aussi un minimum local à 40-50 mais leur maximum à 70 dépasse ou égalise celui des faibles. Ensuite les b2 changent de forme en passant du Sf des b1 au tf. Les formes faibles peuvent être rassemblées parce que très proches les unes des autres, il suffit d'un petit changement dans les effectifs pour passer de l'une à l'autre.
- Le groupe c: Ils sont caractérisés par un taux 1-30 ‰ très faible, inférieur à 71 ou par une pente positive des faibles, comme bsu et abra, quand le taux est élevé respectivement, 140 et 94 ‰. A ces taux très bas des fréquences faibles sont associés des pyramides à 3 ou 4 fréquences supérieures ou égales à 40 avec des taux maximum. Le groupe c est classé par la forme du diagramme dans l'ordre croissant Sf tf tm tF et non par la différence R2' entre le R2 du polynome et le R2 de la droite. R2' n'est pas adéquat pour ordonner la totalité des 21 génomes car il ne peut distinguer entre une forme S et une forme t, il ne représente que la force de la forme. Ainsi les ruptures naturelles apparaissent quand on change de forme, entre rru Sf et ase tf, entre cvi tf et bsu Sf et entre pmq tF et scc tm. Dans ce dernier cas la rupture est due au changement du classement de scc et blo (en gras) basé sur le taux élevé des fréquences faibles, 1-30 ‰, au lieu d'être nul comme pour les autres de la classe d. J'interprête scc et blo comme ayant leur pyramide à la fréquence 20, cad que les fréquences 10 et 30 ont des taux élevés aussi, ce qui les rend aussi réguliers comme mba cbei pmq. J'ai provoqué volontairement une seule rupture, celle entre rtb et afn, qui sont tous les 2 tF, mais afn se distingue par 2 pyramides au lieu d'une seule.
- - groupe c1, bsu cbn. Pyramide à 40 et 50. Taux 1-30 ‰ fort pour bsu à 140 mais avec une pente des 1-30 positive, taux faible pour cbn à 65 ‰. Le R2' est très faible, respectivement 18 Sf et 27 tf.
- - groupe c2, eco myr. Pyramide à 50 et 70. Taux 1-30 ‰ faibles 63 et 71 ‰. Le R2' est moyen, tm, respectivement 43 et 68.
- - groupe c3, abra rtb. Pyramide à 50 et 80. Taux 1-30 ‰ fort pour abra à 94 mais avec une pente des 1-30 positive, taux faible pour rtb à 51 ‰. Le R2' est fort, tF, respectivement 96 et 191.
- - c4 afn. Caractérisé par 2 pyramides à 40 et 140 au taux de 64 ‰ alternant avec 2 trous à 70 et 180 avec des taux très faibles, respectivement 15 et 6 ‰. Taux 1-30 ‰ faible 46 et R2' fort tF de 193.
- - c5 spl. Caractérisé par une pyramide à 80 et une forme régulière comme le groupe d puisque le passage de la fréquence 30 à 80 se fait doucement au contraire de tous les autres génomes du groupe c. Taux 1-30 ‰ faible 37 et un R2' le plus fort du groupe, tF, de 336 juste avant le 348 de mba du groupe d régulier, ce qui confirme sa régularité.
- Le groupe d: se caractérise par une abscence de pyramide et une progression lente de la fréquence 10 à la fréquence du maximum.
- - d1 mba. Il se caractérise par des déterminants du polynome et de la droite très faibles, 350 et 2, d'où le R2' de 348. Ceci est du au reste très élevé des effectifs au-delà de 400, 527 contre 705 pour 1-400. Le diagramme de 1 à 600 donne des valeurs plus conséquentes, respectivement, 465 156 309, avec un reste de 295 contre 937 pour 1-600. Ce dernier diagramme améliore le point d'inflexion qui devient normal avec un effectif de 354 pour 4823 sur 1-400. Le génome associe une forme tilde forte de 309, qui dénote sa régularité, tout en ayant un R2 très faible de 465 qui dénote une grande variabilité au contraire de cbei, qui a aussi un reste élevé au-delà de la fréquence 400, mais un R2' de 708 et un R2 de 712 sur 1-400 et 783 sur 1-600. Taux 1-30 ‰ faible de 45 seulement.
- - groupe d2, cbei pmq. Ils vont de pair, clostridia bacilli, comme pour le groupe c1 de cbn bsu, mêmes clades. Ces 2 paires se distinguent par leurs effectifs doubles en d2 par rapport à c1, respectivement, 946 1614 contre 489 1028. Alors que les c1 ont une pyramide chacun, les d2 n'en ont pas et sont réguliers avec des R2 élevés 712 878 contre 454 458. De même pour R2' qui passent de tF 708 813 à tf 27 pour cbn et Sf 18 pour bsu. Mais les taux 1-30 ‰ sont tous faibles sauf pour bsu qui a une pente positive, respectivement, 26 32 et 65 140.
- - groupe d3, scc blo. J'ai regroupé ces 2 génomes avec le groupe d à cause de leur régularité mais leurs taux 1-30 ‰ sont forts 118 89, non pas à cause d'une pente positive comme bsu et abra, mais parce que blo a une pyramide à 10 et scc à 30. C'est ce qui donne l'impression de régularité avec un R2 moyen, 690 728, malgré un R2' faible pour scc, tm 71 et fort pour blo, tF 138.
- mnemo
- - forme: Classement par la forme de la courbe, à la place du classement génomique par la pente a37 de la droite. L'utilisation du polynôme de d°3 sert à repérer un renflement après le minimum local des diagrammes c+ 1-400. J'obtiens alors les diagrammes c+ 31-400 que je peux comparer à ceux de x+ 31-400. Les diagrammes c+ 40 montrent la préférence de certaines longueurs autour de 12 pbs pour les contrôles des gènes. C'est dans les diagrammes 31-400 qu'on peut deviner qu'il y a d'autres séquences privilégiées pour d'autres types de contrôle, cela se présente par des pointes au niveau des renflements mais ne désigne pas une fréquence déterminée parce que les abscisses sont des plages de 10 fréquences.
- + détailler chaque classe et comparer les classes.
- - formes du tableau 22, c+31-400: Les c+1-400 sont toutes S, sur ce tableau 8 conservent cette forme, mja pmg pub scc mba pmq ase et cbei avec un R2' de 8, les 13 autres génomes sont de forme tilde. Le taux des x+ sont nettement améliorés dans les diagrammes 31-400 par rapport à celui des 1-400. Et avec la forme tilde chez 13/21 de 31-400, ceci montre que c+ apporte aussi des renflements comme les x+.
- - Le classement effectué lors de l'étude des pentes a37 et fait sur les 3 critères suivants:
- + in%, %positifs/total ADN
- + moy, moyenne des fréquences sur 0-200
- + rap, rapport des totaux des fréquences 10-370/0-100
- + a donné l'équivalent des classes a b c d des formes x+1-400, suivant l'ordre du critère moy: à la classe inférieure de a37, pub pmg ant mja correspond la classe a, pub pmg ant mja; à la classe supérieure de a37, myr rtb spl - cbei mba blo pmq, correspondent les classes c - d, myr rtb spl - mba cbei pmq blo; à la classe intermédiaire de a37, rru ase cvi ade - eco bsu cbn afn - scc, correspondent, respectivement, la classe b ade rru ase cvi, la classe c bsu cbn eco afn et la classe d avec scc.
- - bornes: pourquoi la plage de 1 à 400, alors que j'ai étudié 1 à 600 pour les courbes puissances, 1 à 370 pour le classement génomique? Au delà de 400 le profile ne change pas et 400 est la plupart du temps un intercalaire cds-rRNA23.
- - statistiques: Les diagrammes 400 ne cherchent pas à définir une statistique mais juste à nommer et comparer 2 génomes avec le signe du coefficient de x3 (forme S ou tilde), R2' obtenu en faisant la différence de R2 du polynôme avec celui de la droite et enfin le point d'inflexion du polynôme. Les diagrammes d'un génome reflète une organisation de l'ADN qui devrait restée la même de génération en génération. Ceci est à confirmer en analysant plusieurs séquençages puisque j’ai pu constater avec bsu et lmo que les intercalaires entre gènes de tRNA varient beaucoup entre les 2 génomes alors que les clusters des gènes rRNA et tRNA ont la même configuration.
- - corrélations: Une forte corrélation c+/x+ indique que le changement de brin pour constituer le complément ne modifie la longueur des intercalaires, une corrélation nulle qu'il y a beaucoup de modifications et une corrélation fortement négative que le processus de changement de brin prélève un intercalaire cds-cds en continu et le met en discontinu.
- - Conséquences pour les clusters rRNA-tRNA, intercalaires tRNA-cds et cds-rRNA23
- - au départ les cumuls des intercalaires tRNA-cds par génome, et recherche de cds intra cluster rRNA-tRNA.
- - comparaison entre 2 génomes semblables: rru ade rtb cvi pub seul cvi ase ade pmg ant ade eco cbn spl myr bsu eco pmq cbei cbn cvi cbei afn afn rtb ase pmg blo abra mja pmg mba cbei myr abra pmg pub abra pmg scc ase.
Les fréquences des intercalaires positifs cds-cds. Corrélations 400 et faibles fréquences
modifier
- Lien tableur: Les fréquences des intercalaires positifs cds-cds. Corrélations 400 et faibles fréquences.
- Légende: ces tableaux sont la suite de ceux des diagrammes 400, cds-cds.11 12 21 22.
- - gen: pour génome. Le 1er tableau cds-cds.31 pointe sur le génome au chapitre "gen intercalaires positifs S+". Au lien du tableur de ce dernier se trouvent les effectifs, dont eff eff3 teff de ces diagrammes 400. Le total eff représente le total de la fréquence 1 à 400 (cds-cds.11 et 21), eff3 de 31 à 400 (cds-cds.12 et 22) et de 51 à 400 pour bsu (colonne f3, tF51) et teff le total du génome, positifs, zéros et négatifs compris. Le total teff est la somme des 2 colonnes x et c du tableau cds-cds.32 sous la rubrique teff. Le x+ correspond aux diagrammes des discontinus et le c+ aux continus. La colonne "gen de cds-cds.11" pointe sur la fiche du génome pour ses diagrammes. La colonne "gen de cds-cds.32" pointe sur son diagramme 40 de la fréquence 1 à 40, voir le tableau synthétique des diagrammes 40 des cds-cds positifs continus.
- - pour les corrélations du tableau cds-cds.31 et les fréquences faibles du tableau cds-cds.32, voir la légende de cvi.
- - clx+: c'est le classement des génomes à partir du tableau cds-cds.11, d'abord avec R2' puis f3. Dans la classe a les génomes ont un minimum et de forme S. Dans la classe b les génomes sont réguliers et de forme tilde. Dans la classe c les génomes ont un mmaximum et de forme tilde sauf pour bsu dont la forme Sf (R2' 18) très faible peut être confondue avec un tilde. Ce classement est reporté tel quel dans les autres tableaux.
- Calculs des corrélations: Le coefficient de corrélation est fait avec LibreOffice calc sur les colonnes fx fc des effectifs du lien du génome, de la ligne 50 à ligne n ce qui va de la fréquence 41 à n, avec n égale 200 250 400 600. Les colonnes effectifs ici correspondent à la ligne diagr de fx et fc. Les références à ce tableau utilisent surtout la colonne 250.
- - J’ai fait les corrélations pour les 21 génomes entre c+/x+ 41-400, 41-250 et 41-200. Avec 41-400 les corrélations peuvent être très fortes car elles font intervenir la queue de la courbe où les effectifs sont faibles et la distance par rapport à la discontinuité direct/complement est si grande que le mécanisme de formation a peu d’influence. Avec 41-200 le nombre de points de comparaison, de 16, est faible. Aussi j’utilise les corrélations entre c+/x+ 41-250 avec 21 lignes de comparaison. Il y a ainsi 13 génomes faiblement corrélés ou carrément anti corrélés avec un coefficient inférieur à 0.611 et 8 fortement corrélés avec un coefficient supérieur à 0.758.
cds-cds-c. Diagrammes 400 des intercalaires cds-cds. Corrélations et faibles fréquences.
cds-cds.31 Intercalaires positifs. Diagrammes 400. Corrélations x+/c+.
|
eff |
Corrélations |
|
|
gen |
x+ |
c+ |
41-250 |
41-200 |
diff |
1-250 |
mini |
clx+
|
rru |
874 |
2056 |
611 |
193 |
418 |
792 |
min40 |
6 b1
|
rtb |
118 |
402 |
148 |
-105 |
253 |
-165 |
min30 |
14 c3
|
pub |
218 |
537 |
883 |
857 |
26 |
852 |
min20 |
1 a1
|
cvi |
1008 |
2320 |
891 |
858 |
33 |
549 |
min30 |
8 b2
|
ade |
1229 |
2242 |
758 |
624 |
134 |
897 |
min50 |
5 b1
|
ant |
601 |
1616 |
538 |
271 |
267 |
886 |
min40 |
4 a2
|
eco |
1003 |
2130 |
440 |
296 |
144 |
-64 |
min20 |
11 c2
|
spl |
1071 |
2215 |
784 |
735 |
49 |
-202 |
min10 |
16 c5
|
bsu |
1028 |
2444 |
282 |
8 |
274 |
257 |
min10 |
9 c1
|
pmq |
1614 |
4164 |
-651 |
-832 |
181 |
-825 |
min10 |
19 d2
|
cbn |
489 |
1701 |
508 |
548 |
-40 |
-112 |
min20 |
10 c1
|
cbei |
946 |
3399 |
-377 |
-510 |
133 |
-646 |
min10 |
18 d2
|
afn |
328 |
1323 |
101 |
-26 |
127 |
-407 |
min10 |
15 c4
|
ase |
2398 |
3558 |
940 |
922 |
18 |
725 |
min40 |
7 b2
|
blo |
448 |
993 |
537 |
406 |
131 |
255 |
min20 |
21 d3
|
mja |
406 |
1047 |
571 |
326 |
245 |
857 |
min30 |
3 a2
|
mba |
705 |
1651 |
-221 |
-330 |
109 |
-477 |
min10 |
17 d1
|
myr |
828 |
2081 |
764 |
649 |
115 |
41 |
min20 |
12 c2
|
pmg |
559 |
895 |
802 |
728 |
74 |
915 |
min40 |
2 a1
|
abra |
256 |
934 |
797 |
716 |
81 |
59 |
min10 |
13 c3
|
scc |
416 |
961 |
530 |
440 |
90 |
49 |
min10 |
20 d3
|
|
cds-cds.32 Intercalaires positifs. Diagrammes 400. Faibles fréquences.
|
1-30 ‰ |
teff |
0 ‰ |
<0 ‰ |
eff40 |
corel40 |
classe
|
gen |
x+ |
c+ |
x+/c+ |
x |
c |
x |
c |
x- |
c- |
x+ |
c+ |
x+/c+ |
clx+
|
rru |
169 |
266 |
0.64 |
1037 |
2749 |
1 |
4 |
71 |
222 |
175 |
630 |
17 |
6 b1
|
rtb |
51 |
294 |
0.17 |
189 |
604 |
5 |
7 |
21 |
162 |
8 |
131 |
-81 |
14 c3
|
pub |
317 |
628 |
0.50 |
327 |
980 |
40 |
59 |
281 |
389 |
88 |
367 |
715 |
1 a1
|
cvi |
112 |
301 |
0.37 |
1171 |
3111 |
4 |
3 |
59 |
221 |
130 |
815 |
582 |
8 b2
|
ade |
221 |
335 |
0.66 |
1412 |
3052 |
8 |
6 |
72 |
234 |
304 |
876 |
459 |
5 b1
|
ant |
281 |
485 |
0.58 |
714 |
2381 |
13 |
24 |
116 |
285 |
186 |
836 |
575 |
4 a2
|
eco |
63 |
348 |
0.18 |
1169 |
2855 |
11 |
6 |
80 |
226 |
126 |
821 |
-119 |
11 c2
|
spl |
37 |
270 |
0.14 |
1313 |
2900 |
1 |
6 |
9 |
143 |
69 |
683 |
-342 |
16 c5
|
bsu |
140 |
333 |
0.42 |
1125 |
3091 |
2 |
8 |
31 |
186 |
302 |
936 |
-432 |
9 c1
|
pmq |
32 |
218 |
0.15 |
1927 |
5296 |
3 |
5 |
22 |
140 |
68 |
1156 |
-207 |
19 d2
|
cbn |
65 |
312 |
0.21 |
553 |
1940 |
2 |
5 |
17 |
86 |
56 |
620 |
-382 |
10 c1
|
cbei |
26 |
244 |
0.11 |
1219 |
4404 |
0 |
4 |
9 |
88 |
35 |
954 |
272 |
18 d2
|
afn |
46 |
402 |
0.11 |
350 |
1689 |
6 |
5 |
11 |
179 |
36 |
580 |
-369 |
15 c4
|
ase |
135 |
264 |
0.51 |
3031 |
5166 |
7 |
3 |
116 |
252 |
389 |
1165 |
346 |
7 b2
|
blo |
89 |
208 |
0.43 |
518 |
1255 |
4 |
1 |
35 |
167 |
54 |
241 |
-109 |
21 d3
|
mja |
239 |
405 |
0.59 |
495 |
1234 |
20 |
9 |
113 |
132 |
113 |
474 |
502 |
3 a2
|
mba |
45 |
214 |
0.21 |
1255 |
2688 |
1 |
8 |
18 |
114 |
51 |
428 |
-74 |
17 d1
|
myr |
71 |
392 |
0.18 |
999 |
2556 |
5 |
5 |
20 |
110 |
97 |
899 |
-78 |
12 c2
|
pmg |
326 |
430 |
0.76 |
692 |
1108 |
16 |
31 |
137 |
143 |
196 |
449 |
703 |
2 a1
|
abra |
94 |
413 |
0.23 |
279 |
1388 |
4 |
9 |
29 |
295 |
41 |
420 |
-243 |
13 c3
|
scc |
118 |
353 |
0.33 |
485 |
1320 |
4 |
5 |
58 |
242 |
60 |
389 |
-177 |
20 d3
|
|
- Note:
- - corrélations fortes
- - ade cvi ase min40 les corrélations sont élevées et constantes ade Sf39 ase tf25 cvi tf30
- - pmg pub idem mais SF
- - myr abra spl corrélations fortes mais nulles avec 1-30 myr tm68 abra tF96 spl tF336. Donc myr est à la limite des tF parce que avant eco tm43
- - corrélations 500
- + rru ant mja S 20 70 78
- + scc blo t 71 138
- + cbn eco t 27 43
- - corrélations faibles
- + bsu afn rtb 282 148 101 Sf18 tF328 tF118
- - corrélations négatives
- + mba cbei pmq 221 377 651 tF > 348
- - Les fréquences faibles
- + Classe a: Par la construction de la classe a le rapport x+/c+ de leurs fréquences faibles est très élevé compris entre 0.50 et 0.76. Les taux des zéros suivent avec un maximum de 99 ‰ pour pub, puis 47 37 29 pour pmg ant mja
- + Classe b: Se comporte comme la classe a pour le rapport x+/c+, très élevé 0.66 0.64 0.51 pour ade rru ase, seul cvi descend à 0.37. Par contre les zéros ne suivent pas, leurs taux sont inférieurs à 14 ‰ (ade) contre 29 ‰ pour le plus bas de la classe a, et descendent jusqu'à 5 ‰ pour rru.
- + Classe c: Les x+/c+ sont tous faibles, inférieurs à 0.23 sauf pour bsu avec 0.42 mais qui s'explique par la pente positive des 1-30. Les zéros ne suivent pas, tous inférieurs à 17 ‰ (eco) et 2 sur 8 ont 7 ‰, cbn et spl.
- + Classe d: Les sous classes d1 d2 se comportent comme les c1 puisqu'ils des taux des fréquences 1-30 peu élevé comme eux. Le rapport x+/c+ est inférieur à 0.21 et les zéros ne suivent pas, moins de 9 ‰. La sous classe d3 se comporte comme la sous classe b2 avec des rapports x+/c+ équivalents, 0.43 0.33 contre 0.51 0.37 pour b2. La différence avec b2 c'est que les 1-30 constituent une pyramide alors que celles de b2 sont sur une pente négative. Pour les d3 et b2 les zéros ne suivent pas, moins de 10 ‰.
Les fréquences des intercalaires positifs cds-cds. Taux des x+ dans les diagrammes 400
modifier
- Lien tableur: Les fréquences des intercalaires positifs cds-cds. Taux des x+ dans les diagrammes 400.
- Légende: Les effectifs x+ et c+ des 1-400 (x+% 1) sont les colonnes eff des tableaux 11 et 21 des diagrammes 400. Ceux des 31-400 (x+% 31) sont les colonnes eff3 des tableaux 12 et 22. Pour les génomes n'ayant pas de 31-400 voir leur tableur au paragraphe des effectifs (derrière ligne, t30) en point sur le lien de la colonne gen du tableau 11. Les effectifs x+ et c+ des totaux (x+% t) sont extraits du tableau des positifs et négatifs.
- Note:
- - colonne t-1, différence des taux calculés sur le total et non de la fréquence 1-400. Les génomes rtb et mba ont beaucoup d'intercalaires supérieurs à 400, voir leurs fiches.
- - colonne 31-1, différence des taux calculés sur les fréquences 1-400 et 31-400: Le génome pub a la différence la plus élevée parce que le taux de x+1 est affaibli par les faibles fréquences et notamment les zéros, voir sa fiche. En 31-400 il se comporte comme pmg de la même classe a3, mais aussi comme ase et eco. Après pub ce sont les classes c2 et c3 qui sont affaiblies par les fréquences faibles, différence 31-1 de 8.2 à 9.3.
cds-cds-t.23 Diagrammes 400 des intercalaires cds-cds. Taux des x+
gen |
x+ |
c+ |
%x+ 1 |
x+ |
c+ |
%x+ 31 |
x+ |
c+ |
%x+ t |
t-1 |
31-1 |
clx+
|
rru |
874 |
2056 |
30 |
726 |
1509 |
32 |
972 |
2131 |
31 |
1.5 |
2.7 |
6 b1
|
rtb |
118 |
402 |
23 |
112 |
284 |
28 |
189 |
505 |
27 |
4.5 |
5.6 |
14 c3
|
pub |
218 |
538 |
29 |
149 |
200 |
43 |
239 |
595 |
29 |
-0.2 |
13.9 |
1 a1
|
cvi |
1008 |
2320 |
30 |
895 |
1621 |
36 |
1115 |
2410 |
32 |
1.3 |
5.3 |
8 b2
|
ade |
1229 |
2242 |
35 |
958 |
1490 |
39 |
1320 |
2325 |
36 |
0.8 |
3.7 |
5 b1
|
ant |
601 |
1616 |
27 |
432 |
833 |
34 |
639 |
1694 |
27 |
0.3 |
7.0 |
4 a2
|
eco |
1003 |
2130 |
32 |
940 |
1389 |
40 |
1076 |
2210 |
33 |
0.7 |
8.3 |
11 c2
|
spl |
1071 |
2215 |
33 |
1031 |
1618 |
39 |
1304 |
2482 |
34 |
1.8 |
6.3 |
16 c5
|
bsu |
1028 |
2444 |
30 |
884 |
1629 |
35 |
1092 |
2513 |
30 |
0.7 |
5.6 |
9 c1
|
pmq |
1614 |
4164 |
28 |
1562 |
3257 |
32 |
1893 |
4535 |
29 |
1.5 |
4.5 |
19 d2
|
cbn |
489 |
1701 |
22 |
457 |
1171 |
28 |
543 |
1776 |
23 |
1.1 |
5.7 |
10 c1
|
cbei |
946 |
3399 |
22 |
921 |
2571 |
26 |
1213 |
4011 |
23 |
1.4 |
4.6 |
18 d2
|
afn |
328 |
1323 |
20 |
313 |
791 |
28 |
349 |
1386 |
20 |
0.2 |
8.5 |
15 c4
|
ase |
2398 |
3558 |
40 |
2072 |
2619 |
44 |
2726 |
3819 |
42 |
1.4 |
3.9 |
7 b2
|
blo |
448 |
993 |
31 |
408 |
786 |
34 |
502 |
1044 |
32 |
1.4 |
3.1 |
21 d3
|
mja |
406 |
1047 |
28 |
309 |
623 |
33 |
447 |
1063 |
30 |
1.7 |
5.2 |
3 a2
|
mba |
705 |
1651 |
30 |
673 |
1297 |
34 |
1237 |
2378 |
34 |
4.3 |
4.2 |
17 d1
|
myr |
828 |
2081 |
28 |
769 |
1265 |
38 |
981 |
2270 |
30 |
1.7 |
9.3 |
12 c2
|
pmg |
559 |
895 |
38 |
377 |
510 |
43 |
604 |
942 |
39 |
0.6 |
4.1 |
2 a1
|
abra |
256 |
934 |
22 |
232 |
548 |
30 |
273 |
977 |
22 |
0.3 |
8.2 |
13 c3
|
scc |
416 |
961 |
30 |
367 |
622 |
37 |
462 |
993 |
32 |
1.5 |
6.9 |
20 d3
|
Les fréquences des intercalaires cds-cds positifs continus. Diagrammes 40
modifier
- Lien tableur: Les fréquences des intercalaires cds-cds positifs continus. Diagrammes 40.
- Diagrammes: pro pro1 bac bac1 pr-bc1 total Les données.
- Légende:
- - ase: mini3, tous les modulos 3 de 6 à 33 sont des minina locaux.
- - pub: Sa courbe de tendance est comme celle du diagramme Sc+ 400, un polynôme de d° 3 avec un R2 de 899 et un coefficient de la variable x3 de -0.0039 donc de forme S.
- - Les polynômes de d° 15: sont propres aux fc40 et présentent un creux brutal à l'abscisse 7 environ, min1 et de coordonnée min, suivi d'un sommet élevé d'abscisse max1 et de coordonnée max. La pente entre ces 2 points varie peu d'un génome à l'autre avec une moyenne de 7.8 et un écart de 2.4 (m/e=3.2). Sont écartés de cette moyenne blo rtb et pub. Le génome ant présente un max très élevé, ramené à l'abscisse 10 au lieu de 9 son ordonnée baisse à 48 au lieu de 88 pour l'abscisse 9 et la pente devient moyenne comme pour les autres génomes à 11.3. L'autre versant du creux est aussi abrupt de pente pente0, avec un sommet élevé d'abscisse mx1 et de coordonnée mx.
- - type: c'est le type de courbe de tendance, pro ou pr pour proteobacteria, bac ou bc pour les bacilli et les clostridia.
- - R2: coefficient de détermination de la courbe de tendance.
cds-cds.2 Intercalaires cds-cds positifs continus. Diagrammes 40
Sc+ 40 |
Diagrammes polynôme de d° 15 |
|
Pourcentage des tranches de 7 fréquences |
Effectif des tranches de 7 fréquences |
|
gen |
R2 |
min1 |
max1 |
min |
max |
pente |
mx1 |
mx |
pente0 |
diagr |
type |
gen |
1-7 |
8-14 |
15-21 |
22-28 |
29-35 |
1-7 |
8-14 |
15-21 |
22-28 |
29-35 |
total
|
rtb |
721 |
5 |
8 |
2 |
7 |
1.7 |
4 |
13 |
-10.7 |
131 |
pr1 |
rtb |
39 |
27 |
18 |
10 |
6 |
48 |
33 |
22 |
13 |
8 |
124
|
pub |
981 |
6 |
8 |
13 |
13 |
0 |
2 |
58 |
-11.0 |
367 |
pr2 |
pub |
63 |
17 |
8 |
6 |
6 |
223 |
61 |
27 |
21 |
20 |
352
|
rru |
882 |
7 |
11 |
11 |
34 |
5.8 |
4 |
43 |
-11.3 |
630 |
pro1 |
rru |
32 |
28 |
13 |
15 |
11 |
191 |
167 |
78 |
86 |
66 |
588
|
cvi |
897 |
6 |
10 |
13 |
50 |
9.3 |
1 |
58 |
-9.0 |
815 |
pro |
cvi |
30 |
30 |
17 |
11 |
11 |
230 |
232 |
133 |
80 |
86 |
761
|
ade |
929 |
5 |
9 |
19 |
51 |
8.0 |
2 |
63 |
-14.7 |
876 |
pro |
ade |
30 |
32 |
15 |
12 |
11 |
247 |
267 |
122 |
95 |
93 |
824
|
ant |
923 |
7 |
9 |
14 |
88 |
37.0 |
1 |
109 |
-15.8 |
836 |
pro |
ant |
37 |
39 |
14 |
5 |
6 |
297 |
316 |
112 |
40 |
45 |
810
|
eco |
894 |
5 |
9 |
13 |
61 |
12.0 |
2 |
54 |
-13.7 |
902 |
pro |
eco |
27 |
35 |
17 |
12 |
8 |
232 |
295 |
146 |
103 |
71 |
847
|
spl |
881 |
6 |
10 |
13 |
33 |
5.0 |
2 |
53 |
-10.0 |
683 |
pro1 |
spl |
30 |
31 |
15 |
13 |
11 |
193 |
202 |
94 |
86 |
73 |
648
|
bsu |
897 |
8 |
12 |
7 |
53 |
11.5 |
1 |
41 |
-4.9 |
935 |
bac |
bsu |
22 |
25 |
28 |
15 |
11 |
189 |
220 |
245 |
128 |
96 |
878
|
pmq |
758 |
9 |
14 |
10 |
45 |
7.0 |
1 |
52 |
-5.3 |
1155 |
bac1 |
pmq |
25 |
19 |
22 |
18 |
17 |
255 |
192 |
224 |
181 |
177 |
1029
|
cbn |
891 |
8 |
12 |
9 |
32 |
5.8 |
1 |
37 |
-4.0 |
620 |
bac1 |
cbn |
23 |
24 |
23 |
18 |
12 |
134 |
136 |
133 |
101 |
67 |
571
|
cbei |
873 |
7 |
12 |
8 |
51 |
8.6 |
1 |
55 |
-7.8 |
954 |
bac |
cbei |
22 |
27 |
25 |
15 |
11 |
194 |
242 |
220 |
138 |
101 |
895
|
afn |
829 |
7 |
12 |
5 |
46 |
8.2 |
1 |
38 |
-5.5 |
580 |
bac |
afn |
25 |
30 |
26 |
13 |
7 |
138 |
167 |
143 |
71 |
37 |
556
|
ase |
827 |
6 |
10 |
28 |
67 |
9.8 |
1 |
60 |
-6.4 |
1165 |
bac-a |
ase |
29 |
28 |
15 |
12 |
16 |
307 |
298 |
158 |
131 |
166 |
1060
|
blo |
636 |
7 |
10 |
4 |
11 |
2.3 |
2 |
15 |
-2.2 |
241 |
bc1 |
blo |
28 |
23 |
22 |
17 |
10 |
62 |
52 |
50 |
37 |
23 |
224
|
mja |
670 |
6 |
9 |
4 |
32 |
9.3 |
4 |
32 |
-14.0 |
474 |
pro-a |
mja |
23 |
31 |
22 |
13 |
10 |
104 |
143 |
102 |
61 |
45 |
455
|
mba |
732 |
7 |
10 |
4 |
19 |
5.0 |
2 |
31 |
-5.4 |
428 |
bac1-a |
mba |
32 |
22 |
20 |
13 |
12 |
124 |
87 |
79 |
50 |
48 |
388
|
myr |
922 |
7 |
12 |
23 |
46 |
4.6 |
2 |
78 |
-11.0 |
899 |
pro1-a |
myr |
42 |
25 |
16 |
11 |
7 |
355 |
213 |
133 |
93 |
61 |
855
|
pmg |
776 |
7 |
9 |
10 |
27 |
8.5 |
2 |
27 |
-3.4 |
449 |
bac-b |
pmg |
35 |
25 |
16 |
12 |
11 |
146 |
105 |
65 |
50 |
46 |
412
|
abra |
895 |
7 |
12 |
4 |
33 |
5.8 |
1 |
58 |
-9.0 |
420 |
pro1 |
abra |
41 |
30 |
14 |
10 |
6 |
165 |
119 |
56 |
39 |
24 |
403
|
scc |
855 |
6 |
9 |
4 |
20 |
5.3 |
1 |
31 |
-5.4 |
389 |
bac1-b |
scc |
31 |
30 |
18 |
13 |
8 |
113 |
110 |
66 |
46 |
29 |
364
|
Les fréquences des intercalaires cds-cds positifs discontinus. Diagrammes 40
modifier
Poly 3 - -4 -4 - -
fx40 R2 x3 x2 flex f3°
rru 253 3 -289 32 t
cvi 499 3 -108 12 t
ade 443 4 -337 28 t
ant 574 -2 167 28 S
eco 646 202 -7426 18 Cc
bsu 789 7 -231 11 S
ase 315 71 -5211 37 Cc
mja 467 -4 313 26 S
pmg 831 -10 808 27 S
cds-cds.1 Intercalaires cds-cds positifs discontinus, Diagrammes 40
gen |
poly3 |
mod3 |
tot |
diagr |
note
|
rru |
253 |
5 |
12 |
175 |
|
rtb |
|
|
|
8 |
|
pub |
|
|
|
88 |
|
cvi |
499 |
8 |
11 |
130 |
|
ade |
443 |
8 |
11 |
304 |
|
ant |
574 |
1 |
9 |
186 |
|
eco |
647 |
6 |
11 |
129 |
parabole
|
spl |
|
|
|
69 |
|
bsu |
789 |
5 |
9 |
302 |
croit
|
pmq |
|
|
|
68 |
|
cbn |
|
|
|
56 |
|
cbei |
|
|
|
35 |
|
afn |
|
|
|
36 |
|
ase |
315 |
10 |
17 |
389 |
P15 611
|
blo |
|
|
|
54 |
|
mja |
467 |
4 |
12 |
113 |
|
mba |
|
|
|
51 |
|
myr |
|
|
|
97 |
|
pmg |
831 |
5 |
7 |
196 |
décroit
|
abra |
|
|
|
41 |
|
scc |
|
|
|
60 |
|
Les intercalaires tRNA-cds synthèse
modifier
- L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir cheminement de ma réflexion dans la genèse des gènes de tRNA et la référence à E.Coli dans Notes.
- Une autre idée c'est que les cds-rRna-cds sont orientés, est-ce que c'est le cas des cds-tRNA-cds aussi? Il ne faut pas oublié que les tRNAs s'auto apparient ce qui crée des contraintes lors de la gestion de l'ADN: réplication transcription réparation recombinaison et insertion des éléments mobiles contenant des tRNAs.
Les intercalaires tRNA-cds, dans les cumuls des génomes
modifier
- - Exemple de vha
- - Quand j'ai commencé à étudier les tRNAs (voir le cheminement ci-dessus) je listais séquentiellement juste les blocs de tRNAs avec ou sans rRNA, sans les cds bordant ces blocs.
- - Les caractéristiques des blocs à rRNAs m'ont poussé augmenter de plus en plus le nombre de génomes à étudier et du coup j'ai commencé à trouver des cds à l'intérieur de ces blocs. Mais souvent c'était de petites protéines hypothétiques. Le lien avec l'opéron d'E.coli associant une protéine et un tRNA devenait évident. La 1ère question qui s'est imposée à moi, alors, est: est-ce que les gènes protéiques ne seraient pas créées dans ces blocs lors des remaniements chromosomiques? De nombreux remaniements des blocs à rRNAs me sont apparus quand j'ai trouvé 2 génomes très proches dont l'un des 2 présente de nombreux blocs identiques avec l'autre, mais cassés et souvent les séquences de tRNAs sont conservées. Ceci me confortait dans mon hypothèse de genèse. Et les tRNAs peuvent, aussi, intervenir dans ce processus puisqu'ils peuvent créer des contraintes comme les rRNAs puisqu'ils peuvent s'auto apparier. Aussi j'ai commencé à border mes blocs de tRNAs, avec ou sans rRNAs avec 2 cds.
- - Du coup, étant donné que les blocs à rRNA sont orientés dans le sens 16s-23s-5s, qu'ils soient en direct ou en complément, j'ai pu constater rapidement que les intercalaires cds-16s étaient quasiment, tout le temps, plus grands que les intercalaires avec le cds dans 5s-aas-cds, où aas désigne l'absence ou la présence d'un ou plusieurs gènes de tRNAs.
- - Comme les blocs à tRNAs, seuls, présentaient aussi cette dissymétrie des intercalaires avec les 2 cds, les bordant, se posait aussi la question de leur orientation. Mais on ne peut pas décider de cette orientation puisqu'il n'y a pas de repère interne au bloc comme pour les blocs avec les 3 rRNAs.
- - Au début j'ai commencé à faire la moyenne de ces intercalaires et à établir leurs fréquences pour chaque génome. Puis j'ai fait de même avec les petits intercalaires en supposant que l'orientation allait du grand au petit comme pour les blocs à rRNAs. C'est ainsi que j'ai créé la colonne cds pour les 2 intercalaires confondus et la colonne cdsd des petits seulement, pour cds dirigé. A l'époque je ne prenais pas en compte les négatifs, ne distinguais pas les continus des discontinus et les tRNA-cds des rRNA-cds. Voici l'exemple de vha.
- - Quand j'ai voulu synthétiser les résultats de ces intercalaires avec les moyennes je trouvais de grandes variations entre les génomes (voir ici le récapitulatif des 51 génomes). Ces intercalaires semblaient dépendre des génomes, donc de leurs processus de gestion de l'ADN, et du coup l'orientation que je supposait n'avait plus de sens. Il fallait à tout prix comparer ces intercalaires à tout autre intercalaire et notamment les plus nombreux, les intercalaires cds-cds.
Les intercalaires tRNA-cds, récapitulatif
modifier
Les méthodes de prélèvement dans NCBI
modifier
Le lien du texte NCBI avec sa date est indiqué dans chaque "génome.fréquences". J'applique la méthode sur ce texte pour ne laisser qu'une ligne par gène, ce qui correspond à l'étape 8 de cette méthode. J'ai sauvegardé ces textes épurés dans les annexes Artb génomes (rtb pub abra mja pmg blo scc afn), Acbn génomes (cbn ant myr rru mba), Aspl génomes (spl cvi bsu ade eco), Apmq génomes (pmq cbei ase).
- - méthode initiale: méthode sans tenir des compléménts. Ce sont les 1ers tableaux,
- - méthode des discontinus, méthode avec les compléments. Elle est utilisée dans tous les autres tableaux ainsi que pour la comparaison cds-cds / tRNA-cds.
- - méthode pour tout intercalaire: autres, cds-cds et tRNAs-cds (+ - c x). Le tableau de la méthode. Les tableaux contenant les autres intercalaires (ac ax):
- Classement des génomes, périodicité et recouvrement chez les négatifs.
- - Les fréquences par génome: intercalaires positifs et négatifs, continu-discontinu confondus
- Exemple rtb après traitement par la méthode initiale, jusqu'à l'étape 24. Ce tableau "genome les fréquences" contient
- + La date du NCBi se trouve à la fin de la légende,
- + Sous tableau des plages des intercalaires (leurs historiques sont dans la légende 2 du tableau des fréquences) avec leurs effectifs, pourcentages, moyennes et variances. Ce sous-tableau contient aussi la taille du chromosome en pbs (ADN) et le total et pourcentage des intercalaires cds-cds positifs, indiquant les espaces inutilisés.
- + 3 colonnes de fréquences avec leurs 3 colonnes des effectifs par fréquence. Ces fréquences m'ont permis d'apprécier leurs courbes et notamment j'ai repéré la tranche de fréquences 26-370 (fréquence5) qui caractérise par une droite le génome et non par une courbe puissance. En utilisant le tableur on peut reproduire la droite et les puissances jusqu'à la fréquence 600 (fréquence6) ou 1200 (fréquencez) suivant l'importance du génome. Une colonne de pourcentage est accolée à frequence6 qui reprend ceux du sous-tableau, et j'y ait ajouté le pourcentage des intercalaires de 1 à 100 qui est utilisé pour le classement des génomes qui suivent.
- + 2 colonnes des fréquences unité avec leurs 2 colonnes des effectifs. Fréquence-1 m'a permis de repérer la périodicité ternaire des négatifs et la fréquence1 dont j'ai cherché la périodicité mais paraît plutôt apériodique, elle me servira plus tard pour comparer ces effectifs à ceux des tRNA-cds positifs dans la même gamme.
- + 2 colonnes d'adresses avec leurs intercalaires, pour les extrêmes des positifs et des négatifs. Les négatifs comportent une colonne de discontinuité (comp). Ils m'ont permis d'aborder les recouvrements de 2 cds étudiés plus en détail dans le chapitre suivant des discontinuités. Pour compléter toutes les adresses j'ai ajouté une colonne, fréquencef, qui fait le lien entre les extrêmes positifs et les fréquences de frequencez ou frequence6.
- Les droites des diagrammes fréquence5: Pendant la construction des tableaux des fréquences de chaque génome, comme indiqué ci-dessus, j'ai fait les diagrammes frequence6 et il m'est apparu rapidement que je pouvais les diviser la courbe de tendance, proche d'une hyperbole, en 3 parties distinctes: la gamme de 0 à 30 de pente très élevée et proche de la branche de l'hyperbole, la gamme de 30 à 370 très accidentée ressemblant plutôt à une droite qu'au milieu de l'hyperbole, et enfin la gamme à partir de 370 jusqu'à 600 de pente très faible et proche de la branche de l'hyperbole. Comme cette dernière gamme peut être prolongée au-delà de 600 et même de 1200 pour certains génomes, la gamme du milieu existe pour tous les génomes, c'est une droite facile à comparer avec sa pente et pourrait contenir la plupart des séquences de contrôle et donc avoir un sens fonctionnel. Effectivement d'après le tableau des fréquences,
- + Les coefficients de détermination de ces droites sont très confortables puisque 18 sont supérieurs à 0.75 jusqu'à 0.91 et seulement 3 sont inférieurs à 0.64, 0.63 pour pub, 0.58 pour rtb et 0.46 pour mba.
- + Cinq clades à 2 génomes chacun ont souvent des pentes très proches. Le seul clade à 2 génomes avec les 2 pentes très différentes est celui des actinomycètes, ase pente 43 et blo pente 10. Trois clades ont les 2 pentes presque identiques, gamma 20 (eco spl), bacilli 29 (bsu pmq) et clostridia 15 (cbn cbei). Deux clades diffèrent légèrement pour leurs pentes, alpha rtb 3 et pub 6, archées mja 10 et mba 6.
- + Sur les 6 clades à 2 génomes un seul, gamma, a les 2 nombres de cds (n-cds) presque équivalents, les 5 autres ont des cds très dissymétriques. Ce qui pourrait laisser croire que la pente est indépendante de la taille du génome, en tout cas à l'intérieur de chaque clade.
- + Une seule discordance à ce schéma, dans le clade alpha, rru (pente 19) est très différent de pub (6) et rtb (3).
- + En considérant la totalité des 21 génomes la pente se révèle en fait proportionnelle à la taille du génome
- + Les courbes puissance
- Le classement des génomes.
- - Les fréquences par génome: intercalaires négatifs continus et discontinus, symboles Sc- Sx- .
- Caractéristiques et comparaison avec les tRNA-cds, Notes
- Les recouvrements
- La périodicité ternaire des petits intercalaires inférieurs à 80 paires de bases met en exergue l'état vibratoire des 2 cds en recouvrement.
- - Les fréquences par génome: intercalaires positifs continus et discontinus, symboles Sc+ Sx+ .
- - Récapitulation de tous les intercalaires
Intercalaires entre tRNA et rRNA en continu discontinu
modifier
- Lien tableur: Intercalaires entre tRNA et rRNA en continu discontinu.
- Légende
- - c x + - % pour continu, discontinu, positif, négatif, x+/total ou nombre de génomes à x+ et c- sur le total.
- note: c-, 1 seul continu négatif, son intercalaire est d'une paire de base seulement (-1)
- - type:
- tRNA, intercalaires entre tRNAs dans un bloc sans rRNA;
- t-rRNA, intercalaires entre tRNAs à l'extérieur d'un bloc rRNA
- rRNA, intercalaires rRNA-rRNA et tRNA-rRNA d'un bloc rRNA
- aa interne, tRNA-tRNA interne d'un bloc rRNA
- 4*: Ces 4 intercalaires x+ sont dus au grand nombre de remaniements des blocs rRNA du génome cdc8. 23s' et 16s' sont des rRNA fonctionnels mais tronqués.
tRNA. Intercalaires entre tRNA et rRNA en continu discontinu
tRNA1. Les totaux de 50 génomes
type |
total |
c+ |
x+ |
c- |
x- |
x+%
|
tRNA |
1745 |
1714 |
19 |
1 |
0 |
1,1
|
t-rRNA |
814 |
810 |
4* |
0 |
0 |
|
rRNA |
1043 |
1043 |
0 |
0 |
0 |
|
aa interne |
127 |
127 |
0 |
0 |
0 |
|
genomes |
50 |
50 |
13 |
|
|
26
|
4* |
cdc8 |
aaa-5s |
23s’-16s |
16s’-16s’ |
16s-5s |
|
adresse |
|
4229303 |
4229975 |
4189696 |
4179150 |
|
|
|
- Liens aux réflexions sur la genèse des gènes tRNA:
- - Réflexion sur la genèse des gènes tRNA
- - genèse et duplication dans les 3 domaines
- - Duplications dans les clusters RNA chez les bactéries, étude de 16 génomes. L'étude de départ avec la comparaison bsu-lmo et eco-eal auxquels j'ai ajouté 12 autres regroupés par leur taux de %GC, cbc cbn cle lam spl lmo bsu vpb eal eco afn blo cvi ade sma ksk.
- - organisation de l'opéron tac-tac-tpr chez eco-eal
- - Comparaison entre les 2 types de duplication.
- - Similitude des comportements des codons dans les 3 domaines
- - tRNA-cds: recherche de l'équivalent de l'opéron tac-tac-tpr. D'où les génomes avec les cds autres que les 1ers 16 étudiés pour les duplication cités ci-dessus. Exemple de rru avec la note que j'ai copié pour tous ces nouveaux génomes:
- + Note: Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.
- - tRNA-cds dans les cumuls: voir les réflexions dans Les intercalaires tRNA-cds synthèse et les cumuls.
- - Les calculs: La faiblesse des tRNA-cds est abordée dans comparaison continu-discontinu et sa note ainsi que le chapitre sur leurs raretés. Les calculs sont faits dans tRNA-cds calcul suivi de la comparaison avec les moyennes. J'ai supprimé ces calculs puisqu'ils se fondaient sur l'hypothèse que les intercalaires CDS-CDS et tRNA-CDS étaient analogues.Ce qui n'est pas le cas puisque les courbes montrent clairement la gamme de fréquence de 1 à 30 pdbs est quasiment nulle chez les seconds et majoritaires chez les 1ers. En plus les CDS-CDS sont la somme de continus et de discontinus.
- Intercalaires entre gènes pour 51 génomes:
- - J'ai commencé à étudier les intercalaires entre gènes quand je me suis intéressé aux longs clusters de rRNA et tRNA chez bsu et lmo, 2 génomes qui reproduisaient à peu près les mêmes séquences dans leurs clusters mais dont les intercalaires courts entre gènes tRNA variaient beaucoup d'un génome à l'autre. J'attribuais ce comportement à la structure en trèfle des tRNAs dont les gènes pourraient s'auto-apparier lors des réparations, des transcriptions et de la réplication. La contrainte pour conserver le gène et éviter l'auto appariement devrait se résoudre par la modification des intercalaires entre les gènes de tRNA. Article qui introduit les opérons longs de tRNA et les opérons mixtes de tRNA et de protéines, page 17 [64].
- - Cette étude des clusters de rRNA et tRNA est la suite de ma réflexion sur les 1ères étapes de l'évolution moléculaire à l'origine de l'émergence de la vie. Le cheminement qui m'a conduit à l'étude de ces clusters est détaillé dans l'article sur la genèse des gènes de tRNA.
- - L'étude des clusters de tRNA et rRNA comprend l'étude de ces séquences, c'est ce que j'ai fait dans les fiches, mais aussi l'étude des intercalaires que j'ai fait dans les annexes. Or l'article qui m'a poussé à étudier ces clusters s'intéressait au fait qu'un opéron chez E.Coli contenait 2 tRNAs et un gène protéique. Ceci m'a poussé à étendre mes investigations sur les intercalaires, à ceux entre tRNA et CDS. Et pour apprécier les longueurs des intercalaires tRNA-CDS j'ai du les comparer à ceux entre 2 CDS.
- - J'ai rencontré de nombreuses difficultés dans les décomptes des intercalaires car au début je ne savais pas ce que je devais rechercher et donc les décomptes étaient au début manuels, puis petit à petit j'utilisais de plus en plus les traitements par lot. Et l'erreur qui m'a obligé à tout refaire, pour les décomptes que je présente dans ce chapitre, c'est que je ne distinguais pas entre les décomptes avec ou sans complément. Or la rareté des intercalaires tRNA-CDS de petites tailles et nuls ou négatifs m'a poussé à considérer la discontinuité lors du passage au complément. Et en étendant cette notion de discontinuité il s'est avéré qu'il peut y avoir modifications des intercalaires lors du changement de brin. C'est ce qui me paraît maintenant évident puisqu'il doit y avoir de nombreux processus de réparation à ce moment là.
- - Tous les gènes d'un génome ne sont pas considérés ici, notamment les gènes de contrôle, les pseudo gènes et ceux non définis par NCBI (miscellaneous). Leurs intercalaires ne représentent que 1% du total.
Intergen51. Historique des pré-études
modifier
Intergen51. Les clusters avec les intercalaires tRNA-CDS
modifier
- Ce sont 43 génomes, 8 génomes du début n'ont pas été encadrés par des CDS: vpb eal lmo lam cbc cle sma ksk. Les 8 autres du début ont été sélectionnés pour les 21 génomes à intercalaires CDS-CDS: bsu spl eco cbn cbei afn ase blo. Donc j'ai ajouté 22 génomes, en plus, encadrés avec des CDS.
- Les 51 génomes ont servis à étudier le typage des clusters à rRNA et l'étude des clusters à tRNAs seuls qui n'ont pas été inclus dans les fiches et présentent des processus de duplication différent des 1ers.
- Les 43 génomes encadrés par des CDS ont permis de repérer des cds dans les 2 types de clusters, cds candidats pour l'étude de leur création par la contrainte des clusters à RNA.
- Les 43 ont permis de mettre en évidence la faible fréquence des intercalaires tRNA-CDS nuls, négatifs et petits positifs. C'est ce qui m'a poussé à les comparer aux intercalaires CDS-CDS.
- Les génomes du début avaient permis d'étudier les remaniements des clusters sans créer de chaos: eal eco et bsu lmo
- Avec l'encadrement par CDS sont apparus des génomes avec des remaniements chaotiques: rpm abq-abs cdc-cdc8. Ce sont les annotations de bouts de rRNA, alors que la localisation des tRNAs est maintenue, qui m'ont permis d'émettre l'hypothèse de la création de gènes protéiques lors de ces remaniements provoqués par le comportement des rRNAs.
Intergen51. Les 21 génomes avec les intercalaires CDS-CDS
modifier
- Cette étude des intercalaires m'a permis de mettre en évidence une périodicité chez les petits négatifs malgré le mélange continu/discontinu et de pouvoir interpréter les grands négatifs qui correspondent à des recouvrements. La périodicité sera reprise en séparant les continus des discontinus et les grands intercalaires, positifs et négatifs, qui constituent les restes des diagrammes, seront étudiés ou simplement listés dans chaque génome.
- Cette étude m'a permis aussi d'apprécier le taux des séquences non protéiques et différentes des clusters à RNA, en calculant le taux de la somme des intercalaires positifs par rapport à la longueur total du génome donné par NCBI. Pour calculer ce taux avec l'intergen51 il faudrait refaire la somme des intercalaires positifs, mais avant, je vais reprendre les taux calculés pour seulement les 21 génomes traités pour les intercalaires CDS-CDS.
- Tout le reste du formatage de chaque génome des 21 sera éliminé puisque c'est un mélange de continu et de discontinu, notamment les diagrammes.
- Les 21 génomes de cette 1ère étude d'intercalaires CDS-CDS sont: abra myr pmg scc mba mja cvi ade ant rtb rru pub pmq bsu spl eco cbn cbei afn ase blo.
Intergen51. La longueur totale des intercalaires d'un génome
modifier
- Note: 46 génomes ont entre 8.9 et 16.3% du génome en intercalaires, soit 79% des cas étudiés avec une médiane de 12.6%. Il reste 4 faibles, 3.4 6.4 8.1 8.3 et 8 forts, 5 de 22.8 à 27.7 et 3 de 17.9 à 18.8%.
Nom intercalaires génome taux en % Nom intercalaires génome taux en % Fréquence des taux
alpha clostridia
abq 356,439 3,064,393 11.6 cbc 696,513 3,892,029 17.9 taux effectif
abqp 217,409 1,901,707 11.4 cbei 1,199,672 6,485,394 18.5 6 1
abs 363,304 3,023,440 12.0 cbn 330,729 2,773,157 11.9 7 1
absp 211,208 1,766,028 12.0 cdc 636,447 4,110,554 15.5 8 0
agrc 332,177 2,823,930 11.8 cdc8 663,874 4,308,325 15.4 9 3
agrl 225,474 2,148,289 10.5 cle 615,068 4,714,237 13.0 10 3
aua 449,307 3,742,793 12.0 hmo 396,940 3,075,407 12.9 11 9
auap - psor 450,598 3,550,458 12.7 12 10
oan 364,228 2,887,297 12.6 negativicutes 13 10
oan2 199,249 1,895,911 10.5 afn 242,270 2,329,769 10.4 14 5
pub 44,276 1,308,759 3.4 actino 15 4
rpl 252,952 1,109,301 22.8 ase 1,100,127 9,239,851 11.9 16 3
rpm 461,433 3,876,289 11.9 blo 267,098 2,256,640 11.8 17 1
rru 461,427 4,352,825 10.6 ksk 1,255,749 8,783,278 14.3 18 1
rtb 264,633 1,112,957 23.8 sma 1,241,224 9,025,608 13.8 19 2
beta archeo 20 0
cvi 481,477 4,751,080 10.1 mba 1,341,425 4,837,408 27.7 21 0
ade 445,108 5,029,329 8.9 mfe 987,074 3,914,091 25.2 22 0
ant 203,179 3,192,235 6.4 mfi 403,834 2,478,074 16.3 23 1
gama mja 168,865 1,664,970 10.1 24 2
amed 601,332 4,777,154 12.6 bacilli 25 0
eal 594,081 4,701,875 12.6 ban 749,857 5,321,900 14.1 26 1
eco 501,283 4,641,652 10.8 bsu 434,723 4,215,606 10.3 27 0
ecoN 646,219 5,441,200 11.9 lam 210,907 2,078,001 10.1 28 1
spl 789,212 5,174,581 15.3 lbu 222,489 1,856,951 12.0 0
vha1 499,733 3,765,351 13.3 lmo 288,032 2,944,528 9.8 58
vha2 317,649 2,204,018 14.4 pmq 1,228,719 8,739,048 14.1
vpb1 403,530 3,297,305 12.2 ppm 791,310 5,728,392 13.8
vpb2 242,529 1,806,219 13.4 ppmp 119,608 510,118 23.4
bacteriodites cyano
fps 351,518 2,860,382 12.3 pmg 149,500 1,641,879 9.1
myr 538,974 4,155,464 13.0 npu 1,547,626 8,234,322 18.8
tenericutes spirochete
abra 151,700 1,877,792 8.1 scc 214,658 2,227,296 9.6
apal 128,786 1,554,229 8.3
- Lien au tableur: Intergen51. Formatage des résultats pour 51 génomes.
- Légende: Ce sont des effectifs brutes des
- - intercalaires entre un tRNA et un CDS, fxt pour les discontinus et fct pour les continus
- - intercalaires entre 2 CDS, pour les fréquences de 10 en 10 fx discontinu et fc continu, pour les fréquences par unité fx40 et fc40, pour les fréquences par unité négative fx- et fc-.
- - total des intercalaires pour un diagramme, diagr, de 1 à 400, 1 à 40 et de -6 à -50.
- - total des intercalaires de 1 à 30: t30 et %t30 par rapport au total.
- - total des intercalaires qui reste après le diagramme: reste et %reste par rapport au total.
int51.1 Total des effectifs des intercalaires de 51 génomes
CDS-tRNA |
CDS-CDS |
CDS-CDS |
CDS-CDS
|
frequence |
effectif |
|
frequence |
effectif |
|
frequence |
effectif |
|
frequence |
effectif |
|
|
fxt |
fct |
|
fx |
fc |
|
fx40 |
fc40 |
|
fx- |
fc-
|
0 |
14 |
14 |
0 |
228 |
919 |
0 |
228 |
919 |
-1 |
4 |
4,140
|
10 |
15 |
29 |
10 |
1746 |
12728 |
1 |
173 |
1972 |
-2 |
85 |
11
|
20 |
19 |
37 |
20 |
1378 |
11017 |
2 |
157 |
2034 |
-3 |
3 |
12
|
30 |
6 |
32 |
30 |
1475 |
6338 |
3 |
248 |
1557 |
-4 |
717 |
10,938
|
40 |
38 |
47 |
40 |
1715 |
4716 |
4 |
213 |
1317 |
-5 |
5 |
19
|
50 |
25 |
50 |
50 |
1838 |
3974 |
5 |
125 |
1057 |
-6 |
59 |
6
|
60 |
32 |
54 |
60 |
1877 |
4135 |
6 |
174 |
736 |
-7 |
41 |
351
|
70 |
34 |
75 |
70 |
1855 |
4194 |
7 |
205 |
641 |
-8 |
89 |
2,362
|
80 |
42 |
76 |
80 |
1880 |
4182 |
8 |
125 |
836 |
-9 |
47 |
7
|
90 |
25 |
74 |
90 |
1723 |
3967 |
9 |
169 |
1265 |
-10 |
29 |
213
|
100 |
57 |
84 |
100 |
1734 |
3737 |
10 |
157 |
1313 |
-11 |
94 |
1,255
|
110 |
32 |
84 |
110 |
1605 |
3690 |
11 |
115 |
1404 |
-12 |
39 |
3
|
120 |
27 |
79 |
120 |
1594 |
3438 |
12 |
149 |
1577 |
-13 |
35 |
242
|
130 |
41 |
72 |
130 |
1599 |
3154 |
13 |
131 |
1218 |
-14 |
97 |
788
|
140 |
56 |
71 |
140 |
1489 |
2883 |
14 |
116 |
1282 |
-15 |
43 |
6
|
150 |
30 |
78 |
150 |
1406 |
2828 |
15 |
154 |
1126 |
-16 |
28 |
123
|
160 |
35 |
75 |
160 |
1466 |
2552 |
16 |
133 |
939 |
-17 |
68 |
537
|
170 |
27 |
64 |
170 |
1338 |
2356 |
17 |
116 |
904 |
-18 |
35 |
9
|
180 |
36 |
54 |
180 |
1211 |
2127 |
18 |
154 |
969 |
-19 |
29 |
107
|
190 |
37 |
44 |
190 |
1304 |
2031 |
19 |
181 |
785 |
-20 |
51 |
408
|
200 |
25 |
46 |
200 |
1201 |
1818 |
20 |
129 |
813 |
-21 |
17 |
2
|
210 |
43 |
45 |
210 |
1163 |
1656 |
21 |
168 |
774 |
-22 |
21 |
61
|
220 |
32 |
31 |
220 |
1074 |
1602 |
22 |
165 |
701 |
-23 |
42 |
264
|
230 |
26 |
33 |
230 |
979 |
1470 |
23 |
127 |
652 |
-24 |
28 |
5
|
240 |
28 |
32 |
240 |
914 |
1363 |
24 |
177 |
716 |
-25 |
22 |
91
|
250 |
30 |
33 |
250 |
896 |
1206 |
25 |
125 |
597 |
-26 |
43 |
246
|
260 |
30 |
25 |
260 |
847 |
1139 |
26 |
119 |
617 |
-27 |
13 |
3
|
270 |
19 |
35 |
270 |
842 |
1144 |
27 |
173 |
615 |
-28 |
21 |
54
|
280 |
14 |
25 |
280 |
741 |
984 |
28 |
155 |
546 |
-29 |
43 |
158
|
290 |
17 |
20 |
290 |
658 |
927 |
29 |
115 |
550 |
-30 |
17 |
0
|
300 |
20 |
20 |
300 |
632 |
881 |
30 |
151 |
570 |
-31 |
20 |
48
|
310 |
25 |
14 |
310 |
586 |
823 |
31 |
135 |
559 |
-32 |
39 |
125
|
320 |
17 |
21 |
320 |
595 |
703 |
32 |
122 |
518 |
-33 |
14 |
0
|
330 |
17 |
13 |
330 |
523 |
710 |
33 |
173 |
494 |
-34 |
15 |
32
|
340 |
17 |
6 |
340 |
507 |
595 |
34 |
167 |
457 |
-35 |
31 |
108
|
350 |
20 |
16 |
350 |
435 |
599 |
35 |
150 |
460 |
-36 |
9 |
0
|
360 |
14 |
15 |
360 |
447 |
567 |
36 |
165 |
481 |
-37 |
8 |
27
|
370 |
19 |
13 |
370 |
396 |
530 |
37 |
174 |
414 |
-38 |
27 |
71
|
380 |
10 |
15 |
380 |
398 |
497 |
38 |
187 |
442 |
-39 |
15 |
0
|
390 |
14 |
14 |
390 |
341 |
484 |
39 |
233 |
461 |
-40 |
14 |
21
|
400 |
6 |
13 |
400 |
334 |
429 |
40 |
209 |
430 |
-41 |
24 |
58
|
reste |
182 |
267 |
reste |
6,624 |
8,284 |
reste |
45,052 |
77,659 |
-42 |
7 |
0
|
total |
1,253 |
1,945 |
total |
51,594 |
113,377 |
total |
51,594 |
113,377 |
-43 |
10 |
31
|
%reste |
14.5 |
13.7 |
%reste |
12.8 |
7.3 |
diagr |
6,314 |
34,799 |
-44 |
14 |
47
|
t30 |
40 |
98 |
t30 |
4,599 |
30,083 |
|
|
|
-45 |
6 |
0
|
%t30 |
3.2 |
5.0 |
%t30 |
8.9 |
26.5 |
|
|
|
-46 |
15 |
14
|
diagr |
1,057 |
1,664 |
diagr |
44,742 |
104,174 |
|
|
|
-47 |
19 |
43
|
|
|
|
|
|
|
|
|
|
-48 |
12 |
0
|
|
Récapitulatif des effectifs |
|
|
|
|
|
|
-49 |
13 |
23
|
|
>0 |
<0 |
zéro |
total |
* autres |
|
|
|
-50 |
15 |
55
|
x |
51,366 |
2,456 |
228 |
54,050 |
|
|
|
|
reste |
264 |
420
|
c |
112,458 |
23,544 |
919 |
136,921 |
|
|
|
|
total |
2,456 |
23,544
|
|
|
|
|
190,971 |
9,555 |
|
|
|
%reste |
10.7 |
1.8
|
|
|
|
|
total |
200,526 |
|
|
|
diagr |
1,378 |
8,004
|
Intergen51. Les différents types d'intercalaires
modifier
- Lien au tableur: Intergen51. Les différents types d'intercalaires.
- Légende:
- - S pour intercalaire CDS-CDS et R pour tRNA-CDS,
- - c pour intercalaire continu (les 2 gènes sont sur le même brin) et x pour discontinu (les 2 gènes sont sur 2 brins différents, le brin et son complément)
- - %reste = 100*reste/total, le reste étant ce qui reste du total après la fin du diagramme, gamme.
- - %t30 = 100*t30/total, t30 étant le total des fréquences 10 20 30
- - %t5 = 100*t/total, t5 étant le total des fréquences de -1 à -5 dans le diagramme des S-.
- Note:
- - total de tous les intercalaires étudiés ici, 190,971 + 9,555 + 6 = 200,532
- - taux des R-: c-/c = 100*8/1945 = 0.4 et x-/x = 100*11/1253 = 0.9.
Int51.2 Les différents types d'intercalaires entre gène de 51 génomes
Int51.21 Les différents types
intercalaires CDS-CDS |
* autres intercalaires
|
continu |
S+ |
S- |
S0 |
total |
c/x |
RNA-RNA |
CDS-rRNA |
total
|
c |
112,458 |
23,544 |
919 |
136,921 |
2.5 |
3,136 |
348 |
3,484
|
x |
51,366 |
2,456 |
228 |
54,050 |
|
18 |
196 |
214
|
t |
163,824 |
26,000 |
1,147 |
190,971 |
|
3,154 |
544 |
3,698
|
% |
85.8 |
13.6 |
0.6 |
|
|
|
|
|
|
Int51.22 Détail des * autres intercalaires
intercalaires tRNA-CDS |
récapitulatif des * autres intercalaires
|
continu |
R+ |
R- |
R0 |
total |
c/x |
* autres |
total |
%
|
c |
1,931 |
8 |
6 |
1,945 |
1.6 |
tRNA-CDS |
3,198 |
33
|
x |
1,239 |
11 |
3 |
1,253 |
|
RNA-RNA |
3,154 |
33
|
t |
3,170 |
19 |
9 |
3,198 |
|
CDS-rRNA |
544 |
6
|
% |
99.1 |
0.6 |
0.3 |
|
|
non RNA |
2,665 |
28
|
|
|
|
|
|
|
total |
9,561 |
9,555+6 aua
|
|
Int51.23 Les taux remarquables
taux |
%reste |
%t30 |
%t5 |
%0
|
type |
S+ |
R+ |
S- |
S+ |
R+ |
S- |
S+ |
R+
|
gamme |
400 |
400 |
6-50 |
- |
- |
- |
- |
-
|
c |
7.3 |
13.7 |
4.8 |
26.5 |
5.0 |
64 |
0.7 |
0.3
|
x |
12.8 |
14.5 |
15.9 |
8.9 |
3.2 |
33 |
0.4 |
0.2
|
|
Intergen51. Détail des intercalaires RNA-RNA et CDS-rRNA
modifier
RNA-RNA c x CDS-RNA c x
23s 5s 286 CDS 16s 210 93
16s 23s 150 5s CDS 101 89
16s tRNA 155 16 CDS 6 1
tRNA 23s 173 CDS 5s 2 4
5s tRNA 155 1 23s CDS 12 6
tRNA in 140 CDS 23s 5 1
tRNA contig 731 5s 16s 11 2
tRNA hors 1254 17 16s16s 1
tRNA 16s 20 total 348 196
23s tRNA 25
tRNA 5s 23
16s 5s 21
5s 23s 1
5s 5s 2
total 3136 18
Intergen51. Les intercalaires rares
modifier
- Note: Ce n'est pas la peine d'ajouter les adresses pointant sur le tableau autres intercalaires aas, je n'ai pas trouvé d’ambiguïté en cherchant sur l'intercalaire.
tRNA-CDS tRNA hors
gen x- c- zéro x zéro c gen x+ c-
oan1 -44 rtb 60
oan2 -44 1051
aua -30 rpl 49
pub 2 830
spl -23 agrl 793
ecoN 2 aua 161
vha2 -36 173
amed -21 270
ppmp -24 404
cdc 1 lbu 151
cdc8 1 hmo 293
ase -12 ase 130
blo -8, -39 -17 sma 153
sma -3 -10 ksk 151
ksk -3 -13 mfe 227
mfi -1 fps 296
mba -12 1 npu -1
mfe 1 total 17 1
myr -38 __ __ __
pmg -30 1 5s tRNA
total 11 8 3 6 cdc8 353 x+
__ __ __ __ __ 16s16s
5s5s vha1 0 c+
cvi 89 c+ 5s23s
mfi 748 c+ hmo 230 c+
Intergen51. Les intercalaires non RNA
modifier
- Note: ce sont les intercalaires autres que CDS-CDS et ceux contenant un RNA. Ici leur décompte sert à vérifier le total des intercalaires. gen pour génome, l'astérisque pour le total de la colonne autres du tableau autres intercalaires aas du génome, ft pour le total des tRNA-CDS, RNA pour les intercalaires contenant un RNA. ft RNA et non RNA sont reportés dans le tableau des données intercalaires de chaque génome.
gen * ft RNA non RNA gen * ft RNA non RNA
abq 104 64 20 20 ban 173 22 142 9
abqp 65 26 27 12 bsu 324 28 106 190
abs 110 66 14 30 lam 152 43 55 54
absp 54 25 23 6 lbu 198 48 108 42
agrc 109 66 15 28 lmo 101 25 76 0
agrl 40 15 19 6 pmq 256 42 202 12
aua 117 80 13 24 ppm 190 43 139 8
auap 6 0 6 0 ppmp 62 20 40 2
oan1 105 70 15 20
oan2 46 24 12 10 cbc 88 38 50 0
pub 79 50 11 18 cbei 192 48 130 14
rpl 75 58 9 8 cbn 147 42 101 4
rpm 243 100 51 92 cdc 282 13 113 156
rru 160 83 28 49 cdc8 348 16 141 191
rtb 75 58 9 8 cle 273 69 120 84
hmo 223 54 118 51
ade 105 65 24 16 psor 226 19 158 49
ant 95 34 53 8
cvi 205 76 93 36 afn 154 57 55 42
amed 239 79 122 38 ase 183 101 74 8
eal 537 77 74 386 blo 128 82 30 16
eco 712 65 77 570 ksk 171 103 62 6
ecoN 217 104 101 12 sma 164 115 43 6
spl 253 62 159 32
vbp1 203 47 124 32 fps 114 54 46 14
vbp2 32 13 11 8 myr 199 79 96 24
vha1 190 47 115 28 npu 156 96 52 8
vha2 33 15 12 6 pmg 84 67 7 10
abra 128 41 40 47
mba 128 90 28 10 apal 96 29 27 40
mfe 122 79 28 15 scc 104 67 25 12
mfi 87 56 27 4
mja 99 43 22 34 total 9 561 3 198 3 698 2 665
Intergen51. Les diagrammes de la totale
modifier
Intergen51. Les diagrammes CDS-CDS et tRNA-CDS
modifier
Intergen51. Les diagrammes CDS-CDS et tRNA-CDS positifs
modifier
Courbes de tendances pour les diagrammes en pour 1000 Calculs pour f.41 et autres R2 f.1
R2 x3 x2 x c Inflexion poly3 x c
0.974 1.57E-06 -1.06E-03 1.16E-01 30.0 fx1 abscisse 201.9 120.9
0.865 -4.49E-06 3.51E-03 -9.26E-01 93.9 fc1 ordonnée 22.7 28.8
poly3/droite 22.9 27.9
0.995 7.53E-07 -4.56E-04 -1.81E-02 38.7 fx41
0.989 8.19E-07 -2.97E-04 -1.12E-01 45.2 fc41 R2 f.1 x c
Poly 3 974 865
0.988 -9.43E-02 41.9 fx41 Poly 6 979 978
0.938 -1.06E-01 40.7 fc41 Poly 9 993 985
0.924 -8.21E-02 38.5 fx1
0.656 -1.60E-01 55.8 fc1
- Note CDS-CDS positifs (tableau des 51 génomes):
- - J'ai représenté en diagrammes les 6 courbes correspondants aux effectifs des colonnes fxt fct fx fc fx40 fc40 sans la fréquence 0 du tableau présenté pour le formatage. Chaque abscisse est le total des effectifs de 10 fréquences successives (freq 10) et va de 1 à 400 pour les 4 premiers tandis que pour fx40 et fc40 elle est réduite à une seule fréquence (freq 1) et va de 1 à 40. La légende est détaillée dans les images t1 t2 de wikimédia. Les 2 derniers diagrammes de l'image t1, fx41 et fc41, vont de l'abscisse 50, qui regroupe les fréquences de 41 à 50, à l'abscisse 400. Je les ai présentés avec un polynôme de degré 6 pour montrer l'adéquation nette du diagramme fc41 avec sa courbe de tendance (R2 0.999). La courbe de tendance linéaire (R2 0.938) met en valeur sa courbure alors que celle de fx41 (R2 0.988) se confond avec son diagramme (R2 0.995). Je les ai comparés entre eux avec leurs équations de courbe de tendance de polynôme de d° 3, présentées ci-dessus avec des ordonnées en pour 1000 du total des effectifs (les données sont dans le tableur du tableau des 51 génomes).
- - La netteté de fc41 va de pair avec la netteté de fc40 comparées aux diagrammes en dents de scie de fx40 et à ceux des diagrammes fxt1 et fct1 (abscisse en unité de fréquence), non présentés mais dont les données sont dans le tableur.
- - Les calculs avec les polynômes de d° 3: les points d'inflexion de fc41 (120) et fx41 (200) montrent que fx41 est au-dessus de fc41 mais se rejoignent à la fin. L'équation de fc a le coefficient de x3 négatif alors que ceux de fct fxt fx fx41 fc41 sont tous positifs. Les fréquences en pour 1000 sont identiques, au ‰ près, de la freq10 50 à la freq10 130, entre fx et fc, avec un taux moyen de 33‰.
- - Le diagramme fx est une droite, nettement différent de ceux de fct et fxt. Ces derniers représentent un seul processus avec un seul mode d'un maximum d'abscisse 133 pour fxt et 113 pour fct à comparer aux points d'inflexion de fx41 et fc41. Leurs équations en effectifs sont:
- + f(x)= 3.16E-06*x3 - 2.46E-03*x2 + 0.487*x + 9.58, pour fxt et
- + f(x)= 1.04E-05*x3 - 7.10E-03*x2 + 1.21*x + 13.5 pour fct.
- - La variance de fct et fxt est due seulement aux génomes étudiés avec un processus commun alors que dans fx chaque génome devrait avoir son processus propre avec un mode différent. L'homogénéité de fc est le reflet d'un comportement de chaque génome qui varie peu à chaque fréquence. Alors que chaque génome, dans fx, a un mode propre à chaque fréquence.
- - L'homogénéité de fc se retrouve dans fc40 avec une adéquation nette à la courbe de tendance alors que fx40 présente un diagramme en dents de scie qui montre encore que chaque génome procède d'un processus différent. Le diagramme fc40 montre que tous les génomes ont le même processus. Et quand je compare fct1 et fxt1 (abscisse en unité de fréquence) à fx40, les dents de scie des 2 premiers ont leurs courbes de tendances des droites croissantes (voir les équations au tableur, R2 respectif de 0.347 0.239) qui sous-tendent un seul processus dont la variance est due à la variance des génomes, alors que les dents de scie de fx40 est une droite horizontale (R2 0.001) combinant la variance des processus et des génomes.
- - Le processus sous-tendant fc étant tout à fait différent de celui de fct les fréquences de fct ne peuvent être déduites statistiquement de celles de fc. On ne peut pas comparer 2 choses incomparables.
- - Le diagramme de fc40 laisse penser qu'il y a un mode prépondérant à la fréquence 12, cela correspondrait aux séquences de contrôle cis des gènes protéiques.
- - Le diagramme fct est régulier et présente des motifs avec un semblant de symétrie (R2 0.923) contrairement au chaos de fxt (R2 0.600). Les 3 diagrammes fc40 fc fct montrent la caractéristique régulière des intercalaires continus, bien que sous-tendus par 2 processus différents, comparée au chaos des intercalaires discontinus de fxt, fx40 et de probablement de fx comme je l'ai mentionné ci-dessus.
Intergen51. Classement des courbes CDS-CDS positifs discontinus.
modifier
- Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs discontinus..
- Légende:
- - Les classes sont séparées par une bordure bleue fine. Elles sont ordonnées sur x=0, intersection de la courbe avec l'axe oy.
- - Les clades sont séparés par une ligne à blanc
- - Courbures, représentées par la courbure calculée multipliée par 1000. En cyan les valeurs extrêmes.
- + courb1 est la courbure au sommet des courbes fx1 (fréquences regroupées par 10, freq10, de 1 à 400 pbs), d'abscisse soma et d'ordonnée somo. Quand fx1 est une hyperbole, constante négative de x3, la courbure courb1 n'est pas renseignée.
- + courb4 est celle des courbes fx41 de 41 à 400 pbs. Quand fx41 est une hyperbole, constante négative de x3, elle est remplacée par une courbe de constante positive. Ce paramètre est intéressant car en l'absence de courb1 il décroît avec %t20 dans la classe A et est très faible pour les classes B et C1 (sauf pour bsu lmo ban). Il y a une continuité progressive de A vers C (en valeur absolue). Une évolution progressive apparaît avec courb1 pour les classes C2 et D2 et dégressive dans les classes C1 D1. La classe A est très progressive. (voir diagrammes à venir des courbures par classe).
- + Les courbes différentes de fx1 sont indiquées dans la colonne courbe.
- - 1ères fréquences: long1 et long2 respectivement la somme des fréquences de 1 à 10 et de 11 à 20 en pourcentage. %t20 est la somme des 2. Elle sert aussi à caractériser les classe B et C en comparaison avec la colonne %dom.
- - fréquences dôme: Les classes B et C sont caractérisées, après %t20, par la somme très élevée de 2 fréquences freq10 das la colonne %dom et dont l'abscisse est adom.
- - évolution régulière des fréquences freq10: C'est le cas de la classe D.
- - Certains génomes sont caractérisés par des extrêmes,
- + ksk agrl colorés en jaune, ont des courbes de tendance sous forme de droites peu différentes des polynômes de d° 3. Leurs coefficients de détermination R2, poly3/droite, sont respectivement 922/911 et 762/756. Les 2 1ères fréquences sont quasiment identiques, différant de 2 et 4% alors que pour agrc oan1 aua ase j'obtiens 8 16 12 18% respectivement et le fossé se creuse encore pour les freq10 30 et 40.
- + Le %reste en cyane, taux des intercalaires au-delà des 400 pbs, est excessif pour mfe mba cbc npu rtb rpl de 23 à 43%, et très faible pour pub et apal 1.7 et 2.6%. le plasmide ppmp a 23.4% mais sa taille est la plus faible des 51 génomes étudiés. C'est pour cela que j'ai construis des diagrammes jusqu'à 900 pbs pour mfe mba pour comparer leurs x=0 dont l'ordre ne change pas, 17.7 pour mfe contre 9.77 pour mba (Dans le diagramme 400 j'ai respectivement 12.8 6.43).
- - Sommets des courbes en plus de celle de fx1. Elles sont colorées en gris. Leur courbure est indiquée dans la colonne courb4.
courbe gen soma somo courb4
51 psor 118.9 29.7 -1.586
61 ban 127.4 57.1 -2.317
31 cvi -9.1 49.5 -1.943
21 eal -75.3 49.6 -1.263
21 ecoN 11.5 37.8 -1.299
11 rpm 2.1 40.2 -1.555
11 cbn -24.2 37.2 -0.731
11 eco 82.1 36.0 -1.881
21 myr -51.3 46.1 -1.238
31 ksk -128.7 49.7 -0.849
41 ksk -749.1 130.7 -0.493
31 ase 33.9 40.3 -1.969
41 ase 33.9 40.3 -0.942
31 agrl -431.0 72.3 -0.454
Classement des courbes des intercalaires CDS-CDS positifs discontinus x+
clade |
gen |
taille |
%reste |
courb1 |
courbe |
courb4 |
soma |
somo |
%dom |
adom |
long1 |
long2 |
%t20 |
x=0 |
classe
|
alp1 |
pub |
234 |
1.7 |
- |
- |
- |
|
|
|
|
167 |
64 |
231 |
127 |
A0
|
cya2 |
pmg |
599 |
4.5 |
- |
41 |
-1.109 |
10.8 |
39.4 |
|
|
194 |
65 |
259 |
110 |
A1
|
bde3 |
ant |
633 |
3.5 |
- |
41 |
-4.031 |
101.7 |
38.0 |
|
|
128 |
81 |
209 |
82.0 |
A20
|
arc4 |
mja |
441 |
5.4 |
- |
41 |
-3.400 |
97.9 |
34.7 |
|
|
111 |
70 |
181 |
71.5 |
A21
|
bde2 |
ade |
1314 |
5.3 |
- |
41 |
-2.325 |
92.1 |
34.6 |
|
|
78 |
80 |
158 |
64.4 |
A22
|
al4 |
absp |
472 |
11.0 |
- |
41 |
-1.720 |
108.2 |
29.2 |
|
|
81 |
59 |
140 |
62.4 |
A23
|
al1 |
abq |
890 |
9.2 |
- |
41 |
-1.870 |
111.4 |
29.9 |
|
|
73 |
61 |
134 |
59.8 |
A24
|
al2 |
abs |
883 |
10.2 |
- |
41 |
-1.841 |
94.7 |
30.6 |
|
|
74 |
46 |
120 |
58.8 |
A25
|
al3 |
abqp |
497 |
8.7 |
- |
41 |
-1.884 |
111.3 |
30.9 |
|
|
70 |
64 |
135 |
56.1 |
A26
|
al9 |
oan2 |
460 |
8.7 |
- |
41 |
-1.613 |
46.9 |
34.4 |
|
|
63 |
54 |
117 |
49.5 |
A27
|
alp4 |
rru |
967 |
9.3 |
- |
41 |
-1.079 |
76.7 |
30.3 |
|
|
47 |
52 |
98 |
47.8 |
A28
|
al5 |
agrc |
796 |
7.2 |
- |
31 |
-0.790 |
-45.1 |
40.2 |
90 |
60 |
53 |
45 |
98 |
46.3 |
B10
|
al7 |
aua |
975 |
9.9 |
- |
31 |
-0.116 |
-875.6 |
76.3 |
91 |
60 |
51 |
39 |
90 |
45.3 |
B11
|
al8 |
oan1 |
771 |
9.1 |
- |
21 |
-1.160 |
30.5 |
34.4 |
99 |
60 |
54 |
38 |
92 |
43.0 |
B12
|
bac2 |
bsu |
1093 |
5.5 |
- |
51 |
-3.143 |
135.7 |
29.9 |
219 |
40 |
26 |
41 |
67 |
62.5 |
C10
|
bac5 |
lmo |
587 |
6.3 |
- |
51 |
-2.188 |
126.7 |
26.3 |
271 |
40 |
17 |
34 |
51 |
59.1 |
C11
|
act1 |
ase |
2691 |
9.7 |
-1.804 |
41 |
-0.942 |
20.6 |
41.1 |
99 |
70 |
52 |
34 |
86 |
40.7 |
C12
|
clo8 |
psor |
693 |
9.1 |
-0.901 |
51 |
-1.586 |
-11.0 |
39.2 |
140 |
50 |
12 |
23 |
35 |
39.1 |
C13
|
bac1 |
ban |
1579 |
10.3 |
-1.565 |
61 |
-2.317 |
23.3 |
38.5 |
138 |
40 |
10 |
26 |
36 |
38.1 |
C14
|
bde1 |
cvi |
1114 |
8.0 |
-2.436 |
31 |
-1.943 |
53.3 |
41.6 |
146 |
70 |
56 |
30 |
85 |
37.7 |
C15
|
ga2 |
eal |
1185 |
10.3 |
-1.902 |
21 |
-1.263 |
42.3 |
37.9 |
118 |
50 |
38 |
22 |
60 |
36.0 |
C16
|
ga4 |
ecoN |
1382 |
10.3 |
-1.471 |
21 |
-1.299 |
34.8 |
36.3 |
134 |
50 |
32 |
16 |
48 |
35.3 |
C17
|
alp3 |
rpm |
906 |
11.8 |
-2.175 |
11 |
-1.555 |
65.2 |
35.7 |
191 |
50 |
15 |
7 |
22 |
30.3 |
C18
|
clo3 |
cbn |
540 |
9.6 |
-1.339 |
11 |
-0.731 |
68.8 |
33.3 |
113 |
50 |
19 |
6 |
24 |
29.7 |
C19
|
ga3 |
eco |
1074 |
5.3 |
-1.834 |
11 |
-1.881 |
78.5 |
36.0 |
131 |
50 |
33 |
9 |
42 |
29.4 |
C19a
|
bct1 |
myr |
980 |
14.9 |
-2.327 |
21 |
-1.238 |
76.6 |
35.7 |
107 |
70 |
27 |
12 |
39 |
27.6 |
C19b
|
bac3 |
lam |
483 |
5.6 |
-3.737 |
|
|
85.8 |
43.6 |
155 |
60 |
17 |
6 |
23 |
26.7 |
C20
|
ga1 |
amed |
1343 |
8.2 |
-3.171 |
|
|
90.6 |
39.3 |
141 |
80 |
28 |
15 |
43 |
23.2 |
C21
|
ga7 |
vha2 |
689 |
13.9 |
-2.925 |
|
|
96.5 |
35.1 |
103 |
80 |
20 |
20 |
41 |
17.8 |
C22
|
bac4 |
lbu |
411 |
7.8 |
-4.193 |
|
|
98.5 |
42.9 |
141 |
70 |
2 |
5 |
7 |
17.0 |
C23
|
ga8 |
vpb1 |
782 |
11.5 |
-3.965 |
|
|
96.4 |
39.7 |
145 |
70 |
15 |
15 |
31 |
16.1 |
C24
|
ga6 |
vha1 |
934 |
13.4 |
-3.343 |
|
|
98.7 |
36.4 |
115 |
70 |
12 |
17 |
29 |
15.5 |
C25
|
ga9 |
vpb2 |
561 |
12.7 |
-3.667 |
|
|
104.6 |
38.2 |
127 |
80 |
20 |
11 |
30 |
12.1 |
C26
|
alp2 |
rpl |
183 |
32.2 |
-2.604 |
|
|
108.0 |
28.1 |
104 |
80 |
11 |
22 |
33 |
8.12 |
C27
|
alp5 |
rtb |
186 |
35.5 |
-2.195 |
|
|
117.3 |
27.0 |
97 |
80 |
11 |
16 |
27 |
7.33 |
C28
|
clo4 |
cdc |
640 |
19.5 |
-1.942 |
|
|
176.9 |
31.0 |
|
|
5 |
0 |
5 |
-11.8 |
D10
|
clo5 |
cdc8 |
686 |
20.1 |
-1.748 |
|
|
175.5 |
29.9 |
|
|
7 |
4 |
12 |
-7.46 |
D11
|
bac6 |
pmq |
1888 |
14.0 |
-2.305 |
|
|
160.2 |
34.2 |
|
|
8 |
8 |
16 |
-6.46 |
D12
|
clo2 |
cbei |
1212 |
21.6 |
-1.691 |
|
|
156.0 |
27.6 |
|
|
5 |
10 |
15 |
-2.49 |
D13
|
bac7 |
ppm |
1267 |
11.9 |
-3.106 |
|
|
133.9 |
37.0 |
86 |
90 |
13 |
16 |
28 |
-1.18 |
D14
|
clo6 |
cle |
779 |
10.7 |
-2.811 |
|
|
133.5 |
35.8 |
|
|
12 |
8 |
19 |
1.51 |
D15
|
bac8 |
ppmp |
107 |
23.4 |
-1.912 |
|
|
146.0 |
29.5 |
|
|
0 |
0 |
0 |
2.61 |
D16
|
clo1 |
cbc |
719 |
23.9 |
-0.859 |
|
|
174.4 |
23.9 |
|
|
1 |
7 |
8 |
4.94 |
D17
|
arc3 |
mba |
1235 |
42.8 |
-0.482 |
|
|
193.6 |
17.4 |
|
|
6 |
11 |
17 |
6.43 |
D18
|
arc1 |
mfe |
1067 |
34.9 |
-0.779 |
|
|
119.8 |
20.2 |
|
|
10 |
14 |
24 |
12.8 |
D19
|
ga5 |
spl |
1305 |
17.6 |
-2.662 |
|
|
120.1 |
32.4 |
93 |
80 |
6 |
15 |
21 |
6.45 |
D21
|
clo7 |
hmo |
460 |
12.6 |
-1.900 |
|
|
135.5 |
31.6 |
|
|
20 |
22 |
41 |
8.01 |
D22
|
arc2 |
mfi |
626 |
15.8 |
-1.820 |
|
|
123.8 |
29.8 |
|
|
19 |
10 |
29 |
11.2 |
D23
|
neg1 |
afn |
346 |
4.6 |
-2.277 |
|
|
121.4 |
36.2 |
|
|
12 |
9 |
20 |
14.5 |
D24
|
cya1 |
npu |
2307 |
23.2 |
-1.454 |
|
|
98.1 |
27.1 |
|
|
22 |
23 |
44 |
18.4 |
D25
|
bct2 |
fps |
560 |
13.4 |
-2.683 |
|
|
91.5 |
35.2 |
|
|
32 |
16 |
48 |
21.3 |
D26
|
act2 |
blo |
499 |
9.8 |
-2.403 |
|
|
98.7 |
36.0 |
|
|
34 |
16 |
50 |
21.4 |
D27
|
act4 |
sma |
2581 |
11.6 |
-1.894 |
|
|
84.2 |
33.9 |
|
|
29 |
26 |
55 |
25.9 |
D28
|
spi1 |
scc |
458 |
8.5 |
-2.273 |
|
|
81.0 |
37.2 |
|
|
20 |
33 |
52 |
28.3 |
D29
|
ter2 |
apal |
191 |
2.6 |
-4.112 |
|
|
82.3 |
47.3 |
|
|
31 |
21 |
52 |
30.4 |
D30
|
ter1 |
abra |
270 |
5.2 |
-3.934 |
|
|
65.0 |
47.0 |
137 |
50 |
19 |
33 |
52 |
37.3 |
D31
|
act3 |
ksk |
2564 |
11.6 |
-1.185 |
31 |
-0.849 |
-10.8 |
39.5 |
87 |
80 |
38 |
36 |
74 |
39.4 |
D32
|
al6 |
agrl |
499 |
8.4 |
-0.543 |
31 |
-0.454 |
-431.0 |
72.3 |
78 |
60 |
42 |
38 |
80 |
42.2 |
D33
|
act5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
alp6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
arc5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bac9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bct3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bde4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clo9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
cya3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
gam |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
neg2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ter3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
totale |
58 |
51,594 |
12.8 |
-1.520 |
|
|
63.7 |
33.5 |
|
|
34 |
27 |
61 |
30.0 |
D28
|
Intergen51. Classement des courbes CDS-CDS positifs discontinus. Note
modifier
- Pour classer les diagrammes des discontinus, x+, j'ai utilisé 4 critères
- - %t20 et les colonnes associées long1 long2. Il dérive du taux %t30 que j'ai utilisé dans la comparaison x+ c+.
- Long1 sert de repère par rapport au corps du diagramme. Il peut dépasser toutes les ordonnées et c'est le cas de la classe A, ou bien être plus ou moins bas par rapport au sommet du dôme et c'est le cas des classes B C D1. Dans la classe D2 où le x=0 remonte long1 le suivra.
- La pente définie par long1 long2 va distinguer 2 taux %t20 identiques mais dont le signe de la pente est différent. C'est ainsi que j'ai pu analyser le cas des C1 bsu lmo psor ban. Mais cette pente positive va surtout caractériser la classe D2 dont la courbure ne dépend plus d'un dôme et long1 va suivre x=0.
- A part le cas des 2 C1 sans minimum local, bsu lmo , l'évolution du taux %t20 va être parallèle à celle de x=0.
- - Les dômes. Ils sont caractérisés par l'abscisse du sommet, adom, et la somme des 2 taux du dôme, %dom. Ils appartiennent essentiellement aux classes B et C.
- adom: Chez les B1 et C1 les abscisses sont faibles, autour de freq10 50, alors que les C2 tournent autour de 70. Les 2 classes C1 et C2 sont homogènes et les moyennes nettement distinctes. (voir le tableau des moyennes en fin de note).
- %dom: C1 et C2 sont très homogènes d'après le tableau des moyennes mais bsu et lmo ny sont pas. Bien que les moyennes se chevauchent celle de C2 est plus faible, de 10%, par rapport à celle de C1 et celle de B1 est encore plus faible, autour de 90%.
- conséquences: plus le dôme est proche de l'origine et son taux élevé plus la courbure sera faible, avec les B1 sans courbures (le coefficient de x3 étant négatif), les C1 aux courbures faibles et les C2 aux courbures fortes.
- D1 et D2 n'ont pas de dôme sauf pour ppm spl et abra. Leurs courbes sont très étalées ce qui fait que le dôme est loin de l'origine et son taux faible ce qui donne une courbure très forte. Ainsi pour ppm spl abra j'ai respectivement pour adom %dom courb1, 90 86% -3.106, 80 93% -2.662, 50 137% -3.934.
- + abra apal: ce sont 2 génomes différents en phylogénie, respectivement, Acholeplasmataceae Paracholeplasma brassicae et Acholeplasmataceae Alteracholeplasma palmae. Ils diffèrent en taille x+ de plus de 41%, respectivement 270 et 191 pbs. Si les caractéristiques c+ du tableau sont semblables le diagramme de abra x+ présente un dôme à l'abscisse 50 que apal x+ ne possède pas. J'ai donné la classe D31 à abra x+, parce que sa courbure est très forte, -3.934, comparée à celles de ban (-1.565) et psor (-0.901) qui ont un dôme semblable à abra x+ du à son minimum local, à l'abscisse 10, 2 fois supérieur (abra ban psor 19 10 12%) avec un %dom identique (abra ban psor 137 140 138%). Les caractéristiques x+ du tableau diffèrent nettement entre les 2 génomes pour %x+ %restex t30c/x et moins pour %t30x et corelaxc. Ils ont en commun la classe D3 (D31 D30) avec un x=0 de 37 et 30 respectivement. Les 2 génomes ont conservé une séquence de 11 gènes tRNA (aas) que j'ai notée dans les intercalaires extra bloc.
- - La courbure du sommet de poly3. C'est la comparaison entre x+ et c+ qui a mis en évidence pour certains diagrammes la forte pente négative t30 des c+ par rapport à la forte courbure des x+ pour cette plage. Quand je l'ai appliquée à tous les diagrammes j'ai pu regrouper les diagrammes sans dôme en 2 classes D1 et D2.
- La classe D1 va se caractériser par une courbure très faible comparable à la classe C1, moyenne -1.763 contre -1.775. Les 2 classes se différencient par leur homogénéité, m/e 2.0, moyenne la plus hétérogènes des 5 classes, contre 3.8 pour C1 , 2ème homogène après C2. Elles se différencient plus par leur décroissance dans le diagramme en fonction de X=0, D1 est fortement décroissante (R2 0.495) et C1 à peine décroissante (R2 0.146), voir les diagrammes des courbures. D1 se différencie de C1 à cause des dômes qui font diminuer l'abscisse des C1, alors que les D1 s'étalent plus loin, soma 157 contre 45 pour C1.
- Le passage de D1 à D2: mfe m'a posé un problème puisque D1 est décroissante, pour la courbure, et que D2 est croissante, son X=0 de 12.8 va se positionner après mfi qui a une courbure de -1.820 contre -0.779 pour mfe. Je l'ai alors mis en D1, en continuité de X=0, après mba. J'ai eu un doute à cause du %reste très élevé de mba et mfe. Peut être qu'en étendant les diagrammes x+ à 900 de mfe et mba, leurs places dans D1 ne seraient plus justifiées. Mais le fait que leur nouveau X=0 ne modifie pas leur ordre, mba 9.77, avant mfe 17.7 m'a conforté dans ce positionnement dans D1. J'ai comparé les x=0 des diagrammes étendus 800 et 400 des D1 à ceux des D2, dans le tableau en bas de la note. L'ordre de mba et mfe est respecté mais non ceux des autres D1. Par contre dans la colonne 800 les D1 restent largement inférieurs à celle des D2, sans aucun chevauchement. Les D2 800 respectent exactement l'ordre des 400 et le 1er, spl, reste supérieur au plus grand des D1 800, 23.8 contre 21.4 pour ppm. Ce dernier est un intrus dans D1 800.
- La classe D2, de D21 à D31, ressemble beaucoup à C2 pour le sommet, soma 100.2 contre 99.6. Mais le sommet de C2 croît nettement (1 seul intrus) et passe de 86 à 108, alors que celui de D2 décroît rapidement par groupe de 3 génomes à la fois et passe de 135 à 65. La courbure de D2 a une moyenne 50% plus forte que celle de D1, -2.492 contre -1.763, mais 50% plus faible que celle de C2, -2.492 contre -3.311. La moyenne de D2 est moins homogène, m/e 3.0, que celle de C2 la plus homogène des 5 classes, m/e 5.1. Les 2 classes se ressemblent beaucoup dans les diagrammes des courbures, ils sont nettement croissants et de façon régulière avec un R2 de 0.612 pour D2 contre 0.730. Les 2 diagrammes diffèrent par leur forme.
- La suite de la classe D2 est la limite de la courbure et du sommet de la courbe. D32 et D33 ressemblent à la classe B1 mais ils se distinguent tous les 2 par l’absence du minimum local à t30 (en plus long1 est presque égal à long2), un dôme très faible (%dom le plus faible, 87 et 78 contre 91 pour B11) et éloigné (80 pour ksk contre 60 pour agrl et les B1). L'ordonnée du sommet de D32 et D33 est élevée ce qui fait que la courbe de tendance est plus une droite qu'un polynôme qui a pourtant une courbure.
- - Les x=0 enfin que j'ai adoptés pour le classement et les 3 critères précédents définissent les grandes classes A B C D.
- Classe A: Il n'y a pas de courbure. Le coefficient de x3 est négatif. J'ai établit alors la courbure du diagramme 41-400, courb4.
- + A0 a un coefficient toujours négatif quel que soit le début du diagramme.
- + A1 a une courb4, mais l'abscisse du sommet est tellement grande, -500, que la courbe est quasiment à coefficient négatif.
- + De A20 à A28 par contre les courbures sont grandes et nettement croissantes avec un R2 de 0.932. Les abscisses des sommets sont croissantes de façon irrégulières et passent de 77 47 à 111 92 102.
- + Le x=0 décroît régulièrement, sans intrus, de 127 à 48.
- Classe B:
- + C'est la continuité de la classe A puisque le coefficient de x3 de 1-400 est négatif.
- + Il y a continuité aussi pour la courbure, courb4, puisque le coefficient de x3 de 41-400 est négatif faisant suite à la courbure la plus faible de la classe A (-1.079).
- + La seule différence avec la classe A est que les B ont un dôme. Et celui-ci a une ordonnée de même grandeur que celle de l'abscisse 10 (freq10) avec un minimum local en l'abscisse 40 ou 30.
- + Le minimum local m'a permis de calculer la courbure, courb4, des diagrammes 31 21 11-400 (colonne courbe) ce qui est possible puisque l'ordonnée de l'abscisse 40 ou 30 est inférieure à celle du dôme. Cette courbure est en continuité progressive, et non abrupte, avec celle de la classe A comme je l'ai notée ci-dessus. En plus elle est en continuité avec les courbures, courb4, de la classe C1 bien que celle-ci ait une courbure courb1, sauf pour bsu et lmo.
- + Les taux %dom des dômes de B sont plus faibles que tous ceux de la classe C et leurs abscisses, adom 60, sont supérieures à celles de C sauf pour ase cvi myr avec 70.
- + Le x=0 décroît régulièrement, sans intrus, à la suite de la classe A, de 46 à 43.
- Classe C1
- + En excluant momentanément les 2 génomes bsu et lmo (C10 C11), le x=0 décroît régulièrement, sans intrus, à la suite et en continuité de la classe B, de 41 à 28.
- + En parallèle la courbure, courb1, décroît légèrement dans les diagrammes des courbures (R2 0.146), avec une moyenne homogène (m/e 3.8), -1.775, la 2ème très faible des 5 classes. Par contre les sommets, soma, croissent régulièrement de 21 à 77, avec une moyenne faible de 45 très hétérogène, m/e de 1.6, le plus faible de toutes les moyennes du tableau, conséquence de la forte croissance des sommets. Le %t20 qui suit globalement l'évolution de x=0, ici, dans C1 son évolution n'est pas homogène (m/e 2.1) et ne manifeste pas de croissance nette. Le diagramme des classes montre bien que le %t20 de C1 est très chaotique, différemment des autres classes. La courbure, courb1, différencie nettement B1 et C1.
- + Le classement de C12, ase. Ce génome ressemble beaucoup à oan1 avec un long1 au même niveau que le sommet du dôme, un x=0 du même ordre 41 contre 43 pour oan1 et un %t20 qui vient juste après celui de oan1, 86 contre 92. Le génome ase se distingue nettement de la classe B parce que c'est le 1er à avoir une courbure courb1 moyenne, -1.804, et vient juste après lmo et bsu. Donc il est logique de le classer avec les C1. Cependant ase se comporte aussi comme ksk qui est du même clade et qui a une classe D2. Les 2 diagrammes ont à peu près le même minimum local t30 à l'abscisse 40 pour ase , 23‰ contre 29‰ pour ksk à l'abscisse 50. Mais c'est la pente très négative de ase qui m'a poussé à le comparer aux B, -7.25 contre -1.79 pour ksk. Si je trie sur clade, toutes les autres colonnes sont à peu près identiques, sauf courb1, -1.804 contre -1.185 pour ksk, soma 21 contre -11, long1 et par conséquent %t20, 52 contre 38. Même la queue du diagramme est semblable et les fx41 fx31 aussi (voir tableau en bas de la légende du tableau de classeau). Il serait peut être logique de le mettre en D32 alors que leurs phylogénies sont complètement différentes.
- + Le minimum local à t30: j'ai montré dans la comparaison continus discontinus que ce minimum est caractéristique des continus qui l'arborent tous et se trouve dans la plupart des cas aux alentours de l'abscisse 30 de freq10. On le retrouve chez les discontinus mais il varie beaucoup d'une classe à l'autre et d'un génome à l'autre. Cependant, s'il se comporte de façon analogue dans les classes A et B, dans C1 seuls ase (abscisse 40) et cvi (30) font de même, avec la différence notable, pour ces 2 là, d'avoir une courbure courb1. Sinon 4 C1, bsu lmo psor ban, ont l'abscisse à 10 et les 6 autres à 20.
- + La courbure courb4: A part ase tous les C1 ont un coefficient négatif de x3 et donc n'ont pas de courbure, courb4. C'est la même situation qu'avec les B. En éliminant les 1ères abscisses, 10 20 30, j'arrive à trouver une courb4 aussi faible que celle des B, à part bsu lmo psor ban pour qui j'ai trouvé une forte courbure, courb4, en abscisse 70 (ban) ou 60 pour les 3 autres, et non pour des abscisses inférieures. Cette ressemblance entre les 2 classes renforce nettement la continuité entre elles. C'est ce qui m'a amener à classer ase, mais aussi bsu lmo, dans la classe C1 comme je le montre au chapitre suivant sur les dômes.
- + Les dômes: Ils agissent sur la courbure, courb1, par l'abscisse, adom, et le taux %dom. La courbure est d'autant plus faible que l'abscisse est faible et que le taux est élevé. Dans le cas de C1 adom et %dom sont très homogènes, avec les moyennes respectives de 55 et 132 avec le même m/e de 5.1. Par contre la courbure, courb1, et l'abscisse du sommet sont hétérogènes et faibles, respectivement -1.775 (m/e 3.8) et 45.3 (m/e 1.6). Comparés aux moyennes de C2, ces dernières sont très homogènes avec un m/e supérieur à 5.1, avec une courbure 2 fois plus élevée (-3.311 contre -1.775) et un sommet, soma, 2 fois plus éloigné (100 contre 45), dues au fait que adom est 50% plus éloignée (55 contre 74) avec un taux %dom presque équivalant mais plus faible (125 contre 132). Les moyennes des dômes différencient nettement les 3 classes B C1 C2.
- + Les diagrammes des courbures: La classe C1 est différente des 4 autres diagrammes parce qu'elle est homogène et à peine décroissante (R2 0.146), alors que les autres sont nettement croissants ou décroissants avec une homogénéité variable.
- + Le passage de B12 à C10, oan1 à bsu. Le x=0 décroît régulièrement de A0 jusqu'à B12 (43) puis au-delà de C12 (ase 41). Mais bsu et lmo arbore un x=0 très élevé (62 et 59), en rupture avec la décroissance. Ces 2 génomes présentent la particularité d'avoir un %t20 à pente positive qui fait partie du dôme. Ce qui est nettement différent des classes A et B qui ont des pentes négatives, avec un long1 des B au même niveau que le sommet de leur dôme. Or la particularité des C1 est d'avoir un long1 inférieur au sommet du dôme ce qui est le cas de bsu lmo psor ban, puisque long1 est leur minimum local. Une autre particularité des C1 est d'avoir une courbure courb1 sauf pour bsu et lmo. Mais le fait qu'ils partagent un long1 avec psor et ban qui ont, eux une courbure, autorise à les classer ensemble et à placer bsu lmo en 1er puisqu'ils n'ont pas de courbure qui est faible mais croissante chez les C1.
- Classe C2
- + Le x=0 décroît régulièrement, sans intrus, à la suite et en continuité de la classe C1, de 27 à 7.
- + En parallèle la courbure, courb1, croît fortement dans les diagrammes des courbures (R2 0.730), avec une moyenne très homogène (m/e 5.1), -3.311, la plus élevée des 5 classes. Par contre les sommets, soma, croissent régulièrement de 86 à 117, avec une moyenne de 100 très homogène, m/e de 11, parmi les plus forts de toutes les moyennes du tableau, conséquence de la faible croissance des sommets. Le %t20 qui suit globalement l'évolution de x=0, ici, dans C2 son évolution est plus homogène que celui de C1(m/e 2.8 contre 2.1 pour C1) et ne manifeste pas, aussi, de croissance nette. Le diagramme des classes montre bien que le %t20 de C2 est régulier, avec un seul intrus, celui de lbu avec 7%. La courbure, courb1, différencie nettement C2 et C1.
- + Le minimum local à t30: La disparition du minimum local est encore plus accentuée chez les C2 que chez les C1. La moyenne de %t20 est 2 fois plus élevée chez C1 que chez C2, 47.7 contre 29.3 et beaucoup plus hétérogène (m/e 2.1 contre 2.8 pour C2 avec l'intrus); en omettant l'intrus, lbu, je trouve m e m/e 32.0 6.8 4.7 ce qui montre le maintient de la moyenne et l'augmentation nette de l'homogénéité de C2. Les diagrammes x+ montrent clairement que les t30 sont aussi insignifiants que chez les D1 par rapport à ceux de C1: cC12 C12 - C19 cC19a C19a - C25 cC26 C26 - D14.
- + Les dômes: Ils agissent sur la courbure, courb1, par l'abscisse, adom, et le taux %dom. La courbure est d'autant plus faible que l'abscisse est faible et que le taux est élevé. Dans le cas de C2 adom et %dom sont encore plus homogènes que chez C1, avec les moyennes respectives de 74 et 125 et les m/e de 10 et 5.9. Au contraire de C1, la courbure, courb1, et l'abscisse du sommet, soma, sont très homogènes et forts, respectivement -3.311 (m/e 5.1) et 99.6 (m/e 10.6). Comparés aux C1, les moyennes de C2 sont très homogènes avec un m/e supérieur à 5.1, avec une courbure 2 fois plus élevée (-3.311 contre -1.775) et un sommet, soma, 2 fois plus éloigné (100 contre 45), dues au fait que adom est 50% plus éloignée (55 contre 74) avec un taux %dom presque équivalant mais plus faible (125 contre 132). Les moyennes des dômes différencient nettement les 3 classes B C1 C2.
- + Les diagrammes des courbures: La classe C2 est nettement croissante (R2 0.730) comme la classe D2 (R2 0.612), alors que C1 est à peine décroissante mais très homogène et D1 est moyennement décroissante.
- Classe D: voir le chapitre sur les courbures ci-dessus.
- Moyennes: ne sont pas compris dans ces moyennes bsu lmo (C1) et mba mfe (D1)
%t20 m e m/e gen courb1 m e m/e gen
A-B 147.2 53.8 2.7 14 A41 -2.196 0.934 -2.4 9
C1 47.7 22.8 2.1 10 B <0 - -
C2 29.3 10.4 2.8 9 C1 -1.775 0.473 -3.8 10
D1 14.4 8.7 1.7 10 C2 -3.311 0.655 -5.1 9
D2 42.3 13.0 3.2 11 D1 -1.763 0.862 -2.0 10
D32-33 77 - - 2 D2 -2.492 0.843 -3.0 11
adom %dom
C1 55.0 10.8 5.1 10 C1 131.8 25.9 5.1 10
C2 74.4 7.3 10.2 9 C2 125.2 21.4 5.9 9
soma somo
A 93.4 20.6 4.5 9 A 32.5 3.0 10.9 9
B <0 - - B <0 - -
C1 45.3 28.8 1.6 10 C1 37.5 2.6 14.3 10
C2 99.6 9.4 10.6 9 C2 36.7 5.9 6.3 9
D1 157.0 23.5 6.7 10 D1 28.6 6.5 4.4 10
D2 100.2 22.2 4.5 11 D2 35.8 6.3 5.6 11
- Diagrammes fx% étendus à 800 des classes D1 et D2
gen x+ 400 x+ 800
D1
pmq -6.46 10.4
cbei -2.49 9.38
ppm -1.18 21.4
cbc 4.94 9.72
mba 6.43 8.93
mfe 12.8 16.5
D2
spl 6.45 23.8
npu 18.4 27.1
sma 25.9 36.6
ksk 39.4 44.7
ase 40.7 49.3
Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x.
modifier
- Lien au tableur: Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x..
- Diagrammes fx%: alpha1 alpha2 bacilli gamma spl bde clostridia actino archeo afn cyano tenericutes bacteroide spiro fcp1 fcp2
- Légende:
- - Les colonnes
- + du tableau des effectifs: taille pour total, %reste reste au delà 400pbs / taille, %t30 somme des freq10 10 20 30 / taille, de même pour les intercalaires nuls.
- + du tableau des diagrammes: flexa pour abscisse du point d'inflexion de la courbe de tendance en polynôme de d°3 et R2 41 son coefficient de détermination du diagramme fc41; fcp pour abscisse (en freq10) des taux fc% pour laquelle la courbe de tendance commence à devenir positive (constante du monôme x3), pour une valeur de 2 la courbe de tendance démarre à 21 pbs c'est à dire l'abscisse freq10 de 30.
- + des rapports,
- - classe, c'est la classe des diagrammes fx% listée dans le chapitre des discontinus positifs.
- - %x+, taux des discontinus par rapport au total positifs, zéros compris, continus plus discontinus.
- - corelaxc, coefficient de corrélation entre les freq10 de 41 à 200 pbs des continus et des discontinus. J'ai fait le digramme corel freq1 (fréquences unitaires) en fonction de corel freq10 (fréquences regroupées par 10) pour la plage 41-200 pbs. La courbe de tendance qui passe par zéro a pour équation 0.340x avec un R2 de 0.811 et sans forcer à zéro 0.336x + 0.003 avec un R2 de 0.743. Lien au tableur.
- - t30c/x et restx/c sont les rapports des colonnes correspondantes.
- - Les valeurs remarquables sont indiquées en gras pour les maxima et en bleu pour les minima, en rouge pour les fcp qui représentent les courbes à constante négative quelque soit les tests effectués et en orange ses valeurs 0 et 1. En jaune ce sont les points d'inflexion anormaux et le vert ceux qui sont proches de l'extrémité 400 du diagramme.
- Note: les corrélations entre colonnes. Les coefficients sont calculés après tri sur toute colonne sauf clade.
c/x t r 30 0
ct 0.868 0.119 -0.306 -0.231
r 0.156 0.967 -0.492 -0.347
30 -0.480 -0.631 0.495 0.586
0 -0.281 -0.152 0.402 0.674
cc t r 30 0
t * 0.180 -0.420 -0.234
r * -0.606 -0.142
30 * 0.588
0 *
xx t r 30 0
t * 0.068 -0.098 -0.116
r * -0.523 -0.371
30 * 0.584
0 *
int51.cx Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x.
|
|
c+ |
x+ |
Rapports
|
clade |
gen |
taille |
%reste |
%t30 |
%0 |
R2 41 |
flexa |
fcp |
taille |
%reste |
%t30 |
%0 |
classe |
%x+ |
corelaxc |
t30c/x |
restx/c
|
act1 |
ase |
3854 |
7.6 |
24.4 |
0.3 |
0.972 |
333.3 |
-1 |
2691 |
9.7 |
12.1 |
0.7 |
C12 |
41 |
0.918 |
2.0 |
1.3
|
act2 |
blo |
1045 |
4.9 |
19.8 |
0.1 |
0.906 |
188.5 |
2 |
499 |
9.8 |
8.0 |
0.4 |
D27 |
32 |
0.406 |
2.5 |
2.0
|
act3 |
ksk |
3995 |
7.9 |
12.9 |
0.1 |
0.955 |
193.3 |
0 |
2564 |
11.6 |
11.3 |
0.3 |
D32 |
39 |
0.766 |
1.1 |
1.5
|
act4 |
sma |
3894 |
8.4 |
17.8 |
0.2 |
0.952 |
198.2 |
1 |
2581 |
11.6 |
8.8 |
0.3 |
D28 |
40 |
0.801 |
2.0 |
1.4
|
act5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
al1 |
abq |
1565 |
3.6 |
25.4 |
0.2 |
0.949 |
188.0 |
2 |
890 |
9.2 |
19.8 |
0.2 |
A24 |
36 |
0.227 |
1.3 |
2.5
|
al2 |
abqp |
921 |
5.0 |
25.1 |
0.2 |
0.930 |
176.0 |
3 |
497 |
8.7 |
19.1 |
0.2 |
A26 |
35 |
0.302 |
1.3 |
1.7
|
al3 |
abs |
1570 |
3.5 |
24.8 |
0.3 |
0.952 |
197.1 |
2 |
883 |
10.2 |
18.9 |
0.2 |
A25 |
36 |
0.412 |
1.3 |
2.9
|
al4 |
absp |
873 |
5.0 |
26.0 |
0 |
0.910 |
168.6 |
3 |
472 |
11.0 |
19.7 |
0 |
A23 |
35 |
0.272 |
1.3 |
2.2
|
al5 |
agrc |
1466 |
2.3 |
26.2 |
0.2 |
0.908 |
216.8 |
2 |
796 |
7.2 |
13.3 |
1.1 |
B10 |
35 |
0.034 |
2.0 |
3.1
|
al6 |
agrl |
1040 |
3.9 |
32.7 |
0.1 |
0.924 |
507 |
3 |
499 |
8.4 |
12.0 |
0.2 |
D33 |
32 |
0.454 |
2.7 |
2.1
|
al7 |
aua |
1803 |
5.1 |
25.1 |
0 |
0.931 |
201.3 |
1 |
975 |
9.9 |
12.9 |
0.3 |
B11 |
35 |
0.585 |
1.9 |
1.9
|
al8 |
oan1 |
1517 |
4.6 |
27.4 |
0.5 |
0.901 |
188.3 |
2 |
771 |
9.1 |
11.3 |
1.5 |
B12 |
34 |
0.310 |
2.4 |
2.0
|
al9 |
oan2 |
914 |
3.5 |
34.1 |
0.1 |
0.863 |
129.8 |
4 |
460 |
8.7 |
13.7 |
0.4 |
A27 |
33 |
0.189 |
2.5 |
2.5
|
alp1 |
pub |
601 |
0.7 |
56.1 |
5.9 |
0.939 |
278.6 |
-1 |
234 |
1.7 |
29.5 |
4.0 |
A0 |
28 |
0.865 |
1.9 |
2.6
|
alp2 |
rpl |
527 |
19.4 |
22.4 |
0.8 |
0.822 |
229.1 |
1 |
183 |
32.2 |
4.4 |
0 |
C27 |
26 |
0.051 |
5.1 |
1.7
|
alp3 |
rpm |
1847 |
4.1 |
23.4 |
0.4 |
0.945 |
195.3 |
2 |
906 |
11.8 |
3.2 |
0.4 |
C18 |
33 |
0.395 |
7.2 |
2.9
|
alp4 |
rru |
2136 |
3.3 |
25.7 |
0.4 |
0.963 |
52.4 |
2 |
967 |
9.3 |
15.2 |
0.1 |
A28 |
31 |
0.189 |
1.7 |
2.8
|
alp5 |
rtb |
505 |
19.8 |
23.4 |
0.7 |
0.804 |
230.0 |
1 |
186 |
35.5 |
3.2 |
0.5 |
C28 |
27 |
-0.105 |
1.7 |
1.8
|
alp6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
arc1 |
mfe |
2011 |
23.2 |
15.9 |
0.8 |
0.872 |
4261.2 |
-1 |
1067 |
34.9 |
4.4 |
0.1 |
D19 |
35 |
0.327 |
3.6 |
1.5
|
arc2 |
mfi |
1545 |
6.0 |
20.2 |
1.7 |
0.937 |
164.3 |
2 |
626 |
15.8 |
5.8 |
0 |
D23 |
29 |
-0.043 |
3.5 |
2.6
|
arc3 |
mba |
2379 |
29.7 |
14.9 |
0.8 |
0.739 |
246.6 |
-1 |
1235 |
42.8 |
2.6 |
0.1 |
D18 |
34 |
-0.317 |
5.7 |
1.4
|
arc4 |
mja |
1069 |
1.1 |
39.7 |
0.9 |
0.960 |
413.1 |
-1 |
441 |
5.4 |
22.0 |
2.0 |
A21 |
29 |
0.326 |
1.8 |
4.8
|
arc5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bac1 |
bsu |
2512 |
2.0 |
32.4 |
0.8 |
0.936 |
166.0 |
3 |
1093 |
5.5 |
13.1 |
0.2 |
C10 |
30 |
0.005 |
2.5 |
2.8
|
bac2 |
ban |
3289 |
5.1 |
25.9 |
0.9 |
0.900 |
198.3 |
3 |
1579 |
10.3 |
8.7 |
0 |
C14 |
32 |
0.106 |
3.0 |
2.0
|
bac3 |
lam |
1248 |
2.0 |
34.8 |
1.1 |
0.875 |
-166.3 |
4 |
483 |
5.6 |
4.8 |
0.4 |
C20 |
28 |
0.490 |
7.3 |
2.8
|
bac4 |
lbu |
1098 |
4.6 |
31.7 |
0.7 |
0.936 |
162.1 |
3 |
411 |
7.8 |
2.9 |
0.5 |
C23 |
27 |
0.558 |
10.9 |
1.7
|
bac5 |
lmo |
1849 |
2.8 |
36.5 |
1.2 |
0.850 |
201.9 |
3 |
587 |
6.3 |
8.5 |
0.2 |
C11 |
24 |
-0.178 |
4.3 |
2.3
|
bac6 |
pmq |
4540 |
7.8 |
20.0 |
0.5 |
0.950 |
387.5 |
5 |
1888 |
14.0 |
2.7 |
0.3 |
D12 |
29 |
-0.836 |
7.4 |
1.8
|
bac7 |
ppm |
3176 |
7.0 |
21.3 |
0.5 |
0.956 |
201.3 |
2 |
1267 |
11.9 |
3.7 |
0 |
D14 |
29 |
-0.129 |
5.8 |
1.7
|
bac8 |
ppmp |
438 |
12.3 |
14.8 |
0.6 |
0.726 |
196.4 |
0 |
107 |
23.4 |
3.7 |
0 |
D16 |
20 |
0.044 |
4.0 |
1.9
|
bac9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bct1 |
myr |
2273 |
7.9 |
35.9 |
0.5 |
0.891 |
-134.8 |
3 |
980 |
14.9 |
6.0 |
0.5 |
C19b |
30 |
0.642 |
6.0 |
1.9
|
bct2 |
fps |
1628 |
6.2 |
29.7 |
0.8 |
0.943 |
319.8 |
2 |
560 |
13.4 |
7.9 |
1.2 |
D26 |
26 |
0.451 |
3.8 |
2.2
|
bct3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bde1 |
cvi |
2412 |
3.9 |
29.0 |
0.3 |
0.915 |
1288.8 |
2 |
1114 |
8.0 |
10.1 |
0.4 |
C15 |
32 |
0.860 |
2.9 |
2.1
|
bde2 |
ade |
2335 |
3.4 |
32.2 |
0.6 |
0.952 |
-975.1 |
2 |
1314 |
5.3 |
20.7 |
0.8 |
A22 |
36 |
0.591 |
1.6 |
1.5
|
bde3 |
ant |
1700 |
1.7 |
46.2 |
2.4 |
0.925 |
437.1 |
2 |
633 |
3.5 |
26.4 |
1.2 |
A20 |
27 |
0.274 |
1.8 |
2.0
|
bde4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clo1 |
cbc |
2572 |
12.7 |
25.5 |
0.8 |
0.885 |
164.9 |
4 |
719 |
23.9 |
2.5 |
0.1 |
D17 |
22 |
-0.676 |
10.2 |
1.9
|
clo2 |
cbei |
4010 |
14.9 |
20.6 |
0.4 |
0.931 |
-3362 |
4 |
1212 |
21.6 |
2.1 |
0 |
D13 |
23 |
-0.509 |
10.0 |
1.5
|
clo3 |
cbn |
1775 |
3.5 |
29.9 |
0.5 |
0.941 |
186.3 |
3 |
540 |
9.6 |
5.9 |
0.2 |
C19 |
23 |
0.552 |
5.0 |
2.8
|
clo4 |
cdc |
2589 |
9.5 |
29.5 |
1.3 |
0.903 |
430.8 |
-1 |
640 |
19.5 |
0.5 |
0 |
D10 |
20 |
-0.587 |
62.9 |
2.1
|
clo5 |
cdc8 |
2727 |
8.9 |
30.0 |
1.3 |
0.905 |
551.3 |
-1 |
686 |
20.1 |
1.7 |
0 |
D11 |
20 |
-0.640 |
17.1 |
2.3
|
clo6 |
cle |
2900 |
6.4 |
30.3 |
1.0 |
0.948 |
181.0 |
4 |
779 |
10.7 |
2.6 |
0 |
D15 |
21 |
0.269 |
11.8 |
1.7
|
clo7 |
hmo |
1867 |
5.8 |
24.6 |
0.8 |
0.959 |
151.9 |
3 |
460 |
12.6 |
5.0 |
0 |
D22 |
20 |
0.180 |
4.9 |
2.2
|
clo8 |
psor |
2350 |
5.6 |
32.0 |
0.9 |
0.926 |
219.5 |
3 |
693 |
9.1 |
9.5 |
0.1 |
C13 |
23 |
-0.473 |
3.4 |
1.6
|
clo9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
cya1 |
npu |
3999 |
14.7 |
11.9 |
0.3 |
0.913 |
169.8 |
0 |
2307 |
23.2 |
6.3 |
0.2 |
D25 |
37 |
0.428 |
1.9 |
1.6
|
cya2 |
pmg |
948 |
2.2 |
40.7 |
3.1 |
0.963 |
318.2 |
-1 |
599 |
4.5 |
30.2 |
1.6 |
A1 |
39 |
0.739 |
1.3 |
2.0
|
cya3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ga1 |
amed |
2382 |
4.6 |
33.8 |
0.4 |
0.902 |
186.0 |
2 |
1343 |
8.2 |
5.9 |
0.1 |
C21 |
36 |
0.717 |
5.8 |
1.8
|
ga2 |
eal |
2286 |
6.0 |
32.7 |
0.6 |
0.966 |
349.1 |
3 |
1185 |
10.3 |
6.4 |
0.9 |
C16 |
34 |
0.673 |
5.1 |
1.7
|
ga3 |
eco |
2204 |
2.9 |
31.2 |
0.6 |
0.938 |
-1789.2 |
3 |
1074 |
5.3 |
8.4 |
1.1 |
C19a |
33 |
0.324 |
3.7 |
1.8
|
ga4 |
ecoN |
2822 |
4.4 |
24.1 |
0.8 |
0.959 |
434.8 |
3 |
1382 |
10.3 |
3.1 |
1.2 |
C17 |
33 |
0.596 |
7.8 |
2.3
|
ga5 |
spl |
2482 |
10.2 |
24.1 |
0.7 |
0.976 |
150.5 |
2 |
1305 |
17.6 |
3.1 |
0.1 |
D21 |
34 |
0.740 |
3.5 |
1.7
|
ga6 |
vha1 |
1945 |
7.5 |
27.5 |
0.4 |
0.929 |
189.7 |
2 |
934 |
13.4 |
4.6 |
0.3 |
C25 |
32 |
0.533 |
6.0 |
1.8
|
ga7 |
vha2 |
1075 |
7.8 |
25.1 |
1.2 |
0.877 |
3.6 |
2 |
689 |
13.9 |
6.1 |
0.1 |
C22 |
39 |
0.728 |
4.1 |
1.8
|
ga8 |
vpb1 |
1757 |
5.3 |
31.6 |
0.4 |
0.947 |
214.3 |
3 |
782 |
11.5 |
4.2 |
0.1 |
C24 |
31 |
0.600 |
7.5 |
2.2
|
ga9 |
vpb2 |
828 |
7.6 |
28.1 |
1.1 |
0.764 |
185.9 |
3 |
561 |
12.7 |
5.0 |
0.2 |
C26 |
40 |
0.516 |
5.6 |
1.7
|
gam |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
neg1 |
afn |
1385 |
3.9 |
38.5 |
0.5 |
0.893 |
164.2 |
3 |
346 |
4.6 |
4.0 |
0.6 |
D24 |
20 |
-0.025 |
9.5 |
1.2
|
neg2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
spi1 |
scc |
1000 |
3.4 |
33.9 |
0.5 |
0.938 |
321.3 |
-1 |
458 |
8.5 |
10.7 |
0.4 |
D29 |
31 |
0.445 |
3.2 |
2.5
|
ter1 |
abra |
980 |
3.4 |
39.4 |
0.9 |
0.909 |
148.9 |
2 |
270 |
5.2 |
8.9 |
0.4 |
D31 |
22 |
0.713 |
4.4 |
1.5
|
ter2 |
apal |
919 |
4.1 |
38.8 |
0.8 |
0.951 |
-261.8 |
2 |
191 |
2.6 |
11.0 |
0 |
D30 |
17 |
0.549 |
3.5 |
0.6
|
ter3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
totale |
58 |
113,377 |
7.3 |
26.5 |
0.8 |
0.989 |
120.9 |
3 |
51,594 |
12.8 |
8.9 |
0.4 |
D28 |
31.3 |
0.975 |
3.0 |
1.8
|
Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x. Note
modifier
- Les taux
- + %t30. Dans la compilation totale j'ai 26.5 et 8.9 pour c+ et x+, avec un rapport t30c/x de 3.0 et un coefficient de corrélation t30/t30 de 0.495.
- %t30c: La plage moyenne regroupe 43 éléments avec des taux de 27.5±7.5. Les extrêmes sont au nombre de 15 allant de 36 à 56% (9) et de 12 à 18% (6). Les clades alpha (sans pub), gamma et clostridia sont homogènes, d'après le tableau en bas de la note, avec des rapports m/e supérieurs à 7 alors que celui de la totale est de 3.5 et que les bacilli le sont beaucoup moins (m/e de 3.5 et 4.4 en retirant ppmp).
- %t30x: La plage moyenne regroupe 41 éléments avec des taux de 9.0±6.0. Les extrêmes sont au nombre de 17 allant de 19 à 30% (9) et de 0.5 à 2.9% (8). Les clades alpha- (sans rtb rpl et rpm) et gamma sont relativement homogènes, d'après le tableau en bas de la note, avec des rapports m/e supérieurs à 3 alors que celui de la totale est de 1.3, des bacilli 1.6 et des clostridia 1.3. Les alpha- se distinguent des gamma par une moyenne très élevée, 17% contre 5%. Et les clostridia réunissent les taux les plus bas (5 sur 8) alors que les bacilli en ont un peu moins (4 sur 8).
- Importance des %t30: explique les colonnes R2 41, flexa, fcp, classe, corelaxc et les colonnes courbe et courb4 du chapitre sur le classement des discontinus, x+. Prendre un exemple de bacilli ou clostridia x+ à comparer avec les c+ de fcp2, pmq lam cbc cbei tous fcp 4. Diviser un diagramme c+ ou x+ en t30, 41-200 au point d’inflexion qui contiendrait des séquences de contrôle cis et la queue après le point d'inflexion. Cette queue de grands intercalaires serait sans intérêt et augmenterait la corrélation corelaxc aussi j'ai réduit cette corrélation à la plage 41-200.
- + Cependant %t30x+ ne peut pas être utilisé pour le classement. Ainsi bsu et oan2 présentent le même taux mais la pente t30 de bsu est positive alors que celle de oan2 est négative. De même j'ai pu comparer ban psor lmo à eco eal et cvi.
- + Le dôme: je l'ai introduit pour justement différencier les pentes négatives des positives des %t30x+. Je l'ai caractérisé par son abscisse, adom, et son taux, %dom, qui est la somme des ordonnées de ses 2 abscisses proches l'une de l'autre. Et pour relativiser le dôme j'y ai adjoint son équivalant, à la colonne %t20, qui ne retient du %t30 que les 2 1ères abscisses.
- + Le %t20: c'est pour éviter le minimum local du %t30 ou sa pente positive comme dans le cas de bsu. En fait il fallait que je caractérise les diagrammes qui sont sans minimum local et sans dôme. C'est le cas de agrl ksk sma qui se sont révélés des chromosomes linéaires présentant cette caractéristique. Le %t20 va aussi caractériser les diagrammes à forte courbure du sommet du polynôme de d°3 et ne présentant ni minimum local ni dôme, comme npu apal sma blo dans cD24.
- + %reste. Dans la compilation totale j'ai 7.3 et 12.8 pour c+ et x+, avec un rapport restx/c de 1.8 et un coefficient de corrélation r/r de 0.967.
- + %0. Dans la compilation totale j'ai 0.8 et 0.4 pour c+ et x+, avec un coefficient de corrélation 0/0 de 0.674.
- Comparaison entre éléments d'un génome: le chromosome et son plasmide, entre 2 chromosomes circulaires et 1 circulaire l'autre linéaire (agrc agrl).
- + abq abs, sont tout les 2 des Azospirillum, les 4 éléments se ressemblent beaucoup. En plus la différence entre plasmide et chromosome se retrouve entre les 2 génomes. Ce qui fait que les chromosomes sont semblables entre eux, et de même pour les plasmides.
- + rpl rtb, sont tout les 2 des Rickettsia (typhus group). Les 2 génomes se comportent de la même façon.
- + oan1 oan2, sont 2 chromosomes circulaires mais de tailles différentes, resp. 1517..914 en c+ et 771..460 en x+. Dans les rapports ils sont semblables, %x+ %t30c/x %restx/c et la classe, sauf pour la corrélation 41-200 qui diffère nettement, 0.310 contre 0.190. Les 2 chromosomes diffèrent dans les taux, si oan1 est plus grand en taille il a plus de %reste et moins de %t30. Ils diffèrent aussi dans leurs courbes dans l'image alpha1 des discontinus, oan1 présentant un max à l'abscisse 60 tandis que oan2 le présente en 110. Du coup le point d'inflexion et le fcp sont très différents.
- + agrc agrl, agrc est un chromosome circulaire alors que agrl est linéaire. La courbe de agrc x+ est semblable à celle de oan1 x+ qui se trouve aussi dans l'image alpha1. C'est la même classe B1 avec un coefficient de x3 négatif, l'ordonnée de l'abscisse 10 est au même niveau que celle du dôme (abscisse 50 et 60 respectivement) et le minimum local est à l'abscisse 30 et 40 respectivement. C'est la définition même de la classe B1. Par contre agrl ressemble beaucoup à sma npu, avec un coefficient de x3 positif et l'absence du minmum local et du dôme aux abscisses supérieures à 40. Le chromosome de sma est linéaire et celui de npu circulaire. La classe de agrl est D33 quasiment identique à celle de ksk qui a un chromosome linéaire aussi. Ils ont les mêmes caractéristiques dans le tableau des classes et notamment un x=0 de 42 et 39 pour ksk. C'est avec les courbes c+ que agrl se distingue de sma npu ksk avec un fcp de 3 pour agrl contre respectivement 1 0 0 pour les 3 autres. En conclusion agrl se comporte bien comme un chromosome linéaire comme sont ksk et sma.
- + mfe mba, sont 2 Methanosarcina se ressemblent beaucoup dans le tableau mais diffèrent nettement dans les rapports (corrélation, t30c/x), par la taille (20% de plus pour c+ et x+) et les taux (%reste %t30). Ils sont de même classe (D19 D18) et les colonnes %x+ fcp restx/c sont presque identiques.
- + ppm ppmp: Une séquence de 31 aas comme ppm et la courbe, malgré un total représenté (diagr) de 82 intercalaires ressemble beaucoup à celle de ppm (voir l'image des bacilli).
- + cdc cdc8, sont identiques dans le tableau. Ce sont seulement 2 souches différentes du même génome, Clostridioides difficile CD196 et M68.
- + eal eco ecoN, ce sont 3 escherichia, 2 coli, eco ecoN, et une albertii, eal. Ils diffèrent par les tailles c+ avec eco = eal, ecoN+30%, et les tailles x+ avec eal eco+10% ecoN+30%. Ils ont en commun le rapport %x+ et la classe C1. Sinon tout le reste diffère entre eux.
- + vpb vha, ce sont 2 vibrio qui diffèrent par les tailles. Chacun a 2 chromosomes circulaires. Cependant les 2 génomes sont analogues si on ne tient compte que des taux et des rapports. Par contre dans chaque génome les 2 chromosomes se comportent différemment; ainsi flexa %t30x+ %x+ t30c/x diffèrent nettement, tout le reste étant semblable par ailleurs, notamment la classe qui est C2. Le comportement de 2 chromosomes de même taille est identique, il y a un parallélisme en fonction de la taille. Je penses que les 2 génomes sont semblables.
- + abra apal: ce sont 2 génomes différents en phylogénie, respectivement, Acholeplasmataceae Paracholeplasma brassicae et Acholeplasmataceae Alteracholeplasma palmae. Ils diffèrent en taille x+ de plus de 41%, respectivement 270 et 191 pbs. Si les caractéristiques c+ du tableau sont semblables le diagramme de abra x+ présente un dôme à l'abscisse 50 que apal x+ ne possède pas. J'ai donné la classe D31 à abra x+, parce que sa courbure est très forte, -3.934, comparée à celles de ban (-1.565) et psor (-0.901) qui ont un dôme semblable à abra x+. Les caractéristiques x+ du tableau diffèrent nettement entre les 2 génomes pour %x+ %restex t30c/x et moins pour %t30x et corelaxc. Ils ont en commun la classe D3 (D31 D30) avec un x=0 de 37 et 30 respectivement. Les 2 génomes ont conservé une séquence de 11 gènes tRNA (aas) que j'ai notée dans les intercalaires extra bloc.
- Les diagrammes
- - Le point d'inflexion à 200 pbs pour les courbes 41-400 des continus. Il permet d'introduire le coefficient de corrélation, dans la zone 41-200, entre c+ et x+. Dans la colonne flexa, 34 génomes ont l'abscisse du point d'inflexion contre entre 130 et 230, 8 génomes entre 250 et 390 et les 16 restants sont en dehors de la plage 130-400.
- - Le R2 41 permet de montrer l'homogénéité des courbes c+ par rapport à celles des x+. Seulement 3 génomes ont un R2 41 inférieur à 0.800, ppmp avec la plus petite taille c+ de l'étude (438 pbs), mba qui, malgré une grande taille (2379 pbs), est désavantagé par un %reste le plus élevé de 30%, enfin reste vpb2 qui a aussi une petite taille de 828 pbs juste après rpl et pub.
- - le fcp qui fait ressortir certaines courbes c+ sans le t30: les fcp 0 sont ksk npu ppmp. Les fcp 1 sont sma rpl rtb aua. Il y a 9 fcp-1, 19 fcp2, 17 fcp3, 5 fcp4 et 1 fcp5. Total 58 génomes. Voici 16 diagrammes, c+ x+ du même génome, avec leurs corrélations cx, corelaxc: fcp1 fcp2.
- Les rapports qui permettent de mettre en valeur les classes.
- - t30c/x
- + pour un rapport plus grand que 7.2 il y a 11 éléments dont 6 D1, 3 C2, 1 D2 (afn), 1 C1 (ecoN C17).
- + pour un rapport plus petit que 2.5 il y a 21 éléments dont 14 sont de classe A et B, 4 de classe D et 3 de classe C.
- + entre ces 2 limites il y a 26 éléments sans classes A et B. Avec 9 C1, 5 C2, 4 D1 et 8 D2.
- - restx/c: ce rapport n'est pas pertinent et le taux des restes, %reste est caractéristique de quelques génomes seulement comme rtb et mba. Voir l'étude de ces taux au début de la note.
- - %x+: le rapport de la compilation totale est égal à 31.3% avec un coefficient de corrélation t/t de 0.868. Les clades se distinguent par leurs moyennes nettement différentes les unes des autres dans le tableau en bas de la note, avec des rapports m/e supérieurs à 10 alors que celui de la totale est de 5 (clostridia+, les 8 plus afn (un négtivicutes) et apal abra qui se comportent comme les clostridia par ailleurs; bacilli, sans ppmp qui abaisse fortement m/e, 27.4 4.0 6.9, parce que ses effectifs sont les plus petits, total 545 contre 691 pour rtb),
- - La classe: tirée du classement des diagrammes des discontinus x+
- - corelaxc: J'ai présenté 3 diagrammes chacun représentant les 2 courbes de tendances c+ x+ du même génome. Le diagramme de pmq a une corrélation négative maximale de -0.836, celui de ase une corrélation positive maximale de 0.918 et celui de agrc de corrélation nulle, 0.034.
- + Analyse de la corrélation positive: diagramme de la totale avec une corrélation proche de l'unité, formation de la discontinuité sans modification de la séquence d'ADN.
- + Analyse de la corrélation négative: modification de la séquence d'ADN lors de la création de la discontinuité
- + Intérêt de la colonne corelaxc: permet d'avoir une idée des modifications de l'ADN lors de la formation de la discontinuité sans passer à la visualisation des diagrammes.
%x+ m e m/e gen %t30c m e m/e gen %t30x m e m/e gen
actino 38.1 3.9 9.7 4 actino 18.7 4.7 4.0 4 actino 10.0 2.0 5.2 4
alpha 32.6 3.4 9.5 14 alpha 26.3 3.4 7.6 13 alpha 14.0 7.3 1.9 14
archeo 31.7 3.1 10.1 4 archeo 22.7 11.6 2.0 4 archeo 8.7 9.0 1.0 4
bacilli 28.6 2.6 10.9 7 bacilli 29.0 6.6 4.4 7 bacilli 6.0 3.7 1.6 8
clostridia 21.5 1.5 14.3 8 clostridia 27.8 3.8 7.3 8 clostridia 3.7 2.9 1.3 8
gamma 34.8 3.2 10.9 9 gamma 28.7 3.8 7.6 9 gamma 5.2 1.7 3.0 9
clostri+ 21.0 1.8 11.4 11 bacilli+ 27.2 7.9 3.5 8 alpha- 16.9 5.3 3.2 11
total 30.3 6.2 4.9 58 total 28.2 8.1 3.5 58 total 9.3 7.1 1.3 58
Intergen51. Classement des courbes CDS-CDS positifs continus.
modifier
Intergen51. Classement des courbes CDS-CDS positifs continus fc40
modifier
- Diagrammes fc40 par groupe de forme: fc+40 D0 fc+40 D1 fc+40 D2 fc+40 S1 fc+40 S2 fc+40 S3 fc+40 X fc+80 X+D0
- Diagrammes fc40 par clade: archeo-c alpha-c clostridia-c bacilli-c actino-c gamma-c
- Pense bête
- - Le diagramme en V: sur 58 étudiés, 14 non, 3 faibles et 41 forts.
- alpha 14 5472 0.973 6-7 fort.
- + forts rpm 0.787 rru 0.876; 6-7 574 631; sup 0.817 oan1 oan2 agrc agrl, 6-7 sauf agrc 8, 463 361 440 374
- + faibles abs et p 0.726 0.450, 6, 466 271
- + non abq 193 et p 291, rtb 131 rpl 129 aua 149 pub 367 (0.977)
- gamma 9 bacilli 8 clostridia 8; tous forts, 5728 0.908 6 6587 0.921 7 5583 0.916 8 .
- actino 4, 2956 0.783 7 faible
- + forts ase 6 0.793 1166
- + non sma 0.761 862 ksk 0.620 687 blo 0.628 241
- archeo 4, 1650 0.758 7 faible .
- + forts 6 mfi mja 0.749 368, 0.595 474
- + faible mfe 7 0.772 1166
- + non mba 0.581 428
- reste, 11.
- + forts bde 6 sup 0.871 813 875 838
- + forts afn scc 6 sup 0.820 581 388
- + forts tener abar apal 6-7 sup 0.895 420 391
- + non bacteroide fps myr sup 0.917 561 899
- + non cyano npu pmg 0.555 607, 0.764 450
- - Le V n'existe pas chez les discontinus même quand il y a un effectif élevé dans la plage 1-40, et la plupart des cas, ces effectifs sont très faibles pour faire un diagramme.
- Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc40. Contient les effectifs et les taux des zéros. A la suite du tableau il y a les différences mx42-mx162 et l'indice i.6.
- Légende: Lien aux données des intercalaires 200 pour le calcul des pourcentages. Ne contiennent pas les effectifs et les taux des zéros.
- - maxp, 1-8-11 et de façon symbolique, a b x, abscisses 1 et 11 des maxima, 8 du minimum, choisis pour le calcul des pentes. J'ai essayé de coller le plus à la courbe de tendance des diagrammes publiés en admettant que les vrais extrêmes sont sujets aussi à des fluctuations comme tous les autres relevés. Ainsi, dans l'exemple de cbn 1-8-11, je n'ai pas pris l'abscisse 12 qui est le vrai maximum.
- - Pourcentage, s0 s6 sx s18 s42 t42: En suivant les symboles de maxp, somme des pourcentages (ordonnées) des zéros, de 1 à b + zéros, de b+1 à x-1, de x à 18, de 19 à 42. t42 étant le total de x+18+42 à comparer avec s6.
- - Pentes par %, p6 x 18 42: ce sont les pentes de a-b, b-x, x-18, 18-42 (sauf agrc avec 18-43). Le calcul de p6 suis le maxp. Les pentes p42 sont multipliées par 1000.
- - Indice de fréquence i.18: Somme de 7 à 18 divisée par 12. Il sert à distinguer entre forme symétrique et dissymétrique avec le rapport 18/30.
- - Indice de fréquence i.30: Somme de 19 à 30 divisée par 12. Il sert à distinguer entre forme symétrique et dissymétrique.
- - Rapport 18/30: i.18/i.30
- - Maxima, mx6 12 42 162: ce sont les vrais maxima de 1-b b-18 19-42 43-162. A comparer avec les symboles a et x où ce dernier se trouve dans b-18.
- - Minima: n6, c'est l'abscisse b reprise ici pour comparer avec la colonne mx12.
- - La profondeur du V: Les diagrammes fc40 se présentent comme un zigzag commençant par un V, \/\. Pour caractériser numériquement l'importance de ce zigzag j'ai additionné les 2 pentes du V, en valeur absolue, colonne px-p6.
- - dgen: ce sont les génomes (gen) pointant sur les diagrammes des formes "diagonale". Voir le tableau de classement de ces diagrammes.
- - Classement: C'est la colonne Form, je l'ai construite sur l'ordre croissant de la colonne mx12. Puis j’ai caractérisé les diagrammes par leurs formes, S pour symétrique, D pour dissymétrique et X pour anomalie des ordonnées des fréquences 6 qui sont au même niveau que les fréquences de la plage x-18. Les sous-divisions permettent de repérer facilement les maxima mx12. Les X, associés à la pente p18 qui m'a permis de distinguer entre symétrie et dissymétrie présentent un diagramme plat, npu sma ksk. Les X présentent surtout un excès des fréquences 6 et retrouvent quelque fois la forme des diagrammes S ou D, sans cette fréquence (myr fps pmg). Diagrammes des X sur la plage 7-40, en pour 1000, ‰, du total des intercalaires positifs continus.
- - Les maxima de ppmp vbp2 ne respectent pas le tri croissant de mx12. Pour les classer j'ai du corréler mx12 avec l'indice de la plage 7-18 des intercalaires,i.18, en l'abscence de 4 génomes, ppmp vbp2 abra ant. L'équation de la droite de tendance est f(x)=1.823x-0.859 avec un R2 de 0.846. La colonne des indices i.18 se trouve dans le tableur avec la sauvegarde du tableau. Le génome ppmp a un indice de 5.1 et son mx12 corrigé est 8.5. Le génome vbp2 a un indice de 12.1 et son mx12 corrigé est 21.2. Je n'ai pas corrigé abra et ant parce que leurs maximas ne perturbe pas le tri.
int51.40 Intergen51. Classement des courbes CDS-CDS positifs continus fc40.
clade |
gen |
c+ |
zéros |
maxp |
s0 |
s6 |
sx |
s18 |
s42 |
t42 |
p6 |
px |
p18 |
p42 |
I.18 |
I.30 |
18/30 |
mx6 |
mn6 |
mx12 |
mx42 |
mx162 |
px-p6 |
Form |
gen
|
arc2 |
mfe |
2 011 |
17 |
1-7-10 |
8 |
70 |
7 |
44 |
86 |
137 |
-2,07 |
1,82 |
-0,37 |
21 |
4,39 |
3,90 |
1,13 |
14,4 |
1,5 |
7,5 |
6,0 |
6,0 |
3,9 |
D01 |
mfe
|
arc1 |
mba |
2 379 |
21 |
2-7-10 |
9 |
61 |
5 |
52 |
77 |
134 |
-2,27 |
2,10 |
-0,32 |
-105 |
4,90 |
3,29 |
1,49 |
13,0 |
1,7 |
8,0 |
6,3 |
5,0 |
4,4 |
D02 |
mba
|
bac8 |
ppmp |
438 |
3 |
2-7-13 |
7 |
41 |
11 |
50 |
112 |
174 |
-1,37 |
2,66 |
-1,37 |
-190 |
5,14 |
4,38 |
1,17 |
9,1 |
0,0 |
16,0 |
13,7 |
9,1 |
4,0 |
D03 |
ppmp
|
bac7 |
ppm |
3 176 |
19 |
1-8-12 |
6 |
68 |
13 |
57 |
134 |
203 |
-1,53 |
1,50 |
-0,47 |
-144 |
6,51 |
6,80 |
0,96 |
14,5 |
3,8 |
9,8 |
8,2 |
6,0 |
3,0 |
D04 |
ppm
|
bac6 |
pmq |
4 540 |
26 |
1-9-12 |
6 |
67 |
10 |
57 |
136 |
203 |
-1,16 |
2,06 |
-0,07 |
-174 |
6,50 |
6,00 |
1,08 |
11,5 |
2,2 |
9,9 |
9,9 |
5,3 |
3,2 |
D05 |
pmq
|
clo2 |
cbei |
4 010 |
19 |
1-7-11 |
5 |
53 |
14 |
80 |
102 |
196 |
-1,95 |
2,49 |
-0,36 |
-239 |
8,00 |
5,34 |
1,50 |
13,7 |
2,0 |
12,7 |
8,0 |
5,0 |
4,4 |
D11 |
cbei
|
clo7 |
hmo |
1 867 |
17 |
2-8-13 |
9 |
94 |
29 |
58 |
119 |
207 |
-2,77 |
1,82 |
-0,64 |
-290 |
7,99 |
6,07 |
1,32 |
20,4 |
3,7 |
12,9 |
10,2 |
8,0 |
4,6 |
D12 |
hmo
|
bac4 |
lbu |
1 098 |
10 |
2-7-9 |
9 |
104 |
4 |
128 |
134 |
266 |
-6,01 |
6,38 |
-0,61 |
-152 |
11,23 |
7,51 |
1,49 |
32,8 |
2,7 |
15,5 |
15,5 |
7,3 |
12,4 |
D13 |
lbu
|
clo5 |
cdc8 |
2 727 |
39 |
1-6-11 |
14 |
79 |
24 |
107 |
164 |
295 |
-3,01 |
2,27 |
-0,43 |
-290 |
10,94 |
8,65 |
1,27 |
19,4 |
2,6 |
16,9 |
10,3 |
5,5 |
5,3 |
D14 |
cdc8
|
clo1 |
cbc |
2 572 |
24 |
1-7-11 |
9 |
69 |
17 |
95 |
131 |
243 |
-3,37 |
2,43 |
0,11 |
-340 |
9,46 |
6,93 |
1,36 |
21,4 |
1,2 |
17,1 |
9,3 |
5,1 |
5,8 |
D15 |
cbc
|
clo4 |
cdc |
2 589 |
37 |
1-6-11 |
14 |
82 |
26 |
103 |
158 |
286 |
-3,55 |
2,24 |
-0,33 |
-306 |
10,72 |
8,21 |
1,31 |
21,2 |
2,3 |
17,4 |
9,7 |
5,8 |
5,8 |
D16 |
cdc
|
clo3 |
cbn |
1 775 |
10 |
1-8-11 |
6 |
86 |
16 |
100 |
159 |
275 |
-2,25 |
2,44 |
-0,16 |
-423 |
10,61 |
8,50 |
1,25 |
20,8 |
5,1 |
18,0 |
11,3 |
7,3 |
4,7 |
D17 |
cbn
|
bac3 |
lam |
1 248 |
16 |
2-7-9 |
13 |
125 |
13 |
148 |
109 |
270 |
-4,97 |
6,41 |
-0,80 |
-300 |
13,89 |
6,21 |
2,24 |
30,4 |
5,6 |
18,4 |
9,6 |
10,4 |
11,4 |
D18 |
lam
|
bac1 |
ban |
3 289 |
33 |
1-8-12 |
10 |
72 |
18 |
101 |
126 |
245 |
-1,35 |
4,26 |
-1,17 |
-355 |
10,39 |
6,46 |
1,61 |
12,2 |
2,8 |
19,2 |
9,7 |
6,4 |
5,6 |
D21 |
ban
|
clo8 |
psor |
2 350 |
23 |
2-6-11 |
10 |
74 |
31 |
126 |
141 |
297 |
-5,21 |
3,49 |
-0,49 |
-514 |
13,05 |
8,26 |
1,58 |
22,1 |
1,3 |
19,6 |
11,1 |
5,1 |
8,7 |
D22 |
psor
|
spi1 |
scc |
1 000 |
6 |
1-6-9 |
6 |
111 |
19 |
141 |
134 |
294 |
-5,40 |
5,33 |
-0,56 |
-417 |
13,33 |
6,17 |
2,16 |
31,0 |
4,0 |
20,0 |
12,0 |
8,0 |
10,7 |
D23 |
scc
|
bac2 |
bsu |
2 512 |
25 |
1-8-12 |
10 |
88 |
27 |
125 |
147 |
299 |
-1,93 |
4,68 |
-0,66 |
-630 |
13,44 |
7,86 |
1,71 |
16,3 |
2,1 |
21,5 |
11,5 |
8,0 |
6,6 |
D24 |
bsu
|
clo6 |
cle |
2 900 |
35 |
1-7-11 |
12 |
81 |
27 |
115 |
146 |
288 |
-2,82 |
4,14 |
-1,33 |
-287 |
11,98 |
7,67 |
1,56 |
19,3 |
2,4 |
22,1 |
11,7 |
5,2 |
7,0 |
D25 |
cle
|
ter2 |
apal |
919 |
10 |
1-6-10 |
11 |
134 |
27 |
164 |
111 |
303 |
-8,27 |
4,08 |
-0,16 |
-725 |
16,50 |
5,62 |
2,94 |
45,7 |
4,4 |
25,0 |
14,1 |
8,7 |
12,4 |
D26 |
apal
|
bac5 |
lmo |
1 849 |
27 |
2-7-12 |
15 |
99 |
29 |
147 |
144 |
320 |
-3,79 |
5,08 |
-0,81 |
-901 |
14,83 |
8,79 |
1,69 |
21,6 |
2,7 |
28,1 |
16,2 |
6,5 |
8,9 |
D27 |
lmo
|
arc3 |
mfi |
1 545 |
29 |
2-6-11 |
19 |
83 |
30 |
62 |
87 |
179 |
-2,91 |
1,29 |
-0,46 |
-189 |
7,66 |
3,78 |
2,03 |
16,2 |
4,5 |
11,7 |
7,8 |
8,4 |
4,2 |
S11 |
mfi
|
al1 |
abq |
1 565 |
4 |
4-9-13 |
3 |
98 |
47 |
41 |
122 |
210 |
-2,30 |
2,24 |
-1,92 |
0,05 |
9,42 |
5,91 |
1,59 |
16,6 |
7,7 |
14,06 |
8,3 |
8,9 |
4,5 |
S12 |
abq
|
ga5 |
spl |
2 482 |
17 |
2-6-10 |
7 |
79 |
29 |
81 |
98 |
208 |
-4,03 |
4,03 |
-0,65 |
-235 |
9,20 |
4,83 |
1,90 |
21,4 |
5,2 |
14,10 |
8,5 |
5,6 |
8,1 |
S13 |
spl
|
ga1 |
amed |
2 382 |
12 |
2-6-9 |
5 |
63 |
12 |
86 |
101 |
199 |
-3,67 |
3,92 |
-0,79 |
-122 |
8,15 |
4,62 |
1,77 |
17,2 |
2,5 |
14,3 |
6,7 |
7,1 |
7,6 |
S14 |
amed
|
al3 |
abs |
1 570 |
6 |
2-6-13 |
4 |
70 |
61 |
48 |
129 |
238 |
-1,43 |
2,23 |
-1,35 |
27 |
9,13 |
6,05 |
1,51 |
15,3 |
5,7 |
14,6 |
8,3 |
10,2 |
3,7 |
S15 |
abs
|
alp3 |
rpm |
1 847 |
9 |
2-6-12 |
5 |
86 |
44 |
73 |
120 |
237 |
-3,79 |
1,89 |
-1,53 |
-152 |
9,75 |
6,05 |
1,61 |
19,5 |
4,3 |
15,7 |
9,2 |
5,4 |
5,7 |
S16 |
rpm
|
alp4 |
rru |
2 136 |
12 |
2-7-11 |
6 |
96 |
24 |
78 |
112 |
214 |
-1,97 |
2,69 |
-1,67 |
39 |
8,93 |
5,34 |
1,67 |
20,1 |
5,1 |
15,9 |
7,5 |
7,5 |
4,7 |
S17 |
rru
|
al2 |
abqp |
921 |
2 |
1-9-11 |
2 |
85 |
7 |
84 |
153 |
243 |
-0,54 |
4,34 |
-0,60 |
-181 |
9,41 |
6,51 |
1,44 |
10,9 |
6,5 |
16,3 |
11,9 |
8,7 |
4,9 |
S18 |
abqp
|
ga6 |
vha1 |
1 945 |
9 |
2-6-9 |
5 |
88 |
15 |
115 |
104 |
234 |
-3,73 |
3,43 |
-0,51 |
-343 |
10,84 |
5,14 |
2,11 |
20,6 |
5,7 |
16,5 |
7,7 |
16,5 |
7,2 |
S19 |
vha1
|
al4 |
absp |
873 |
0 |
3-6-13 |
0 |
61 |
54 |
65 |
139 |
258 |
-4,96 |
1,80 |
-0,92 |
-334 |
9,93 |
6,68 |
1,49 |
18,3 |
3,4 |
17,18 |
10,3 |
10,3 |
6,8 |
S20 |
absp
|
al7 |
aua |
1 803 |
0 |
3-7-11 |
0 |
100 |
27 |
62 |
101 |
190 |
-3,47 |
1,53 |
-1,27 |
-44 |
7,90 |
5,18 |
1,53 |
20,0 |
6,1 |
17,19 |
8,3 |
7,2 |
5,0 |
S21 |
aua
|
act1 |
ase |
3 854 |
13 |
1-6-9 |
3 |
75 |
17 |
91 |
133 |
241 |
-1,71 |
2,34 |
-1,56 |
86 |
9,02 |
5,34 |
1,69 |
15,6 |
7,0 |
17,4 |
9,1 |
6,7 |
4,0 |
S22 |
ase
|
al8 |
oan1 |
1 517 |
9 |
2-7-10 |
6 |
114 |
22 |
90 |
93 |
206 |
-4,61 |
3,96 |
-1,32 |
-220 |
9,94 |
4,39 |
2,26 |
29,7 |
6,6 |
18,5 |
7,3 |
6,6 |
8,6 |
S23 |
oan1
|
bct2 |
fps |
1 628 |
15 |
1-8-10 |
9 |
178 |
11 |
76 |
98 |
184 |
-3,86 |
4,61 |
-1,84 |
-26 |
8,91 |
3,53 |
2,52 |
36,9 |
9,8 |
19,0 |
10,4 |
7,4 |
8,5 |
S24 |
fps
|
al5 |
agrc |
1 466 |
3 |
1-8-11 |
2 |
100 |
20 |
83 |
104 |
207 |
-1,95 |
4,32 |
-2,05 |
191 |
9,38 |
5,12 |
1,83 |
21,8 |
4,1 |
19,1 |
8,9 |
7,5 |
6,3 |
S25 |
agrc
|
al6 |
agrl |
1 040 |
2 |
1-6-12 |
2 |
104 |
57 |
93 |
114 |
264 |
-3,27 |
2,88 |
-0,60 |
-521 |
12,50 |
6,25 |
2,00 |
24,0 |
7,7 |
19,2 |
10,6 |
9,6 |
6,2 |
S26 |
agrl
|
bct1 |
myr |
2 273 |
13 |
2-7-11 |
6 |
162 |
35 |
93 |
116 |
244 |
-4,84 |
1,98 |
-1,38 |
-293 |
11,51 |
6,23 |
1,85 |
34,3 |
10,1 |
20,2 |
9,2 |
7,9 |
6,8 |
S27 |
myr
|
bde1 |
cvi |
2 412 |
10 |
1-6-10 |
4 |
92 |
30 |
109 |
118 |
257 |
-3,73 |
3,83 |
-1,71 |
-155 |
11,57 |
5,25 |
2,20 |
24,0 |
5,4 |
20,7 |
7,5 |
8,3 |
7,6 |
S28 |
cvi
|
ga9 |
vpb2 |
828 |
11 |
1-7-9 |
13 |
87 |
10 |
130 |
103 |
243 |
-2,82 |
15,10 |
-2,68 |
-403 |
12,08 |
5,64 |
2,14 |
21,7 |
4,8 |
35,0 |
8,5 |
7,2 |
17,9 |
S29 |
vpb2
|
bde2 |
ade |
2 335 |
17 |
2-5-9 |
7 |
92 |
37 |
134 |
126 |
298 |
-6,28 |
3,43 |
-1,52 |
-196 |
13,42 |
5,50 |
2,44 |
27,0 |
8,1 |
21,8 |
8,6 |
9,4 |
9,7 |
S2a |
ade
|
ga4 |
ecoN |
2 822 |
29 |
2-6-9 |
10 |
92 |
14 |
151 |
126 |
292 |
-3,90 |
5,79 |
-1,26 |
-369 |
13,79 |
6,59 |
2,09 |
21,6 |
6,0 |
23,4 |
9,6 |
6,4 |
9,7 |
S30 |
ecoN
|
ga2 |
eal |
2 286 |
18 |
2-6-9 |
8 |
89 |
16 |
144 |
122 |
282 |
-2,62 |
4,67 |
-1,60 |
-18 |
13,31 |
5,94 |
2,24 |
21,9 |
6,6 |
24,1 |
9,6 |
6,6 |
7,3 |
S31 |
eal
|
ga8 |
vpb1 |
1 757 |
9 |
2-6-9 |
5 |
93 |
20 |
129 |
124 |
274 |
-5,26 |
6,83 |
-1,71 |
-356 |
12,47 |
6,55 |
1,91 |
25,6 |
4,6 |
25,0 |
11,4 |
7,4 |
12,1 |
S32 |
vpb1
|
ga7 |
vha2 |
1 075 |
16 |
1-7-9 |
15 |
77 |
10 |
120 |
81 |
211 |
-1,86 |
11,63 |
-2,17 |
-78 |
11,01 |
4,88 |
2,25 |
13,0 |
1,9 |
25,1 |
9,3 |
15,8 |
13,5 |
S33 |
vha2
|
ga3 |
eco |
2 204 |
16 |
2-6-9 |
7 |
94 |
18 |
155 |
121 |
294 |
-4,31 |
6,50 |
-1,87 |
-227 |
14,41 |
6,50 |
2,22 |
23,1 |
5,9 |
26,3 |
10,4 |
8,2 |
10,8 |
S34 |
eco
|
al9 |
oan2 |
914 |
1 |
1-6-10 |
1 |
113 |
38 |
118 |
135 |
291 |
-4,81 |
4,92 |
-2,46 |
-91 |
13,04 |
6,11 |
2,13 |
28,4 |
4,4 |
28,4 |
10,9 |
9,8 |
9,7 |
S35 |
oan2
|
cya2 |
pmg |
948 |
34 |
2-7-9 |
36 |
191 |
12 |
146 |
170 |
327 |
-3,38 |
8,44 |
-1,88 |
-264 |
14,06 |
7,91 |
1,78 |
28,5 |
11,6 |
28,5 |
13,7 |
9,5 |
11,8 |
S36 |
pmg
|
arc4 |
mja |
1 069 |
11 |
2-6-9 |
10 |
103 |
19 |
170 |
176 |
365 |
-5,61 |
8,73 |
-1,40 |
-312 |
15,75 |
9,59 |
1,64 |
29,9 |
3,7 |
29,9 |
16,8 |
10,3 |
14,3 |
S37 |
mja
|
neg1 |
afn |
1 385 |
9 |
1-7-12 |
6 |
106 |
51 |
139 |
136 |
326 |
-3,97 |
5,92 |
-2,53 |
-572 |
16,13 |
7,94 |
2,03 |
27,4 |
3,6 |
33,2 |
14,4 |
6,5 |
9,9 |
S38 |
afn
|
ter1 |
abra |
980 |
12 |
1-7-11 |
12 |
181 |
44 |
115 |
107 |
266 |
-9,18 |
3,06 |
-0,82 |
-340 |
13,61 |
5,53 |
2,46 |
59,2 |
4,1 |
33,7 |
14,3 |
9,2 |
12,2 |
S39 |
abra
|
bde3 |
ant |
1 700 |
56 |
1-7-10 |
33 |
208 |
79 |
150 |
96 |
325 |
-9,31 |
10,00 |
-1,70 |
-368 |
19,75 |
4,80 |
4,11 |
64,1 |
8,2 |
51,8 |
9,4 |
7,6 |
19,3 |
S3a |
ant
|
cya1 |
npu |
3 999 |
15 |
2-9-14 |
4 |
47 |
16 |
18 |
83 |
117 |
-0,43 |
0,55 |
-0,35 |
42 |
3,77 |
3,50 |
1,08 |
6,3 |
3,0 |
5,8 |
5,0 |
6,5 |
1,0 |
x11 |
npu
|
act3 |
ksk |
3 995 |
4 |
2-8-10 |
1 |
52 |
5 |
36 |
93 |
133 |
-1,17 |
1,38 |
-0,50 |
136 |
3,88 |
3,21 |
1,21 |
10,0 |
3,0 |
6,8 |
7,5 |
6,8 |
2,5 |
x12 |
ksk
|
act4 |
sma |
3 894 |
11 |
2-7-10 |
3 |
65 |
14 |
55 |
98 |
167 |
-1,13 |
1,20 |
-0,74 |
-32 |
6,21 |
3,96 |
1,57 |
12,1 |
5,6 |
9,2 |
6,9 |
5,6 |
2,3 |
x13 |
sma
|
alp2 |
rpl |
527 |
5 |
2-7-12 |
9 |
102 |
34 |
47 |
74 |
156 |
-2,66 |
1,52 |
-0,95 |
-237 |
7,27 |
4,11 |
1,77 |
20,9 |
5,7 |
13,3 |
11,4 |
11,4 |
4,2 |
x14 |
rpl
|
act2 |
blo |
1 045 |
1 |
2-7-10 |
1 |
60 |
13 |
71 |
93 |
177 |
-2,11 |
2,23 |
-0,72 |
-40 |
7,34 |
4,55 |
1,61 |
14,4 |
3,8 |
13,4 |
8,6 |
10,5 |
4,3 |
x15 |
blo
|
alp5 |
rtb |
505 |
4 |
2-7-12 |
8 |
103 |
42 |
51 |
71 |
164 |
-1,98 |
1,32 |
-0,40 |
-248 |
8,25 |
3,80 |
2,17 |
25,7 |
5,9 |
13,9 |
7,9 |
11,9 |
3,3 |
x16 |
rtb
|
alp1 |
pub |
601 |
58 |
2-6-8 |
97 |
448 |
20 |
125 |
126 |
271 |
-17,89 |
-0,42 |
-1,16 |
-208 |
12,06 |
5,41 |
2,23 |
94,8 |
23,3 |
21,6 |
8,3 |
13,3 |
17,5 |
x17 |
pub
|
act5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
alp6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
arc5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bac9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bct3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bde4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clo9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
cya3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
gam |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
neg2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ter3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clade |
gen |
c+ |
zéros |
maxp |
s0 |
s6 |
sx |
s18 |
s42 |
t42 |
p6 |
px |
p18 |
p42 |
I.18 |
I.30 |
18/30 |
mx6 |
mn6 |
mx12 |
mx42 |
mx162 |
px-p6 |
Form |
gen
|
m |
|
|
15,44 |
|
8,9 |
85,1 |
22,7 |
96,1 |
116,5 |
239,7 |
-3,1 |
3,3 |
-1,1 |
-259,3 |
10,9 |
6,0 |
1,7 |
20,7 |
4,5 |
18,7 |
9,9 |
8,0 |
7,1 |
|
|
e |
|
|
9,65 |
|
6,4 |
19,7 |
10,1 |
33,5 |
22,5 |
43,4 |
1,3 |
1,6 |
0,5 |
90,4 |
2,6 |
1,3 |
0,4 |
6,6 |
1,8 |
6,5 |
2,5 |
2,4 |
3,1 |
|
|
m/e |
|
|
1,60 |
|
1,4 |
4,3 |
2,2 |
2,9 |
5,2 |
5,5 |
-2,5 |
2,1 |
-2,3 |
-2,9 |
4,1 |
4,5 |
4,9 |
3,2 |
2,5 |
2,9 |
3,9 |
3,3 |
2,3 |
|
|
plage |
|
|
2-39 |
|
2-36 |
41-134 |
10-47 |
41-151 |
71-164 |
156-303 |
5,6-1,2 |
1,2-6,8 |
2-0,5 |
423-91 |
6,2-16,5 |
3,8-8,8 |
1,1-2,3 |
9-37 |
1,5-8 |
7-35 |
5-17 |
5-17 |
2,3-14 |
|
|
gen |
|
|
52 |
|
52 |
52 |
48 |
53 |
56 |
49 |
47 |
51 |
43 |
38 |
52 |
53 |
52 |
53 |
51 |
56 |
58 |
58 |
54 |
|
|
Intergen51. Classement des courbes CDS-CDS positifs continus fc40.Note
modifier
- La note sur le classement des fc40: je l'ai déjà faite avant de changer les diagrammes de effect à %. La construction ancienne, svg-fc200-241024 (svg-fc200 note), est la même mais j'ai supprimé certaines colonnes. Reprendre ici cette note en l'adaptant après l'introduction.
- Il faut tout vérifier, notamment les moyennes, à cause des erreurs des diagrammmes de aua abq absp.
- dissymétrique fort D2 psor
- symétrie forte S3 eco
- dissymétrique courte D1 lam
- symétrie à rebond S1 abs
- plat X npu
- Intercalaires de 0-6 excessifs masquant le rebond à la fréquence 12, pub
- Les diagrammes fc40
- - Lien au tableur: Moyennes par clade et forme.
- - A la différence des diagrammes c+, fc1 et fc41, dont les abscisses sont des lots de 10 fréquences consécutives (freq10), ici ce sont des fréquences unitaires (freq1). Les ordonnées sont en ‰ du total des intercalaires positifs continus, sauf pour les images des fc40 des totaux des clades qui sont en effectif (effect).
- - Les diagrammes fc+, en fréquences unitaires sont apparus dès les 1ères investigations en comparaison des intercalaires négatifs fc- et fx- qui avaient très peu d'effectifs et ne nécessitaient pas de regroupement en lots de 10 fréquences consécutives. Dans les 1ères études j'avais essayé de retrouver des cycles ternaires comme avec les négatifs, mais ce n'était pas systématique. Aussi j'ai gardé les étiquettes modulo 6 (exemple lbu).
- - Les 4 courbes des clades alpha-c, gamma-c, bacilli-c, clostridia-c, cumuls, respectivement, de 14 9 8 8 génomes (éléments). Elles se distinguent par leurs formes qui collent parfaitement à la courbe de tendance en polynôme de d° 12 avec, respectivement, un coefficient de détermination de 0.973 0.908 0.916 0.921. Pour les besoins du classement j'ai divisé ces courbes en 4 régions:
- région de l'abscisse 1 à 6, avec une pente forte négative
- région de l'abscisse 6 à 12, avec une pente forte positive
- région de l'abscisse 12 à 18, avec une pente forte négative pour gamma et alpha et une pente faible pour bacilli et clostridia
- région de l'abscisse 18 à 40, avec une pente négative très faible pour alpha et gamma, et faible jusqu'à l'abscisse 24 puis très faible au-delà pour bacilli et clostridia.
- A cette division schématique en 4 régions, les courbes réelles de ces 4 clades ont des frontières qui varient légèrement et ne permettent pas, donc, d'appliquer les mêmes calculs, de pente et de cumuls, pour les 4 clades, et encore moins quand je dois les appliquer aux génomes individuellement. Les frontières réelles sont,
- alpha minimum à 7, maximum à 12, maximum de la courbe à 12 ( c12 ). Courbe en cloche symétrique avec 18 en bas et possède un épaulement entre le minimum 7 et le maximum 12. Le maximum de la région 1 à 6 ne se trouve pas en 1 mais en 2.
- gamma min 6, max 9, c10, cloche symétrique avec 18 en bas, sans épaulement entre le minimum 6 et le maximum 9. Le maximum de la région 1 à 6 ne se trouve pas en 1 mais en 2.
- bacilli min 8, max 12, c14, cloche dissymétrique avec 18 dans un épaulement presque au niveau de c14. Le maximum de la région 1 à 6 se trouve en l'abscisse 1.
- clostridia min 7, max 12, c13, cloche dissymétrique avec 18 dans un épaulement presque au niveau de c13. Le maximum de la région 1 à 6 se trouve en l'abscisse 1.
- - Calcul rapproché des pentes des régions: Le calcul des pentes devrait se faire mathématiquement en calculant la tangente passant par les points d'inflexion, avec les dérivées 1ère et seconde de l'équation de la courbe de tendance. Cependant les solutions de ces équations de d°11 et d°10 sont difficiles à calculer. Un calcul numérique approché, en utilisant le tableur, est possible en repérant un point et en calculant ces dérivées de façon itérative pour obtenir un minimum ou un maximum supposé. Et même, dans ce cas, il faudrait relevé à la main une vingtaine de coefficients pour les d°12 et d°11, puisque le tableur de LibreOffice ne permet pas d'obtenir directement ces coefficients à 16 décimales qu'on peut stocker dans une cellule adressable. Aussi j'ai opté pour un calcul simple entre 2 points définissant un segment de droite le plus rapproché de la tangente au point d'inflexion considéré. Chez les 4 clades ci-dessus j'aurais choisi,
- pour alpha, les abscisses 3-7-12. La pente de la région 1-6 est alors [ordonnée(7)-ordonnée(3)]/(7-3), celle de la région 6-12 [(12)-(7)]/(12-7), celle de 12-18 et celle 18-40 de même et ainsi de suite. J'ai ignoré dans ce calcul l'épaulement entre min7 et max12.
- pour gamma, les abscisses seraient 2-6-10. Je ne présente pas l'abscisse 18, parce qu'elle sera toujours la même.
- pour bacilli, j'aurais pris 1-8-11
- pour clostridia, j'aurais pris 1-7-10
- - Confection du tableau de classement des fc40: En se basant sur ces 3 abscisses, de la colonne maxp, le tableur permet de calculer facilement les autres colonnes avec des fonctions (du tableur) qui peuvent être copiées d'un génome à l'autre en adaptant la zone sélectionnée, par glissement de son rectangle, selon les abscisses de maxp. Voir le récapitulatif des calculs à la fin de cette note des fc40.
- - Analyse des colonnes du classement, génome par génome. Les valeurs faibles sont indiquées en bleu et les fortes en gras. En bas du tableau sont indiqués la moyenne, l'écart type de la plage sans les extrêmes de chaque colonne ainsi que leur rapport m/e pour une indication de la dispersion.
- Les pourcentages d'après la notation a-b-x utilisée pour la colonne maxp
- Colonne s0, taux des zéros intercalaires positifs continus
- Les zéros représentent les opérons standards, aucun intercalaire entre 2 enzymes. Les intercalaires -1 me semblent appartenir aux opérons aussi parce qu'il me semble que j'ai déjà vu des opérons comme ça dans [65] EcoCyc, la traduction dans le ribosome se décale d'une paire de base. Est-ce que c'est le cas pour les intercalaires de 1 à 6? qui diminueraient progressivement, le décalage devenant de plus en plus difficile? Est-ce que les zéros peuvent exister autrement que dans un opéron?
- Hétérogénéité des zéros, colonne zéros en effectifs: aua n'a pas de zéros et 100 ‰ intercalaires de 1 à 7 comme absp avec 61 ‰ de 1 à 6; blo a un seul intercalaire zéro et 59 ‰ de 1 à 7; oan2 1 et 112 ‰ de 1 à 6. Les autres génomes ont 2 zéros et plus et des intercalaires 1-6 très nombreux. A l'autre extrême il y a 9 génomes sur 58 qui ont plus de 28 zéros dont pub 58 soit 97‰ , ant 56 33‰, cdc et cdc8 38 14‰, cle 35 12‰, pmg 34 36‰, ban 33 10‰, mfi 29 19‰ et ecoN 29 10‰. Les alpha ont une moyenne, en ‰, de 3.6 (sans pub), les gamma 8.4, les bacilli 9.4 et les clostridia 9.9.
- Le pic des intercalaires 0-3, les zéros sont toujours inférieurs à int1, ce qui fait que 1-3 est un pic, sauf pour pub mfi pmg vha2 ppmp.
- Les intercalaires int-1 peuvent former un autre pic plus élevé que celui de int1-3. Par exemple pub a 152 c- en int-1 alors qu'en c+ le max int1-3 est à 58.
- colonne s6, somme des taux des intercalaires de 0 à b paires de bases
- Ces intercalaires sont assez homogènes quand je considère la totale, avec m e m/e, 85.1 19.7 4.3 sur 52 génomes. Cependant, en considérant les clades, l'homogénéité augmente mais je ne retrouve pas les différences nettes qu'avec la colonne des zéros: alpha (sans pub) 94.7 15.6 6.1; bacilli (sans ppmp) 89.0 21.7 4.1, clostridia 77.4 12.4 6.3, gamma 84.7 10.2 8.3.
- Les minima présentent des anomalies dans les abscisses de 1 à b. Avec ppmp, 41‰, le pic de la colonne se trouve en l'abscisse 5 et le minimum b en 7. Avec npu,47‰, le pic est en 5 et le minimum est en 9 pas en b qui est 7.
- Les maxima (des pics a) présentent des taux très élevés. Avec pub, 448 ‰, le pic (58) se trouve en 2 et le zéro (58) et le maximum x (de maxp) est insignifiant et la courbe de tendance ressemble à un polynôme de d°3. Le génome pmg présente une anomalie à la colonne s6: Le taux très élevé de 191 ‰ est réparti sur 5 pics, 0 2 3 4 6; Le minimum b est à 7; Le polynôme 12 ne correspond pas au sommet en cloche du total mais le diagramme en % à partir de l'abscisse 7 présente un sommet symétrique qui était caché par la prédominance de la colonne s6. Les autres génomes, ant abra fps myr (taux 208 ‰ 181 178 162) ont des polynômes 12 normaux pour ant (qui a un pic à zéro de 56 en effectif) et abra, et des polynômes normaux mais escamotés par la prédominance de la colonne s6 pour fps et myr. Les diagrammes 7-40 de ces derniers, en pourcentage, le montrent bien.
- colonne sx, somme des taux des intercalaires de b+1 à x-1 paires de bases
- - Cette colonne est difficile à déterminer car mon objectif était de montrer que la pente p6 est raide et donc que les valeurs de cette colonne seraient faibles. Mais certains génomes présentent des pics dans cette région qui font que les valeurs de la colonne peuvent être élevées alors que la pente est faible. C'est le cas de abs absp agrl (valeurs en gras) pour le clade alpha. Le clade alpha et bacilli sont très hétérogènes pour cette colonne avec 2 valeurs faibles (valeurs en bleu) ne correspondant pas à une pente forte. C'est le cas de abqp et lbu. Les clades clostridia et gamma sont un peu plus homogènes. Les moyennes et écarts pour alpha et bacilli sont (m m/e), respectivement, 35.5 2.2 et 15.5 1.8 . Alors que pour clostridia et gamma les écarts sont plus élevés, respectivement, 22.9 3.6 et 16.0 2.7. Il serait peut être intéressant d'additionner les 2 colonnes sx et s18 pour comparer la somme à la colonne s6.
- colonne s18, somme des taux des intercalaires de x à 18 paires de bases
- Cette colonne a pour 1er objectif de distinguer entre les sommets en cloche symétriques et dissymétriques, et de comparer les 2 colonnes s6 et s18. Les 2 colonnes, s6 s18, sont globalement semblables avec, respectivement les moyennes m e m/e, 85.1 19.7 4.3 52gen - 96.1 33.5 2.9 53gen, sans les extrêmes.
- La comparaison de la symétrie doit se faire par clade, ayant observé que les clades gamma et alpha, pour la courbe de tendance, ont un sommet en cloche symétrique et les clades clostridia et bacilli ont un sommet dissymétrique. La comparaison des taux dans la colonne s18 montre tout à fait le contraire car ce taux dépend aussi de la hauteur du sommet. Les moyennes par clade le montrent clairement, les moyennes des bacilli et clostridia sont plus faibles que celle de gamma mais plus fortes que celle de alpha:
- clade m e m/e gen
- bacilli 102 42 2,5 8
- clostri 98 21 4,7 8
- alpha 72 22 3,2 13
- gamma 124 26 4,7 9
- les génomes extrêmes:
- sommets dissymétriques: apal 164 lam 148 lmo 147
- sommets symétriques: mja 170 eco 155 ecoN 151 ant 150
- sommets avec une hauteur faible: npu 18 ksk 36 abq 41
- colonne s42, somme des taux des intercalaires de 19 à 42 paires de bases
- Le choix de la limite 42: J'ai mentionné, au début du chapitre les diagrammes fc40, la tentative de repérer des cycles ternaires comme pour les intercalaires négatifs. Ensuite, pour caractériser les diagrammes fc40 j'avais essayer de diviser ce diagramme par tranche de 6 intercalaires jusqu'à l'abscisse 36. Mais, finalement, j'ai choisi un schéma de partage pour chaque génome avec la colonne maxp plus adaptée à la variabilité des frontières. Cependant pour comparer grossièrement entre tranche, du point de vue du taux ou de la pente, j'ai gardé le partage en tranche de 6. Ainsi la colonne s6 a 6 intercalaires, la colonne s18 6 aussi (grossièrement de 12 à 18), la colonne s42 4 fois 6 et la colonne mx162 20 fois 6.
- Comparaison des taux unitaire par région. J'utilise ici la moyenne, m, de chaque colonne indiquée en bas du tableau. Ainsi les colonnes s0 s6 s18 s42 ont les taux unitaires respectifs pour 58 génomes de 9.7 99.9/6 97.2/6 118.5/24 et sans les extrêmes - 8.9 85.1/6 96.1/6 116.5/24, soit, 9.7 16.6 16.2 4.9 et sans extrêmes - 8.9 14.2 16.0 4.9. Pour les pentes des colonnes p6 p18 p42 elles seront proportionnelles à ces taux, voir les paragraphes correspondants ci-dessous.
- La colonne s42 caractérise bien la moitié droite du sommet en cloche de l'abscisse x pour chaque génome et correspond aux formats constatés de la colonne forme qui distingue les sommets symétriques des dissymétriques. C'est ce que ne fait pas la colonne s18 comme je l'ai indiqué ci-dessus. Par ailleurs la colonne s42 est très homogène pour 56 génomes (sans les extrêmes), m e m/e: 116.5 22.5 5.6. Voici les moyennes par clade à comparer avec celles de la colonne s18.
- clade m e m/e gen
- bacilli 130 14 9,4 8
- clostri 140 21 6,5 8
- alpha 113 24 4,7 13
- gamma 109 15 7,1 9
- de même les maxima par clade montrent cette différence entre symétriques et dissymétriques:
- sommets dissymétriques: bacilli 5/8 entre 134 et 147, clostridia 6/8 entre 131 et 164.
- sommets symétriques: abqp 153 absp 139 oan2 135 mja 176, les gamma 9/9 inférieurs à 126, de même pour les autres alpha symétriques.
- sommets avec une hauteur faible: npu 83 ksk 93.
- colonne t42, somme des taux des intercalaires de x à 42 paires de bases
- Les pentes, d'après la notation a-b-x utilisée pour la colonne maxp.
- - Pentes, p6 x 18 42: ce sont les pentes de a-b, b-x, x-18, 18-42 (sauf agrc avec 18-43). Le calcul de p6 suis le maxp.
- - Les moyennes de ces 4 colonnes sont homogènes sans les extrêmes (bleu gras), comme en bas du tableau. Les (moyenne m/e et nombre de génomes) respectifs sont: (-3.1 -2.5 47) (3.4 2.1 51) (-1.1 -2.1 43) (-259.3 -2.9 38). Et pour 58 génomes l'homogénéité est divisée par 2, (moyenne m/e), (-3,7 -1,4) (3.9 1,4) (-1,1 -1,6) (-231.3 -1,1). Les moyennes par clade sont en bas de la note et sont utilisés pour les commentaires qui suivent.
- colonne p6, pente a-b , entre les abscisses a et b colonne p6, pente a-b , entre les abscisses a et b
- - Parmi les 6 clades, 5 ont une moyenne comprise entre 2.8 et 3.6 et actino est largement inférieure avec 1.5. Pour l'homogénéité, 3 sont très homogènes avec un m/e supérieur à 3.1, actino clostridia gamma; 3 sont très hétérogènes, spécialement les bacilli avec 1.5. Les alpha sans pub avec 2.1 et les archéo avec 2.0 sont faiblement homogènes.
- colonne px, pente b-x entre les abscisses b et x
- - Pour la moyenne, j'ai la même configuration que la colonne p6. Une moyenne haute, entre 2.7 et 6.9, pour les mêmes 5 clades et actino avec une moyenne aussi faible de 1.5. Par contre, pour l'homogénéité, seul bacilli change complètement en passant de 1.5 à 2.9 et devient très homogène. Clostridia actino alpha restent les mêmes 3.5 3.1 2.2. Les gamma chutent de moitié et passent de 3.5 à 1.7 comme archeo de 2.0 à 1.0.
- La profondeur px-p6:
- - C'est la 2ème plage de forme après la cloche de la plage 0-6 que j'ai classée avec la lettre F6 (voir ci-dessous la colonne i.6). La 3ème plage de forme est la cloche de la plage 6-18 que j'ai classée dans la colonne form. Je note cette forme de profondeur en V, V6.
- - La colonne n'est pas homogène (m m/e) 7.1 2.3 avec 54 génomes et une étendue 2.3-14.
- - Pour les 4 clades majeurs l'homogénéité est moyenne (m m/e): alpha 5.6 3.0 sans pub, gamma 9.5 4.0 sans vbp2, clostridia 5.8 4.0, bacilli 7.5 2.3. Je note la différence de moyenne entre alpha et clostridia 5.7 faible, d'une part, et celle 8.5 de gamma et bacilli, élevée et qui peut atteindre le double, d'autre part.
- - Pour les classes de la colonne form l’homogénéité est forte si j'omets 1 à 2 génomes par classe. Ainsi (m m/e), D0 3.7 6.5, D1 5.1 8.4 sans lbu lam, D2 7.3 5.2 sans apal scc, S1 6.1 4.1 sans mfi abs, S2 6.9 4.1 sans vbp2, S3 11.1 5.4 sans ant, X 2.9 2.3 sans pub. Je note la corrélation entre mx12 et la profondeur dans les 2 formes D et S, 3.7 5.1 7.3 pour D et 5.0 6.9 11.1 pour S. En outre il faut noter la ressemblance entre D0 et X, 3.7 2.9, qui associe une dissymétrie de ppm et pmq d'une profondeur de 3.1 aux diagrammes D plats mfe mba ppmp avec une profondeur de 4.0, aux diagrammes X plats npu ksk sma avec 2.0 et aux X difformes rtb rpl blo avec 4.0. Par ailleurs les diagrammes à très grande cloche F6 sans symétrie nette de form, fps myr pmg pub ont une profondeur très élevée à cause de l'extrême mx6, 8 7 12 17.
- - Classement de la forme V6: V601 de profondeur 1-3 (5) ppm pmq npu ksk sma, V602 de profondeur 4-4.4 (9) mfe mba ppmp rtb rpl blo mfi abs ase, V61 de profondeur 5.1 (6) D1 sans lbu lam, V62 de profondeur 7.3 (5) D2 sans apal scc, V63 de profondeur 5.0 (7) S1 sans mfi abs, V64 de profondeur 7.3 (9) S2 sans vbp2 ase, V65 de profondeur 11.3 (14) S3 sans ant plus lbu lam scc apal, V66 de profondeur 18.2 (3) pub ant vbp2.
- colonne p18, pente x-18 entre les abscisses x et 18
- - Pour la symétrie, constatée chez les 4 clades principaux alpha gamma clostridia bacilli, cette colonne concorde bien avec elle. Pour la symétrie de alpha et gamma les 2 pentes, à droite du sommet, doivent être plus fortes que pour bacilli et clostridia qui sont dissymétriques. Les moyennes négatives sont respectivement 1.30 1.47 0.33 0.75 et les clostridia (sans cle) sont plus dissymétriques comme je l'ai constaté. Malgré la faiblesse des moyennes l'homogénéité m/e reste élevée pour alpha bacilli gamma, entre 1.86 et 2.19, mais elle est très faible pour les clostridia avec 1.35. Les 2 clades restant sont plus proches de la dissymétrie, 0.88 pour les actino et 0.64 pour les archéo. Cependant actino se démarque encore des archéo par leur homogénéité, 1.89 contre 1.24.
- colonne p42, pente 18-42 entre les abscisses 18 et 42 (multipliée par 1000)
- - Pour les 4 clades principaux la symétrie est respectée, alpha 141, gamma 239, pour les symétriques qui ont épuisé p18, et bacilli 356 clostridia 336 qui ont encore des intercalaires en nombre dans p18.
- Les indices de fréquences
- - i.30. Ces indices donnent une valeur moyenne par intercalaire. Donc c'est la somme des fréquences d'une plage divisée par sa longueur. Les 3 plages utilisées sont: I.6 0-6 de longueur 7, i.18 7-18 de longueur 12 et i.30 19-30 de longueur 12. J'ai commencé par utiliser i.30 pour comprendre pourquoi des génomes à cloche symétriques se comportent comme des génomes dissymétriques (p18 p42): c'est le cas de abqp (-0.60 -181) mfi (-0.46 -189) en comparaison avec lbu (-0.61 -152) cbei (-0.36 -239). Et d'autre part il y a des symétriques qui ont un p42 positif, rru (-1.67 +39) abs(-1.3 +27). Deux constatations, à la vue de ces 4 diagrammes, m'ont poussé à utiliser l'indice i.30:
- abs et rru présentent un rebond au niveau de l'abscisse 30 et cela accentué par l’ordonnée concave de l'abscisse 18. L'indice i.30 sera élevé et indiquera un rebond. Le diagramme de abq a la même forme avec l'abscisse 18 concave et un rebond (-1.92 +0.05).
- mfi et abqp ont une ordonnée convexe à abscisse 18. Ceci explique la faiblesse des pentes p18 et p42 comme pour une dissymétrique. Cependant mfi ne présente pas de rebond net alors que celui de abqp est très prononcé. En fait, comme je l'annoncerai pour le rapport i.18/30, c'est ce dernier qui définit le rebond. Ainsi mfi a un rapport de 2.0 comme les symétriques contre moins de 1.7, comme les dissymétries pour abq abs abqp (les rapports sont indiqués sur les diagrammes en 4ème position).
- - i.18. Cet indice est apparu après i.30 comme je l'ai noté ci-dessus. Mais les moyennes par groupe de forme, qui est ordonné par rapport au maximum mx12, ont révélé que cet indice serait plus homogène que ce maximum. Ainsi les écarts sont semblables sauf pour D0 (-ppmp) et S3 (-ant) de mx12 (i.18 mx12), D0 (5.1 7.1) D1 (5.4 7.2) D2 (6.8 6.8) S1 (10.1 9.8) S2 (6.0 4.1) S3 (9.2 7.6) X (2.5 2.2). Mais (m m/e) avec ppmp D0 (5.7 3.0) et avec ant S3 (6.2 3.7).
- - Le rapport i.18/30. Il m'a permis de visualiser numériquement un sous groupe des symétriques, les symétriques avec rebond en l'abscisse 30 avec un rapport 18/30 des dissymétriques, inférieur à 1.7 (abq.p abs.p aua rpm rru); et un sous groupes des dissymétriques, les dissymétriques à pente p42 courte avec un rapport 18/30 des symétriques, supérieur à 1.7 (lam scc apal bsu).
- - i.6. Ils n'apparaissent pas dans le tableau mais sont dans sa sauvegarde. Cet indice concerne le classement de la forme 0-6. Il est régulièrement homogène (m m/e):
- pour le total , 12.1 4.7 avec 48 génomes et sur une plage 8-19;
- pour les formes D0 8.1 5.7 D1 12.5 5.0 sans cbei D2 12.1 5.2 sans apal S1 11.1 6.7 S2 12.7 5.7 sans myr fps S3 13.6 9.6 sans pmg ant abra.
- pour les clades: actino 8.4 4.8 alpha 12.6 5.2 sans pub archeo 11.2 4.1 bacilli 10.9 4.0 sans ppmp lam clostridia 10.6 6.9 gamma 12.0 8.1.
- Classement des intercalaires de 0 à 6 sans form: Elle sera basée donc sur l'indice i.6 et je donne les noms de classe F6. La classe F60 contient les 4 1ers indices jusqu'à 7.30 nup ppmp ksk cbei, la classe F61 de 8.0 à 11.3, la classe F62 de 11.7 à 19.1 et enfin la classe F63 contient les 6 indices les plus élevés myr fps abra pmg ant pub. Le génome apal a un indice de 19.1 proche de abra avec 25.2 et serait en compagnie des F63.
- Classement des intercalaires de 0 à 6 avec form: A l'image du classement de profondeur px-p6, V6 (voir ci-dessus). F60 D0 8.1 5.7 (5), F61 D1 sans cbei lam 11.7 7.2 (6), F62 D2 sans apal 12.1 5.2 (6), F63 S1 11.1 6.7 (9), F64 S2 sans fps myr 12.7 5.7 (9), F65 S3 sans pmg abra ant 13.6 9.6 (8), F66 X sans pub rpl rtb 7.0 4.5 (4), F67 fps myr apal abra pmg lam 21.9 6.5 (6), F68 pub 63.9 ant 28.6. Je note une progression en parallèle de mx12 beaucoup plus faible qu'avec le classemment V6, D 8.1 10.5 11.3, S 11.1 12.7 14.2
- Les extrêmes, x pour maximum et n pour minimum et notation a-b-x.
- - C'est intéressant pour repérer des pics au-delà de l'abscisse 42, plage que j'étudie au chapitre des fc400, mais aussi pour relativiser ces colonnes entre elles.
- mx6, maximum de la plage des ordonnées de l'abscisse 0 à l'abscisse b
- - Sans ses valeurs extrêmes, cette colonne est très homogène avec un m/e de 3.2. Et sa moyenne est la plus élevée des 4 colonnes des extrêmes, 20.7, mais elle est comparable à la moyenne de l'extrême mx12, 18.7, ce qui justifie l'importance de la plage 0-6 comme je l'ai mentionnée dans l'étude de la colonne s0 des zéros. Les exclus sont npu pour les bleus et pub ant abra apal pour les gras. Je retrouve les 4 extrêmes de la colonne s6 pub pmg ant abra sans fps et myr qui sont remplacés par apal. Ce dernier est très loin de abra dans la colonne s6, 134 contre 181.
- mn6, minimum de la plage des ordonnées de l'abscisse 0 à l'abscisse b
- - Cette colonne est très intéressante en comparaison avec mx162. Ses minima dépassent souvent les maxima de la colonne mx162: la plus grande différence est avec pub, 10 ‰; elle est entre 2.5 et 0.3 pour fps myr pmg ant ase; nulle pour sma eal oan1; et elle est négative au-delà de 2 ‰ jusqu'à 7 ‰ sauf pour ecoN spl rpm aua abq ade qui vont de -0.4 à -1.3 et les extrêmes -9 pour ppmp -11 vha1 -14 vha2.
- mx12, maximum de la plage des ordonnées de l'abscisse x à l'abscisse 18
- - Cette colonne est semblable à mx6. Seulement 13 génomes ont mx6 < mx12, 5 gamma (vha2 vbp2 eco ecoN eal), 4 bacilli (bsu ban ppmp lmo) abqp ase afn cle, les autres ont une différences positive. Les 11 différences positives les plus grandes dépassent 11 ‰, pub 73, abra apal 21, myr fps 14, lbu lam 12, rtb oan1 11, scc ant 11. La colonne mx12 est très homogène sans les bleus et les gras (npu ant) avec un m/e de 2.9.
- mx42, maximum de la plage des ordonnées de l'abscisse 19 à l'abscisse 42
- - A la suite du tableau du classement des fc40, j'ai ajouté une colonne pour les différences mx42-mx162.
- - Ces différences montrent clairement la dissymétrie de la classe D et la symétrie de la classe S1. Les classes S2 et S3 semblent être dissymétriques comme la classe D, mais ça s'explique par leurs sommets très élevés tout en étant symétriques.
- mx162, maximum de la plage des ordonnées de l'abscisse 43 à l'abscisse 162
- - Le résultat le plus important est la valeur la moyenne de 8.0 ‰ que je retrouve dans les diagrammes des X en ‰ sur la plage 7-40 au lieu des valeurs normales que j'ai trouvé dans la colonne mx12, de 18.7 ‰.
- - La colonne est très homogène avec un m/e de 3.3.
- - Le classement par les maxima mx12 Moyennes par clade et classe.
- - La forme du diagramme, form. Je considère ici la forme du polynôme de d° 12 qui doit épouser la forme de celui du total (le fc40 des 58 génomes) avec un minimum autour de l'abscisse 6 et 2 maxima autour de 3 et de 12 suivi d'une pente plus ou moins abrupte, p18. C'est le zigzag que j'ai mentionné dans la légende V\. Le polynôme, tenant compte des 40 points du total, peut ne pas épouser la symétrie de la zone de 6 à 18 intercalaires. Dans certains cas j'attribue la symétrie en m'appuyant sur la série des points. Le classement avec mx12 s’appréhende directement (avec comme repère l'abscisse 12 indiquée sur le diagramme) et plus facilement qu'avec i.18 qui reste abstrait.
- - Pour le classement j'ai affecté, dans un 1er temps, la lettre D pour dissymétrie, S pour symétrie et X pour les 7 restants. Puis j'ai trié sur form croissant puis en 2ème clé croissant mx12. Suivant des ruptures franches j'ai subdivisé D en D0 D1 D2 et S en S1 S2 S3, subdivisions que j'ai noté séquentiellement. Les diagrammes sont réunis dans une image correspondant à un sous-groupe, sous-titrés dans l'ordre par mx12 i.6 i.18 i.18/30. Les valeurs de i.6 sont sauvegardées avec ce tableau dans le tableur (voir lien avant la légende du tableau).
- - Le tri avec mx12 est le même qu'avec i.18, corrélation avec un R2 de 0.817 sans ppmp vbp2 (0.766 avec). Sauf la classe X toutes les autres sont homogènes pour i.18, m/e supérieur à 5.4. Et sauf la classe D0 toutes les autres sont homogènes aussi pour i.30, m/e supérieur à 5.6 (I.30 S3 fait 4.6 mais sans mja 5.8). Dans la légende du tableau j'ai calculé les valeurs de mx12 pour ppmp et vbp2 en utilisant la droite de corrélation et j'ai nommé la forme en conséquence.
- - Calcul de l'homogénéité de D0 sans ppmp: 8,78 1,24 7,08; Calcul de S2 sans vbp2 19.04 1.57 12.15; Calcul de S3 sans ant 27,77 3,65 7,61.
- - Homogénéité des pourcentages 18: D0 D2 S3 sont homogènes (m/e supérieur à 6.1), D1 S1 S2 sont moyens (m/e supérieur à 3.3) mais D1 sans hmo obtient 4.8, S1 sans vha1 obtient 4.1 et S2 sans vbp2 et ade obtient 5.6. L'homogénéité de 42 est supérieur à 4.0 pour tous les groupes mais c'est du aux pourcentages élevés d'une zone 4 fois plus large que 18, 24 intercalaires contre 6. L'homogénéité par clade n'apparait qu'avec gamma et clostridia avec un m/e de 4.7 chacun, sinon les actino archeo bacilli alpha ont moins de 3.0.
- - Les formes secondaires à rebond pour les symétriques (i.18/30 inférieur à 1.70: abq,p abs,p aua rpm rru mja) et à pente courte pour les dissymétriques (i.18/30 supérieur à 1.70: lam scc apal). Noter les petits rebonds (surtout au niveau de l'abscisse 21: mja vha2 eco ecoN eal ona2 vbp2 ase amed mfi).
- Symétrie
- - C'est avec avec un maximum mx12 fort qu'on apprécie la symétrie, notamment le groupe S3. Si je ne considère que la courbe du polynôme 9 génomes paraissent symétriques, mja a un fort rebond qui le rapproche des dissymétriques avec un rapport i.18/30 de 1.6, et pmg qui est masqué avec un taux i.6 très élevé de 25.6 et aussi un rapport i.18/30 de 1.8 proche des dissymétriques.
- - Parmi les 9 génomes symétriques eco oan2 abra présentent une symétrie de la série 6-18, avec les ordonnées de 6 et 18 presque au même niveau et un mx12 de 11 ou 12; vha2 eal se rapprochent de ces 3 derniers mais leur sommet est fourchu; ant a une symétrie comme les 3 1ers mais sa cloche est décalée vers la gauche avec un mx12 de 9 et une plage 5-17 au lieu de 6-18; les 3 derniers, ecoN afn vbp1, ont une ordonnée (18) trop élevée avec un rapport i.18/30 faible (2.1 2.0 1.9) mais qui affaiblir la pente p18 comme les dissymétriques.
- - Il faut remarquer que sur les 9 symétriques en poly12 2 seulement ne sont pas des proteobacteria, afn et abra et 5 sont des gamma. C'est ce qui explique l’homogénéité des gammas observée ci-dessus de m/e de 4.7, si l'on ajoute les gammas des groupes S2 (vbp2) et S1 (spl amed vha1).
- - Il y a 20 symétriques dont les 9 de S3.
- Symétrie de la série 6-18 comme eco oan2 abra: oan1 vbp2 S2, spl S1. Total 6 à symétrie de la série 6-18.
- Sommet fourchu comme vha2 eal: agrc ade cvi S2, mfi S1. Total 6 à symétrie avec sommet fourchu
- cloche décalée comme ant: ase S2. Total 2 à symétrie de cloche décalée.
- ordonnée (18) élevée comme ecoN afn vbp1: agrl S2, amed vha1 S1. Total 6 à symétrie avec ordonnée (18) élevée.
- - Il y a 8 symétriques à rebond avec i.18/30 inférieur à 1.70: abq,p abs,p aua rpm rru mja. Le rebond est net visuellement pour 7 sauf pour rpm qui a un rapport i.18/30 très faible, 1.63, plus faible que celui de rru, 1.69.
- - Les petits rebonds des symétriques nets, surtout au niveau de l'abscisse 21: vha2 eco ecoN eal ona2 vbp2 ase amed mfi.
- - Cas de mja S3 à 2 cloches symétriques en l'abscisse 12 et 21. La 2ème cloche est analogue à celle de vha2 S3 mais en plus grand: ordonnée(21) 15.0 contre 8.4.
- - il y a 3 symétriques masqués par le maximum 3: myr fps pmg.
- Dissymétrie
- - C'est avec un maximum mx12 fort et une pente p18 faible que j'apprécie la dissymétrie, notamment avec le groupe D2. Si je ne tiens compte que de la longueur de la pente p18, 5 génomes sur 7 de ce groupe sont dissymétriques nettement. Les 2 autres génomes, scc et apal, ont une pente faible comme les autres mais elle s'arrête rapidement, à l'abscisse 17 pour scc et 21 pour apal, alors que les 5 autres, elle s'arrête au-delà de l'abscisse 30 et même 36 pour psor et cle.
- - Les clostridia forment un groupe homogène comme je l'ai signalé pour les gamma avec un m/e de 4.7 du pourcentage 18 et 5.4 du mx12. Outre psor cle, dans le groupe D2 les 6 clostridia restant ont tous une pente longue qui va au-delà de l'abscisse 30. Ce clade se distingue des bacilli par un rapport i.18/30 très faible 1.3 pour les 6 du groupe D1. Psor et cle ont un rapport standard de 1.6. Total de 8 clostridia à dissymétrie nette.
- - Les bacilli est un groupe hétérogène avec un m/e de 2.5 pour le pourcentage 18 et 2.9 pour mx12. Cette hétérogénéité est due surtout à ppm ppmp pmq du groupe D0 avec un indice i.18 très faible, respectivement, 6.5 5.1 6.5 et de même pour le rapport i.18/30 parmi les plus faibles, 1.0 1.2 1.1. Seul ppmp peut être exclu des dissymétriques à cause de son taux i.18 du même niveau que les génomes plats mfe mba npu ksk, respectivement, 4.4 4.9 3.8 3.9; ppm pmq par contre ont une pente longue qui va au-delà de 30 avec un minimum mn6 net de 3.8 et 2.2 pour un i.18 de 6.5. En outre lam a une pente courte qui s'arrête à l'abscisse 21 avec un rapport de 2.2 comme un symétrique. Il reste donc 6 bacilli à dissymétrie nette, ppm pmq de D0, lbu en D1, ban bsu lmo de D2.
- - Il y a 3 dissymétriques à pente courte: scc lam apal avec un rapport i.18/30 supérieur à 2. La pente s'arrête à l'abscisse 21 ce qui affaibli l'indice i.30.
- - Cas de apal: si on le considère comme un génome symétrique (cloche entre les abscisses 6 et 18), sa cloche est plus grande entre 6 et 21. Ce qui l'associe à un dissymétrique à pente courte. La symétrie est plus adéquate parce que en plus de la cloche du poly12 la série de données est vraiment symétrique.
- Les diagrammes difformes par rapport au polynôme de d°12 de la totale
- - agrl afn semblent difformes mais c'est du à l'ordonnée (18), ce sont bien des symétriques avec une ordonnée (6) très basse respectivement 7 4, un mx12 très grand 19 33 et un rapport i.18/30 de 2.0 des bons symétriques.
- - sma blo: Ils partagent avec ksk la particularité de la disposition des ordonnées (6 12 18) d'être en cascade, ord(6) > ord(12) > ord(18). Ksk diffère des 2 autres par rapport i.18/30 très faible, 3.9 contre 6.2 et 7.3. Ils se distinguent de agrl et afn par leur rapport de 1.6 contre 2.0, qui est la marque des dissymétriques mais avec la disposition en cascade que ne possèdent pas ces derniers.
- - rpl rtb: rpl ressemblerait à mja mais la différence se fait surtout avec ord(6) qui est de 6 ‰ pour les 2 mais il est au même niveau que ord(18) pour rpl et très inférieur pour mja 16 ‰. Par ailleurs rpl a ord(12) et ord(24) presque égaux, 13 et 12, nettement supérieures à 6 ‰ de ord(6). rpl a un comportement analogue à sma blo, ordonnées en cascade 6 12 18 mais en plus partage avec rpl l'égalité ord(6) ord(12) ord(24), malgré une tendance à la symétrie avec un rapport i.18/30 de 2.2.
- - pub pmg fsp myr: La marque principale de ces 4 génomes est la valeur de ord(6) en cascade avec ord(12) et ord(18). La valeur élevée de ord(6) vient du fait que ces 4 génomes ont une somme s6 et une p6 très élevées, respectivement, 448 191 178 162 pour s6 et -(17.9, 3.4, 3.9, 4.9) pour p6. Les ordonnées sont pmg (24 15 12), pub (23 12 10), fps (19 9 4) et myr (18.5 20 8). Le rapport i.18/30 est un rapport de symétrie sans la cloche caractéristique, respectivement, 2.2, 1.8, 2.5, 1.9.
- - mba mfe npu ksk ppmp: Ces 5 génomes ont les indices i.18 les plus faibles du tableau entre 5.1 et 3.8. Ils sont suivis par sma 6.2 et pmq ppm 6.5. Puis on passe directement à 7.3 pour rpl. Le rapport i.18/30 est proche de l'unité sauf pour mba qui atteint 1.5. Cela veut dire que les indices i.30 sont égaux à i.18. J'ai représenté ces génomes sur la plage 0-80 pour voir cette constance. A part mba qui présente un maximum net du poly12 au niveau de mx12 avec un indice i.18 de 4.9, les 4 autres ce maximum est noyé dans la plage 6-80 même pour ppmp qui a présenté un mx12 très élevé du certainement à un effectif total de 438, le plus faible du tableau.Le génome sma se comporte comme mba, i.18 6.2 4.9, i.18/30 1.6 1.5, et un maximum net du poly12 au niveau de mx12. Par ailleurs le i.6 est le plus faible du tableau pour npu ksk ppmp 5.0 6.2 5.9 (s6 41 47 52), et très faible pour mba mfe sma 8.5 9.7 8.5 (s6 61 70 65).
- Calculs des colonnes du tableau des fc40
maxp a-b-x indique les abscisses utilisées pour la somme des taux ou la pente entre 2 abscisses, exemple 2-6-9, a pour la 1ère, en général de 1 à 3, b pour le minimum et x pour le maximum.
Région %
s0 taux des zéros continus positifs
s6 somme de 0 à b
sx somme de b+1 à x-1
s18 somme de x à 18
s42 Idem 19-42
t42 total x 18 42
pentes
p6 a-b
px b-x
p18 x-18
P42 18-42 (multipliée par -1000)
maxima
x6 0 – b
n6 b minima
x12 x - 18
x42 19 - 42
x162 43 – 162
profondeur de la vallée à l'abscisse b
px-p6 somme des 2 pentes
colonnes A B
- fréquences génome
- abscisse ordonnée
- . . . . . . . .
- Moyennes des pentes p6 px p18 p42 par clade
p6 px p18 p42
archeo
m -3,2 3,5 -0,6 -146,2
e 1,6 3,5 0,5 140,0
m/e -2,0 1,0 -1,2 -1,0
bacilli
m -2,8 4,7 -0,7 -356,0
e 1,9 1,6 0,4 273,3
m/e -1,5 2,9 -1,9 -1,3
clostridia
m -3,1 2,7 -0,5 -336,2
e 1,0 0,8 0,4 89,6
m/e -3,1 3,5 -1,1 -3,8
gamma
m -3,6 6,9 -1,5 -238,9
e 1,0 4,0 0,7 139,9
m/e -3,5 1,7 -2,0 -1,7
actino
m -1,5 1,8 -0,9 37,5
e 0,5 0,6 0,5 87,3
m/e -3,3 3,1 -1,9 0,4
alpha -pub
m -2,9 2,7 -1,3 -136,2
e 1,4 1,2 0,6 185,3
m/e -2,1 2,2 -2,1 -0,7
Intergen51. Classement des courbes CDS-CDS positifs continus fc40.Discussion
modifier
- Forme globale d'un diagramme fc+40
- -
- Regroupement des génomes par leurs 3 formes fc+40
D0 V6 - - D0 V F D1 V F D2 V F S1 V F S2 V F S3 V F
F60 - - mfe hmo scc abq absp ecoN
D1 V61 lbu lam mba cdc8 psor mfi ade eal
F61 cbei lam ppmp cbc bsu abs agrc vpb1
D2 V62 ban - ppm cdc cle rpm agrl vha2
F62 apal - pmq cbn lmo rru aua eco
S1 V63 spl amed vha1 abqp cvi oan2
F63 - - oan1 mja
S2 V64 vbp2 ase afn
F64 fps myr
S3 V65 ant -
F65 ant pmg abra
gen I,6 px-p6 form I,6 px-p6 n
fps 22,46 8,47 S24 21,86 10,51 6
myr 21,68 6,82 S27 3,36 2,31
pmg 25,62 11,81 S36 6,51 4,56
apal 19,12 12,35 D26
abra 25,22 12,24 S39
lam 17,06 11,38 D18
ant 28,57 19,31 S3a
pub 63,94 17,47 x17
mfe 9,73 3,9 D01 8,54 4,39 7
mba 8,47 4,37 D02 1,64 0,57
ppmp 5,87 4,03 D03 5,20 7,69
cbei 7,3 4,45 D11
blo 8,07 4,34 x15
ban 9,6 5,6 D21
ase 10,71 4,05 S22
rtb 13,86 3,30 x16
rpl 13,82 4,17 x14
ksk 6,47 2,54 x12
sma 8,47 2,33 x13
npu 5,04 0,98 x11
vpb2 10,76 17,91 S29
lbu 14,44 12,39 D13
spl 11,28 8,06 S13
amed 8,94 7,59 S14
vha1 13,25 7,16 S19
- Les clades et les formes fc+40
- La forme de fc+40 en comparaison avec les zones de rebond et du reste
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale
modifier
- Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale.
- Légende: Voir le détail des calculs dans abs et le résultat de chaque génome dans son 1er lien (2ème colonne du tableau, gen) avec son diagramme dans son 2ème lien (dernière colonne du tableau, gen). Voir la légende des diagrammes pour les nombres affichés dans les diagrammes..
- - La diagonale: c'est le segment de droite entre les points (xm,y'm) et (x1m,1) (avec y'm=ym*1000/effect). Sa pente, pte, est en -‰ et sa constante, cste.
- - Les rebonds, sommes d'intercalaires: supd supdt %sd supf supft %sf; pour intercalaires au-dessus de la diagonale, leur total et le rapport supd/supdt. Puis de même pour la plage réduite à l'abscisse bornf de l'inflexion de la courbe, x1m-bornf.
- - Indices des rebonds: sf/lf sr/lr st/ld, rapport des intercalaires au-dessus de la diagonale, supf supd supr, par la longueur de leurs plages, lf égale lonf (bornf-xm), lr (x1m-bornf), ld (x1m-xm). Le supr est la différence supd-supf. J'ai ajouté l'indice, i.r400, du reste des intercalaires de l'abscisse x1m à 400, r400, par sa longueur r400l = 400-x1m (voir le détail des calculs dans abs).
- - Les restes des intercalaires: rfin r400 xmp: total des intercalaires au-delà de l'abscisse 400, de x1m à 400 et pour xmp de l'origine à xm. Le reste restp est égal à r400 + rfin.
- - Les formes des courbes de tendance en moyennes glissantes et de période 9, colonne "forme": C E M P, abréviation pour colline, "en escalier", montagne et plateau. Les préfixes de E M P indiquent le nombre de sommets de la forme. La colline a un seul sommet et la forme F est une forme E dont les sommets sont regroupés par 2, F6 (3 groupes de 2) ou par 3, F9 (3 groupes de 3).
- - Colonne clasf: classement des formes
- - Les couleurs: c'est pour visualiser les groupes de génomes Gf en fonction des taux des plages xmp et restp. Ces 2 colonnes sont divisées en taux fort (cyan), moyen fort (rouge), moyen faible (blanc) et faible (jaune). Les groupes (colonne Gf) apparaissent quand je trie la colonne xmp en tri décroissant et supdt en tri croissant. En regroupant les génomes ayant les 2 mêmes couleurs, xmp puis restp, j'ai pu définir les groupes de la colonne Gf avec une lettre suivi de f (pour forme): af (cyan jaune), df (cyan blanc), bf (rouge cyan), ef (rouge rouge), gf (rouge blanc), hf (rouge jaune), ff (blanc rouge), cf (jaune cyan) et if (jaune blanc).
- + Les ruptures intra couleur pour xmp sont sous les gen mja cvi vha2 mfi pour respectivement, cyan rouge blanc jaune, dans un tri décroissant.
- + Les ruptures intra couleur pour restp sont sous les gen cbc cle lbu rpm pour respectivement, cyan rouge blanc jaune, dans un tri décroissant.
- + Pour faciliter le regroupement par couleur j'ai créé une colonne p1 et après avoir trié la colonne xmp en décroissant, j'ai noté le cyan en 11 jusqu'à la rupture de l'intérieur et 12 jusqu'à la rupture du cyan. Puis j'ai fait de même avec le rouge 21 et 22, le blanc 31 32 et le jaune 41 42. Ensuite j'ai fait de même avec la colonne restp pour laquelle j'ai créé la colonne pr.
- + Un groupe homogène pour les 3 colonnes xmp flexp rest peut être à cheval sur une rupture en contrôlant avec les colonnes p1 pr flexp et donc le groupe peut avoir quelques couleurs différentes de sa défintion ci-dessus.
- - Moyennes par classe de forme, en bas du tableau: Les 3 couleurs correspondent,respectivement par rapport à la moyenne de la colonne, à +15% jaune, à -15% bleu et entre ces 2 valeurs blanc.
- Diagrammes fc+400 par classe: E11 E21 M11 M21 M31 M41 Q.
- - Erreur bornf dans diagramme M41 oan2
int51.400 Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, par la forme du rebond de la courbe de tendance.
Les génomes |
Le rebond sur la diagonale |
La diagonale de la courbe |
Le rebond jusqu’à l’inflexion de la courbe |
Indices des rebonds |
Les plages encadrant la diagonale |
Les classes des formes |
|
clade |
gen |
effect |
supd |
supdt |
%sd |
x1m |
xm |
‰pte |
cste |
supf |
supft |
%sf |
lonf |
sf/lf |
sr/lr |
i.r400 |
sd/ld |
rfin |
xmp |
restp |
R2.21 |
forme |
clasf |
Gf |
gen
|
alp1 |
pub |
601 |
102,8 |
264,6 |
38,9 |
108 |
30 |
41,0 |
5,4 |
68,6 |
178,0 |
38,6 |
37 |
1,86 |
0,83 |
0,26 |
1,32 |
6,7 |
653,9 |
81,5 |
924 |
E4 |
E10 |
af |
pub
|
spi1 |
scc |
1000 |
139,3 |
420,0 |
33,2 |
163 |
30 |
22,6 |
4,7 |
85,3 |
276,0 |
30,9 |
69 |
1,24 |
0,84 |
0,85 |
1,05 |
34,0 |
344,0 |
236,0 |
815 |
E6 |
E11 |
bf |
scc
|
act1 |
ase |
3854 |
66,3 |
604,6 |
11,0 |
235 |
25 |
18,7 |
5,4 |
46,4 |
335,2 |
13,9 |
70 |
0,66 |
0,14 |
0,62 |
0,32 |
75,8 |
217,4 |
178,0 |
870 |
E4 |
E12 |
ff |
ase
|
alp4 |
rru |
2136 |
158,2 |
589,4 |
26,8 |
231 |
35 |
14,0 |
4,2 |
77,7 |
298,7 |
26,0 |
71 |
1,09 |
0,64 |
0,58 |
0,81 |
32,8 |
279,5 |
131,1 |
792 |
E4 |
E13 |
hf |
rru
|
bac7 |
ppm |
3176 |
144,2 |
501,6 |
28,8 |
259 |
60 |
9,2 |
3,4 |
72,5 |
275,8 |
26,3 |
87 |
0,83 |
0,64 |
0,66 |
0,72 |
69,6 |
336,3 |
162,2 |
831 |
E5 |
E14 |
gf |
ppm
|
clo5 |
cdc8 |
2727 |
61,0 |
389,4 |
15,7 |
229 |
45 |
12,5 |
3,9 |
34,9 |
249,0 |
14,0 |
92 |
0,38 |
0,28 |
0,83 |
0,33 |
88,7 |
379,2 |
231,4 |
864 |
E2 |
E15 |
bf |
cdc8
|
clo4 |
cdc |
2589 |
71,2 |
385,5 |
18,5 |
228 |
45 |
11,4 |
3,6 |
41,6 |
246,0 |
16,9 |
92 |
0,45 |
0,33 |
0,85 |
0,39 |
95,0 |
373,1 |
241,4 |
860 |
E2 |
E16 |
bf |
cdc
|
ga2 |
eal |
2286 |
76,8 |
452,3 |
17,0 |
227 |
43 |
16,0 |
4,6 |
28,2 |
270,8 |
10,4 |
95 |
0,30 |
0,55 |
0,67 |
0,42 |
60,4 |
371,0 |
176,7 |
798 |
E5 |
E17 |
ef |
eal
|
bac6 |
pmq |
4540 |
78,5 |
526,4 |
14,9 |
284 |
54 |
10,0 |
3,8 |
36,7 |
295,8 |
12,4 |
101 |
0,36 |
0,32 |
0,70 |
0,34 |
78,0 |
314,3 |
159,3 |
839 |
E4 |
E18 |
gf |
pmq
|
ga5 |
spl |
2482 |
132,4 |
483,5 |
27,4 |
248 |
45 |
9,0 |
3,2 |
90,7 |
317,5 |
28,6 |
102 |
0,89 |
0,41 |
0,79 |
0,65 |
101,9 |
294,5 |
222,0 |
802 |
E5 |
E19 |
bf |
spl
|
arc4 |
mja |
1069 |
135,3 |
349,9 |
38,7 |
163 |
50 |
20,4 |
4,3 |
135,3 |
349,9 |
38,7 |
114 |
1,19 |
0 |
0,60 |
1,20 |
11,2 |
497,7 |
152,5 |
738 |
F6 |
E21 |
af |
mja
|
clo6 |
cle |
2900 |
119,4 |
442,8 |
27,0 |
231 |
45 |
9,5 |
3,2 |
92,4 |
352,4 |
26,2 |
128 |
0,72 |
0,47 |
0,72 |
0,64 |
63,8 |
372,4 |
184,8 |
841 |
F9 |
E22 |
ef |
cle
|
clo3 |
cbn |
1775 |
133,3 |
509,9 |
26,1 |
241 |
45 |
12,1 |
3,9 |
102,1 |
409,0 |
25,0 |
135 |
0,76 |
0,51 |
0,55 |
0,68 |
34,9 |
368,5 |
121,7 |
845 |
E6 |
E23 |
af |
cbn
|
arc3 |
mfi |
1545 |
202,6 |
622,0 |
32,6 |
252 |
25 |
9,9 |
3,5 |
151,2 |
463,4 |
32,6 |
135 |
1,12 |
0,56 |
0,78 |
0,89 |
60,2 |
202,6 |
175,4 |
686 |
E5 |
E24 |
if |
mfi
|
clo1 |
cbc |
2572 |
115,2 |
407,5 |
28,3 |
241 |
45 |
6,8 |
2,6 |
89,5 |
325,8 |
27,5 |
140 |
0,64 |
0,46 |
0,93 |
0,59 |
126,7 |
318,0 |
274,5 |
836 |
F6 |
E25 |
bf |
cbc
|
ga9 |
vpb2 |
828 |
205,9 |
487,9 |
42,2 |
254 |
45 |
6,8 |
2,7 |
168,6 |
396,1 |
42,6 |
147 |
1,15 |
0,60 |
0,69 |
0,99 |
76,1 |
335,7 |
176,3 |
593 |
F6 |
E26 |
ef |
vpb2
|
clo2 |
cbei |
4010 |
92,4 |
517,7 |
17,9 |
289 |
37 |
6,9 |
3,0 |
61,5 |
396,0 |
15,5 |
170 |
0,36 |
0,38 |
0,93 |
0,37 |
148,6 |
230,2 |
252,1 |
818 |
E6 |
E27 |
cf |
cbei
|
arc1 |
mba |
2379 |
88,6 |
449,3 |
19,7 |
283 |
26 |
5,9 |
2,7 |
58,4 |
335,4 |
17,4 |
172 |
0,34 |
0,36 |
0,94 |
0,34 |
297,2 |
143,3 |
407,3 |
604 |
E8 |
E28 |
cf |
mba
|
arc2 |
mfe |
2011 |
131,0 |
485,3 |
27,0 |
283 |
32 |
5,9 |
2,7 |
98,8 |
396,3 |
24,9 |
185 |
0,53 |
0,49 |
0,96 |
0,52 |
232,2 |
170,6 |
344,1 |
619 |
E8 |
E29 |
cf |
mfe
|
bde2 |
ade |
2335 |
130,7 |
464,7 |
28,1 |
196 |
47 |
19,2 |
4,8 |
75,8 |
269,8 |
28,1 |
63 |
1,20 |
0,64 |
0,46 |
0,88 |
34,3 |
407,7 |
127,6 |
845 |
C |
M11 |
af |
ade
|
bde1 |
cvi |
2412 |
125,5 |
484,2 |
25,9 |
194 |
45 |
21,1 |
5,1 |
85,3 |
327,9 |
26,0 |
76 |
1,12 |
0,55 |
0,57 |
0,84 |
39,0 |
359,5 |
156,3 |
855 |
C |
M12 |
gf |
cvi
|
ga3 |
eco |
2204 |
139,4 |
465,1 |
30,0 |
222 |
46 |
12,4 |
3,7 |
86,2 |
276,8 |
31,1 |
75 |
1,15 |
0,53 |
0,60 |
0,79 |
29,0 |
398,4 |
136,6 |
800 |
M3 |
M13 |
af |
eco
|
ga4 |
ecoN |
2822 |
112,3 |
500,7 |
22,4 |
235 |
37 |
12,8 |
4,0 |
77,9 |
305,8 |
25,5 |
79 |
0,99 |
0,29 |
0,56 |
0,57 |
44,3 |
363,2 |
136,1 |
814 |
M3 |
M14 |
gf |
ecoN
|
cya1 |
npu |
3999 |
163,8 |
648,2 |
25,3 |
282 |
25 |
7,8 |
3,2 |
93,3 |
344,6 |
27,1 |
99 |
0,94 |
0,45 |
0,90 |
0,64 |
146,5 |
99,0 |
252,8 |
716 |
M4 |
M21 |
cf |
npu
|
bac1 |
ban |
3289 |
169,0 |
484,3 |
34,9 |
222 |
45 |
9,8 |
3,2 |
127,5 |
356,0 |
35,8 |
107 |
1,19 |
0,59 |
0,79 |
0,95 |
51,1 |
324,4 |
191,2 |
800 |
M4 |
M22 |
ef |
ban
|
al8 |
oan1 |
1517 |
189,6 |
519,4 |
36,5 |
250 |
45 |
8,0 |
3,0 |
128,4 |
352,0 |
36,5 |
110 |
1,17 |
0,64 |
0,72 |
0,92 |
46,1 |
326,3 |
154,3 |
779 |
M4 |
M23 |
gf |
oan1
|
alp3 |
rpm |
1847 |
193,1 |
551,2 |
35,0 |
253 |
45 |
8,2 |
3,1 |
144,1 |
401,7 |
35,9 |
121 |
1,19 |
0,56 |
0,53 |
0,93 |
41,1 |
329,7 |
119,1 |
820 |
M2 |
M24 |
hf |
rpm
|
al7 |
aua |
1803 |
220,3 |
620,6 |
35,5 |
270 |
35 |
7,5 |
3,0 |
168,8 |
443,7 |
38,0 |
127 |
1,33 |
0,48 |
0,48 |
0,94 |
51,0 |
266,2 |
113,1 |
781 |
M4 |
M25 |
hf |
aua
|
al2 |
abqp |
921 |
206,6 |
536,4 |
38,5 |
229 |
45 |
12,3 |
3,8 |
164,6 |
440,8 |
37,3 |
129 |
1,28 |
0,76 |
0,46 |
1,12 |
49,9 |
335,5 |
128,1 |
689 |
M3 |
M26 |
hf |
abqp
|
bac4 |
lbu |
1098 |
184,9 |
507,3 |
36,5 |
220 |
35 |
11,4 |
3,5 |
159,1 |
434,4 |
36,6 |
136 |
1,17 |
0,53 |
0,59 |
1,00 |
46,4 |
340,6 |
152,1 |
777 |
M4 |
M27 |
gf |
lbu
|
al4 |
absp |
873 |
169,2 |
478,8 |
35,3 |
194 |
45 |
20,1 |
4,9 |
166,6 |
468,5 |
35,6 |
139 |
1,20 |
0,26 |
0,70 |
1,14 |
50,4 |
326,5 |
194,7 |
644 |
M4 |
M28 |
ef |
absp
|
ga8 |
vpb1 |
1757 |
156,1 |
477,5 |
32,7 |
231 |
41 |
9,7 |
3,2 |
132,4 |
408,7 |
32,4 |
144 |
0,92 |
0,52 |
0,63 |
0,82 |
52,9 |
363,1 |
159,4 |
767 |
M5 |
M29 |
gf |
vpb1
|
al6 |
agrl |
1040 |
220,1 |
510,6 |
43,1 |
235 |
39 |
7,7 |
2,8 |
96,8 |
189,4 |
51,1 |
45 |
2,15 |
0,82 |
0,54 |
1,12 |
39,4 |
361,5 |
127,9 |
784 |
C |
M31 |
af |
agrl
|
bac8 |
ppmp |
438 |
334,6 |
554,8 |
60,3 |
250 |
45 |
4,9 |
2,2 |
136,7 |
232,9 |
58,7 |
63 |
2,17 |
1,39 |
0,72 |
1,63 |
123,3 |
214,6 |
230,6 |
331 |
C |
M32 |
cf |
ppmp
|
bde3 |
ant |
1700 |
164,2 |
384,7 |
42,7 |
155 |
35 |
16,2 |
3,5 |
123,8 |
282,4 |
43,8 |
69 |
1,79 |
0,79 |
0,37 |
1,37 |
17,1 |
507,6 |
107,6 |
822 |
M3 |
M33 |
af |
ant
|
bct1 |
myr |
2273 |
169,3 |
385,0 |
44,0 |
191 |
46 |
8,3 |
2,6 |
131,5 |
271,9 |
48,4 |
76 |
1,73 |
0,55 |
0,58 |
1,17 |
79,2 |
414,4 |
200,6 |
901 |
M4 |
M34 |
df |
myr
|
bac2 |
bsu |
2512 |
184,6 |
491,6 |
37,5 |
200 |
45 |
14,1 |
3,8 |
135,1 |
362,7 |
37,2 |
93 |
1,45 |
0,80 |
0,46 |
1,19 |
19,5 |
397,7 |
110,7 |
847 |
C |
M35 |
af |
bsu
|
ga1 |
amed |
2382 |
224,2 |
566,3 |
39,6 |
230 |
45 |
10,5 |
3,4 |
155,9 |
380,4 |
41,0 |
93 |
1,68 |
0,74 |
0,71 |
1,21 |
45,8 |
267,0 |
166,7 |
760 |
M4 |
M36 |
ff |
amed
|
bac3 |
lam |
1248 |
221,0 |
486,4 |
45,4 |
196 |
35 |
9,9 |
2,9 |
180,1 |
371,8 |
48,4 |
93 |
1,94 |
0,60 |
0,59 |
1,37 |
20,0 |
373,4 |
140,2 |
838 |
M2 |
M37 |
gf |
lam
|
bac5 |
lmo |
1849 |
217,7 |
449,4 |
48,4 |
209 |
45 |
6,1 |
2,3 |
167,5 |
326,1 |
51,4 |
95 |
1,76 |
0,73 |
0,51 |
1,33 |
27,6 |
425,1 |
125,5 |
816 |
M4 |
M38 |
af |
lmo
|
bct2 |
fps |
1628 |
195,1 |
516,0 |
37,8 |
199 |
25 |
11,9 |
3,4 |
151,6 |
379,6 |
39,9 |
96 |
1,58 |
0,56 |
0,66 |
1,12 |
62,0 |
289,9 |
194,1 |
895 |
M2 |
M39 |
ff |
fps
|
ter2 |
apal |
919 |
198,4 |
412,4 |
48,1 |
170 |
33 |
10,9 |
2,9 |
186,6 |
383,0 |
48,7 |
116 |
1,61 |
0,56 |
0,60 |
1,45 |
41,3 |
409,1 |
178,5 |
875 |
M4 |
M41 |
df |
apal
|
act3 |
ksk |
3995 |
292,0 |
728,4 |
40,1 |
259 |
20 |
7,3 |
2,9 |
197,1 |
467,8 |
42,1 |
117 |
1,68 |
0,78 |
0,69 |
1,22 |
79,1 |
95,1 |
176,5 |
764 |
M4 |
M42 |
if |
ksk
|
ga7 |
vha2 |
1075 |
343,8 |
520,9 |
66,0 |
238 |
35 |
0 |
1 |
276,0 |
391,6 |
70,5 |
123 |
2,24 |
0,85 |
0,76 |
1,69 |
78,1 |
277,2 |
201,9 |
577 |
M4 |
M43 |
ff |
vha2
|
al9 |
oan2 |
914 |
213,2 |
426,7 |
50,0 |
203 |
45 |
7,5 |
2,5 |
195,9 |
381,8 |
51,3 |
126 |
1,55 |
0,54 |
0,67 |
1,35 |
35,0 |
407,0 |
166,3 |
749 |
M4 |
M44 |
df |
oan2
|
al5 |
agrc |
1466 |
283,7 |
551,2 |
51,5 |
231 |
45 |
5,6 |
2,3 |
236,4 |
447,5 |
52,8 |
130 |
1,82 |
0,85 |
0,65 |
1,53 |
23,2 |
316,5 |
132,3 |
730 |
M5 |
M45 |
hf |
agrc
|
alp2 |
rpl |
527 |
291,7 |
394,7 |
73,9 |
178 |
45 |
0 |
1 |
291,7 |
394,7 |
73,9 |
133 |
2,19 |
0 |
0,68 |
2,19 |
193,5 |
260,0 |
345,4 |
608 |
M4 |
M46 |
bf |
rpl
|
clo8 |
psor |
2350 |
227,4 |
451,1 |
50,4 |
219 |
45 |
4,0 |
1,9 |
197,9 |
384,7 |
51,4 |
135 |
1,47 |
0,75 |
0,63 |
1,31 |
55,7 |
378,7 |
170,2 |
851 |
M4 |
M47 |
ef |
psor
|
act2 |
blo |
1045 |
279,9 |
612,4 |
45,7 |
229 |
35 |
9,6 |
3,2 |
250,9 |
542,6 |
46,2 |
149 |
1,68 |
0,65 |
0,73 |
1,44 |
48,8 |
213,4 |
174,2 |
611 |
M4 |
M48 |
ff |
blo
|
alp5 |
rtb |
505 |
306,7 |
431,7 |
71,0 |
205 |
45 |
0 |
1 |
306,7 |
431,7 |
71,0 |
160 |
1,92 |
0 |
0,52 |
1,92 |
198,0 |
269,3 |
299,0 |
617 |
M4 |
M49 |
bf |
rtb
|
cya2 |
pmg |
948 |
100,7 |
309,1 |
32,6 |
122 |
46 |
56,2 |
7,9 |
60,5 |
216,2 |
28,0 |
43 |
1,41 |
1,22 |
0,48 |
1,33 |
22,2 |
535,9 |
155,1 |
850 |
P1 |
Q1 |
af |
pmg
|
clo7 |
hmo |
1867 |
161,9 |
545,3 |
29,7 |
257 |
43 |
9,3 |
3,4 |
83,3 |
271,6 |
30,7 |
74 |
1,13 |
0,56 |
0,67 |
0,76 |
57,8 |
301,0 |
153,7 |
757 |
P4 |
Q2 |
hf |
hmo
|
neg1 |
afn |
1385 |
125,1 |
366,1 |
34,2 |
183 |
40 |
13,2 |
3,4 |
92,1 |
288,1 |
32,0 |
100 |
0,92 |
0,77 |
0,79 |
0,87 |
39,0 |
423,1 |
210,8 |
799 |
P2 |
Q3 |
df |
afn
|
al3 |
abs |
1570 |
178,1 |
527,4 |
33,8 |
205 |
45 |
17,6 |
4,6 |
123,7 |
390,4 |
31,7 |
100 |
1,24 |
0,91 |
0,63 |
1,11 |
35,0 |
314,6 |
158,0 |
756 |
P2 |
Q4 |
gf |
abs
|
al1 |
abq |
1565 |
186,5 |
579,6 |
32,2 |
220 |
37 |
15,5 |
4,4 |
129,0 |
423,0 |
30,5 |
109 |
1,18 |
0,78 |
0,54 |
1,02 |
36,4 |
286,3 |
134,2 |
768 |
P2 |
Q5 |
hf |
abq
|
ga6 |
vha1 |
1945 |
181,5 |
468,9 |
38,7 |
220 |
45 |
9,0 |
3,0 |
141,3 |
356,3 |
39,7 |
113 |
1,25 |
0,65 |
0,71 |
1,04 |
75,1 |
328,0 |
203,1 |
757 |
P5 |
Q6 |
ef |
vha1
|
ter1 |
abra |
980 |
177,7 |
441,8 |
40,2 |
175 |
29 |
14,1 |
3,5 |
170,1 |
422,4 |
40,3 |
132 |
1,29 |
0,55 |
0,56 |
1,22 |
33,7 |
399,0 |
159,2 |
849 |
P4 |
Q7 |
df |
abra
|
act4 |
sma |
3894 |
131,7 |
637,4 |
20,7 |
261 |
25 |
11,0 |
3,9 |
94,9 |
459,7 |
20,6 |
134 |
0,71 |
0,36 |
0,85 |
0,56 |
84,5 |
159,7 |
202,9 |
820 |
P2 |
Q8 |
if |
sma
|
act5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
alp6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
arc5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bac9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bct3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bde4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clo9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
cya3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
gam |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
neg2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ter3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clade |
gen |
effect |
supd |
supdt |
%sd |
x1m |
xm |
‰pte |
cste |
supf |
supft |
%sf |
lonf |
sf/lf |
sr/lr |
i.r400 |
sd/ld |
rfin |
xmp |
restp |
R2.21 |
forme |
clasf |
Gf |
gen
|
Moyennes par colonne |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
1812,8 |
163,9 |
492,3 |
33,6 |
226,0 |
39,9 |
11,2 |
3,4 |
118,3 |
349,2 |
35,0 |
109,2 |
1,23 |
0,59 |
0,66 |
0,96 |
49,4 |
331,3 |
166,0 |
777,5 |
|
|
|
|
e |
|
678,2 |
39,3 |
72,3 |
9,4 |
32,8 |
8,2 |
4,5 |
0,6 |
37,2 |
73,1 |
9,7 |
33,1 |
0,50 |
0,17 |
0,15 |
0,36 |
20,8 |
81,7 |
34,7 |
83,7 |
|
|
|
|
m/e |
|
2,7 |
4,2 |
6,8 |
3,6 |
6,9 |
4,9 |
2,5 |
5,2 |
3,2 |
4,8 |
3,6 |
3,3 |
2,44 |
3,50 |
4,50 |
2,67 |
2,4 |
4,1 |
4,8 |
9,3 |
|
|
|
|
plage |
|
828-3289 |
89-227 |
350-648 |
15-51 |
155-289 |
20-60 |
4-23 |
2,2-4,8 |
58-187 |
178-468 |
16-53 |
37-185 |
0,30-2,24 |
0,26-0,91 |
0,26-0,96 |
0,32-1,69 |
11-95 |
143-536 |
108-241 |
577-901 |
|
|
|
|
n gen |
|
48 |
46 |
55 |
53 |
56 |
58 |
53 |
49 |
45 |
57 |
50 |
58 |
58 |
52 |
58 |
56 |
48 |
55 |
50 |
56 |
|
|
|
|
Moyennes par classe de forme, clasf |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
E1 |
- |
2597,4 |
103,4 |
468,8 |
22,7 |
224,3 |
43,0 |
15,0 |
4,2 |
62,1 |
288,6 |
21,1 |
90,7 |
0,72 |
0,47 |
0,71 |
0,62 |
60,6 |
345,8 |
185,4 |
823,0 |
|
|
|
|
E2 |
|
2278,0 |
135,7 |
489,5 |
27,6 |
258,0 |
38,3 |
8,1 |
3,1 |
101,5 |
376,9 |
26,7 |
151,0 |
0,72 |
0,47 |
0,81 |
0,63 |
126,9 |
270,6 |
239,8 |
738,2 |
|
|
|
|
M1 |
|
2443,3 |
127,0 |
478,7 |
26,6 |
211,8 |
43,8 |
16,4 |
4,4 |
81,3 |
295,1 |
27,7 |
73,3 |
1,12 |
0,50 |
0,55 |
0,77 |
36,6 |
382,2 |
139,1 |
828,5 |
|
|
|
|
M2 |
|
1900,4 |
183,6 |
536,0 |
34,5 |
239,0 |
40,1 |
10,5 |
3,4 |
142,8 |
405,6 |
35,0 |
123,6 |
1,15 |
0,53 |
0,64 |
0,94 |
59,5 |
301,3 |
162,8 |
752,6 |
|
|
|
|
M3 |
|
1674,4 |
214,5 |
482,8 |
44,3 |
207,2 |
40,0 |
9,9 |
3,0 |
142,1 |
310,8 |
46,7 |
80,3 |
1,81 |
0,78 |
0,57 |
1,28 |
48,2 |
361,3 |
156,0 |
832,9 |
|
|
|
|
M4 |
|
1421,8 |
270,7 |
503,3 |
55,2 |
214,7 |
38,7 |
7,5 |
2,6 |
237,7 |
425,0 |
56,5 |
132,1 |
1,80 |
0,71 |
0,66 |
1,57 |
83,7 |
291,8 |
204,9 |
709,1 |
|
|
|
|
Q |
|
1769,3 |
155,4 |
484,4 |
32,7 |
205,4 |
38,8 |
12,8 |
3,7 |
111,9 |
353,5 |
31,7 |
100,6 |
1,14 |
0,72 |
0,65 |
0,99 |
48,0 |
343,5 |
172,1 |
794,5 |
|
|
|
|
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale. Comparaisons intra-génome
modifier
- Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale. Comparaisons intra-génome.
- Légende: génomes
- - cdc-8, cdc-cdc8 rpl-b, rpl-rtb abq-s, abq-abs abq-sp, abqp-absp abq-p, abq-abqp abs-p, abs-absp ppm-p, ppm-ppmp vha1-2, vha1-vha2 vpb1-2, vbp1-vbp2 oan1-2, oan1-oan2 agrc-l, agrc-agrl vha-b1, vha1-vbp1 vha-b2, vha2-vbp2.
- - faibles: différences en %, inférieures à 10. Pour les génomes semblables les différences faibles sont en noir, les différences fortes (supérieures ou égales à 10%) sont en rouge gras. Pour les autres génomes les faibles en bleu gras et les fortes en noir.
- - Pour clasf la différence est établie sur les 2 1ers caractères de la classe, même type de classe (=), type différent (#).
int51.400 Les rebonds en diagonale. Comparaisons intra-génome.
ordre |
gen |
cdc-8 |
rpl-b |
abq-s |
abq-sp |
abq-p |
abs-p |
ppm-p |
vha1-2 |
vpb1-2 |
oan1-2 |
agrc-l |
vha-b1 |
vha-b2
|
|
type |
génomes semblables |
comparaison intra-génome |
génomes différents
|
1 |
effect |
5 |
4 |
0 |
5 |
70 |
80 |
625 |
81 |
112 |
66 |
41 |
11 |
16
|
2 |
supd |
17 |
5 |
5 |
22 |
11 |
5 |
132 |
89 |
32 |
12 |
29 |
16 |
21
|
3 |
supdt |
1 |
9 |
10 |
12 |
8 |
10 |
11 |
11 |
2 |
22 |
8 |
2 |
9
|
4 |
%sd |
18 |
4 |
5 |
9 |
20 |
5 |
110 |
70 |
29 |
37 |
19 |
18 |
12
|
5 |
x1m |
0 |
15 |
7 |
18 |
4 |
6 |
4 |
8 |
10 |
23 |
2 |
5 |
8
|
6 |
xm |
0 |
0 |
22 |
0 |
22 |
0 |
33 |
29 |
10 |
0 |
15 |
10 |
10
|
7 |
-‰pte |
9 |
0 |
14 |
64 |
26 |
14 |
89 |
898 |
43 |
6 |
36 |
8 |
22
|
8 |
supf |
19 |
5 |
4 |
1 |
28 |
35 |
89 |
95 |
27 |
53 |
144 |
7 |
3
|
9 |
supft |
1 |
9 |
8 |
6 |
4 |
20 |
18 |
10 |
3 |
8 |
136 |
15 |
16
|
10 |
%sf |
21 |
4 |
4 |
5 |
22 |
12 |
123 |
78 |
31 |
41 |
3 |
22 |
13
|
11 |
lonf |
0 |
20 |
9 |
8 |
18 |
39 |
38 |
9 |
2 |
15 |
189 |
27 |
31
|
12 |
sf/lf |
19 |
14 |
4 |
6 |
8 |
3 |
160 |
79 |
25 |
33 |
18 |
36 |
27
|
13 |
sr/lr |
15 |
0 |
17 |
196 |
2 |
252 |
118 |
31 |
16 |
19 |
4 |
25 |
25
|
14 |
i.r400 |
2 |
32 |
16 |
53 |
19 |
11 |
9 |
7 |
9 |
8 |
20 |
13 |
14
|
15 |
sd/ld |
17 |
14 |
9 |
1 |
10 |
2 |
125 |
63 |
20 |
46 |
36 |
26 |
13
|
16 |
rfin |
7 |
2 |
4 |
1 |
37 |
44 |
77 |
4 |
44 |
32 |
70 |
42 |
15
|
17 |
xmp |
2 |
4 |
10 |
3 |
17 |
4 |
57 |
18 |
8 |
25 |
14 |
11 |
11
|
18 |
restp |
4 |
15 |
18 |
52 |
5 |
23 |
42 |
1 |
11 |
8 |
3 |
27 |
3
|
19 |
R2.21 |
0 |
1 |
2 |
7 |
11 |
17 |
151 |
31 |
29 |
4 |
7 |
1 |
2
|
|
clasf |
= |
= |
= |
= |
# |
# |
# |
# |
# |
# |
# |
# |
#
|
|
Gf |
= |
= |
# |
# |
= |
# |
# |
# |
# |
# |
# |
# |
#
|
|
faibles |
14 |
15 |
13 |
13 |
7 |
7 |
2 |
5 |
5 |
6 |
6 |
5 |
5
|
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale. Note
modifier
- Différence entre diagonale et polynôme de d°3: avec poly3 le point d'inflexion est unique et déterminé par le calcul, alors que pour le diagramme de la diagonale, son équivalent bornf est déterminé visuellement. Inversement la courbe en poly3 est définie sur une plage donnée, 40-400, alors que le diagramme de la diagonale est indépendant de l'étendue de son abscisse. La plage 1-40, très importante pour plus de la moitié des génomes, manque à poly3 et influe donc sur son point d'inflexion. Cependant les 2 points d'inflexion, étoile et bornf, sont près l'un de l'autre.
- La diagonale: Le rebond ne peut être comparé entre les 2 diagrammes. Celui de poly3 mesure le dépassement au-dessus de l'horizontale passant par le point d'inflexion alors que l'autre diagramme mesure le dépassement au-dessus de la diagonale. Une 1ère tentative du calcul du rebond avec la courbe de tendance en moyennes glissantes était de faire la somme de tous les rebonds par rapport à l'horizontale de chaque sommet ou forme du diagramme, de façon continue, ce qui ressemble à une diagonale en escalier. Cela est très compliqué et ne permet toujours pas de comparer les 2 rebonds entre les 2 diagrammes.
- Détermination de la diagonale: Elle n'est pas déterminée visuellement et correspond au segment entre la 1ère intersection de la courbe et l'horizontale 1‰, et le minimum local de la courbe autour de l'abscisse 40‰. Dans la plupart des cas l'ordonnée de ce minimum correspond à celle d'un point du diagramme. Dans les autres cas je l'estime visuellement, mais le calcul de la pente de la diagonale varie très peu. Le choix du point à 1‰ n'est pas arbitraire car, pour les formes M C P, la courbe au-delà de ce point est horizontale, ce qui correspond à la fin du rebond global. Par contre, pour la plupart des courbes E cette partie de la courbe n'est pas horizontale, le point 1‰ est plus éloigné que pour les autres formes et rend la diagonale beaucoup plus longue. Avec poly3 ce problème se traduit par des courbes sans point d'inflexion ou avec un point d'inflexion anormal pour le calcul du rebond. Pour ces génomes j'ai du réduire la plage du diagramme de 400 à 250 et même moins pour avoir un point d'inflexion entre xm et 400.
- Le choix du paramètre "période" de la courbe en moyennes glissantes: c'est le nombre de points consécutifs pour faire la moyenne glissante. Si la période est le total des points du diagramme alors sa courbe est réduite à un seul point. Dans le cas des diagrammes fc+40 beaucoup de génomes présentent un minimum local en 6 (en effectifs) et un maximum en 9 ou 12 et les courbes de tendance en poly12 avaient un R2 très élevé. C'est cette idée, qu'il y aurait des boucles en multiples de 3, qui m'a poussé à choisir une période de 9, un carré de 3 pour exagérer cette tendance. Et en effet les formes M obtenues présentent plusieurs boucles ou sommets de la montagne. Mais même les formes "en escalier" souvent présentent régulièrement de nombreuses boucles qui constituent les marches de l'escalier.
- La courbe en polynôme de d°21, R2.21: Elle est à comparer avec le R2 des poly3 pour chaque génome, 2ème colonne du tableau des poly3.
- Le calcul du rebond par rapport à la diagonale (voir légende des diagrammes): supd est la somme, sur la plage xm-x1m, des différences "ordonnée(x) moins ordonnée de la diagonale de la courbe rouge (pte*x+cste)" pour une abscisse x donnée et supdt la somme de ces ordonnées seulement; les rebonds supf et supft sont calculés de la même façon mais limités à la plage xm-bornf. Dans le tableur, il suffit d'avoir 2 cellules avec pte cste et la cellule de l'ordonnée(x) du génome. La colonne, de xm à bornf, contenant les différences est sauvegardée numériquement. Il suffit de rechercher toutes les cellules de cette colonne contenant le signe (-) et les effacer puis faire la somme de la colonne (supd supf). Les sommes supdt et supft sont obtenues avec la même colonne, mais de xm à x1m, en mettant les cellules pte et cste à blanc.
- Le classement des formes, colonne clasf:
- + Les formes E: En triant sur la colonne sf/lf puis sur la colonne forme, j'ai remarqué que les formes E forment un groupe homogène de 13 génomes, à valeurs faibles de 0.30 à 0.89 dont 7 à moins de 6 sommets et 6 de 6 à 9 sommets. Cinq autres E ont des valeurs moyennes entre 1.09 et 1.24 et enfin pub qui se détache anormalement comme d'habitude à 1.86. Aussi apparaissent naturellement 2 groupes de E quand on trie sur la colonne lonf puis sur la colonne forme, le 1er avec 9 génomes croissant régulièrement avec des sommets inférieurs à 6 sauf pour scc (classés de E11 à E19) et le 2ème avec 9 génomes avec des longueurs supérieures à celles du 1er avec des sommets supérieurs à 6 sauf pour mfi (classés de E21 à E29). La rupture de lonf, entre les 2 groupes est nette et passe de 102 à 114.
- + Les formes M et C: Quand je trie sur la colonne sf/lf,seule, 18 génomes M et C forment un pavé continu des plus grandes valeurs de sf/lf, juste interrompues par le seul génome pub. Mais si je regarde, à ce moment,la colonne lonf, alors je distingue 2 groupes de 9 génomes chacun. L'un avec les plus grandes valeurs de lonf et dont les génomes ont tous 4 sommets, ce sont des formes M4. Ils sont classés de M41 à M49. L'autre groupe, avec les plus petites valeurs de lonf, a 9 génomes et se répartissent en 3 M4 1 M3 2 M2 et 3 C. Ils sont classés de M31 à M39. J'ai caractérisé ces 2 groupes en (grand lonf) / (grand rebond) pour le 1er groupe, et en (petit lonf) / (grand rebond). Aussi j'ai caractérisé les autres formes M,C en un groupe de 9 génomes en (grand lonf) / (petit rebond) et contient 7 M4 1 M2 1 M3 et sont classés de M21 à M29, puis en un petit groupe de 4 génomes en (petit lonf) / (petit rebond), 2 C 1 M2 1 M3, classés de M11 à M14.
- + Les formes P: La classe Q a 8 génomes et correspond aux formes P, j'ai changé de nom pour ne pas entrainer de confusion entre la classe et la forme. Les formes P ont des valeurs moyennes pour lonf et sf/lf sauf pour sma qui a un petit rebond de 0.71 comme les formes E, alors que les M C P ont un rebond supérieur à 0.90. Pour sma, en partant de xm à 49 au lieu de 25 je retrouve un rapport sf/lf et un lonf, 1.00 et 110, qui sont dans les plages des formes P, respectivement, 0.92-1.41 43-132 (voir les liens aux calculs et au diagramme de sma). La classe Q a les mêmes valeurs sf/lf (petit) et un lonf (grand) que la classe M21, respectivement 0.92-1.29 (sans pmg) pour le rapport, et entre 105 (sans pmg) et 124 pour lonf. La caractéristique des formes P c'est le plateau, donc absence de sommets et c'est le paramètre lonf que distingue la classe Q de la classe M21.
- + La notation des classes des génomes: j'ai donné le même nom de classe à tous les génomes d'un groupe de formes (E M C P) puis j'ai fait un tri croissant sur cette colonne clasf puis croissant sur lonf pour distinguer les génomes en séquence. Ainsi j'ai noté E11 pour les E à moins de 6 sommets, E21 pour les E à plus de 6 sommets, M11 pour les M C (petit lonf)/(petit rebond), M21 pour (grand lonf)/(petit rebond), M31 pour (petit lonf)/(grand rebond), M41 pour (grand lonf)/(grand rebond) et enfin j'ai noté les formes P par la lettre Q pour éviter les confusions. J'ai noté E10 le génome pub pour le distinguer de tous bien, qu'il soit de forme E4. Il y a 2 intrus de la forme, scc E11 de forme E6 au lieu qu'elle soit inférieure à 6 et mfi E24 de forme E5 au lieu qu'elle soit supérieure à 6.
- + Diagrammes fc+400 par classe: E11 E21 M11 M21 M31 M41 Q.
- Corrélation pente-supd: J'ai fait le diagramme des E et des M+Q. Il en ressort que les E (sans E10, pub) ne sont pas corrélés, avec un R2 inférieur à 0.02 (18 génomes) et que les pentes des E1 et E2 sont disjointes, avec E1 supérieures à 10 (7 supérieurs à 10 et 2 égalent 9) et E2 inférieures à 10 (7 inférieurs à 10 plus 12 et 20). Par contre les M+Q (sauf pmg) sont corrélés avec un R2 de 0.535 (38 génomes) et 0.359 sans les 3 nuls. La non corrélation des E s'explique par le fait qu'ils n'ont pas un rebond étendu comme les M+Q, par contre leur rebond est éparpillé sur plusieurs petits rebonds disposés sur les marches de la "forme en escalier" du diagramme en moyennes glissantes. L'indice sd/ld l'illustre très bien avec environ 0.62 pour E1 et E2 et plus de 0.94 pour 34 génomes des M+Q et 0.77 pour les 4 génomes de M11.
- Caractéristiques de chaque classe de forme: voir en bas du tableau les moyennes par classe de forme, clasf. Les 3 couleurs correspondent,respectivement par rapport à la moyenne de la colonne, à +15% jaune, à -15% bleu et entre ces 2 valeurs blanc. En analysant juste ces moyennes,
- 4 colonnes, supdt xm x1m R2.21, varient peu dans les 7 classes
- Les taux sd% et sf% sont quasiment identiques dans une même classe et cela pour toutes les classes.
- Les 2 classes E n'ont pas de point d'inflexion net comme les 5 autres: les indices sf/lf sr/lr sd/ld sont très proches et faibles. Aussi leur domaine de définition est plutôt xm-x1m au lieu de xm-bornf pour les autres. Dans ce cas les différences pour supf et supft ne sont plus valables et la différence de lonf disparait aussi, puisque lonf est remplacé par lond qui varie peu, 191,3 pour E1 contre 209,7 pour E2, soit moins de 10% (voir les valeurs de lond à partir des liens des génomes). Les 2 classes sont donc identiques pour lond et sd/ld.
- Les 2 classes E diffèrent nettement entre elles par 3 paramètres indépendants: pte restp xmp et ils ont en commun un effect élevé, qui diffère nettement avec les autres classes.
- - La différence pte est de 85% et est corrélée avec cste puisque ce sont les coefficients de l'équation d'une droite. La pente de E1 est donc presque double de celle de E2.
- - La différence restp est de 29%. Le paramètre restp est la somme de rfin et r400 et si rfin est élevé alors r400 l'est aussi par continuité. Or rfin a une différence de 110% en faveur de E2, ce qui explique aussi l'indice élevé de i.r400 par rapport à celui de sd/ld. Donc la classe E2 continue à avoir des intercalaires élevés après l'abscisse 400, alors que E1 chute brusquement.
- - La différence xmp de 28% est à peu près égale à celle de restp mais dans le sens contraire. Ceci s'explique par le fait que supdt est pratiquement identique entre les 2 classes (différence de 4%), aussi, puisque restp de E2 est plus grand que celui de E1, alors xmp de E1 devient plus grand que celui de E2.
- Différence principale entre les 2 classes E et les classes M et Q: Entre E1 E2 M11 M21 Q M31 M41 la différence se fait par l'indice sd/ld. Elle est successivement de 2 22 22 5 29 23 %. Donc les 5 classes M et Q sont principalement différentes des 2 classes E pour l'indice sd/ld. Elles sont définies, comme mentionné ci-dessus, par lonf et sf/lf. En plus elles sont caractérisées, comme pour les E, par les 4 paramètres indépendants effect pte restp xmp auxquels il faut ajouter sr/lr qui marque la rupture brusque ou non après le point d'inflexion de la forme.
- - Classe M11: Elle se comporte comme E1 pour les 4 paramètres à peu près de même tailles sauf pour restp qui est le plus petit des 7 classes et donc son xmp le plus grand aussi; respectivement
- clasf effect pte restp xmp
- E11 2754 15 193 323
- M11 2443 16 139 382
- - Classes M21 Q: Ces 2 classes se ressemblent beaucoup même pour les paramètres de classement, lonf et sf/lf. En fait ils ne diffèrent que légèrement par la forme, M21 avec de petits sommets et Q sans sommets, c'est un plateau. Pour les paramètres indépendants, il y a une seule différence notable. C'est celle de sr/lr, l'indice entre bornf et x1m. Il passe de 0.53 à 0.72 pour Q.
- clasf effect pte restp xmp sr/lr
- M21 1900 11 163 301 0,53
- Q 1769 13 172 343 0,72
- - Classes M31 M41: Elles sont très différentes, déjà avec le paramètre lonf de classement. Ensuite par les paramètres indépendants dont 2 sont les plus faibles pour M41 et moyens pour M31, effect et pte; par contre M41 a un restp élevé comme E2, alors que pour M31 c'est moyen. Ils ont en commun l'indice sr/lr du même ordre que celui de Q, environ 0.74.
- clasf effect pte restp xmp sr/lr
- M31 1674 9.9 156 361 0,78
- M41 1422 7.5 205 292 0,71
- Les formes ne dépendent pas des paramètres indépendants, effect pte restp xmp. Et même pour les paramètres de classement, lonf et sf/lf pour les classes M11 M21 M31, alors que E1 E2 Q M41 sont homogènes. Pour les paramètres indépendants la plupart des classes les valeurs, pour un paramètre donné, se déclinent en faible moyenne forte. Pour les paramètres de classement la même forme peut se trouver dans plusieurs classes différentes.
effectif pente reste forme
ext 950 3300 6 20 130 250 = #
E11 . 2 . 2 1 . E5 1
E21 1 1 2 1 1 4 E6 1
M11 . . . 1 1 . C 2
M21 2 1 . 1 3 1 M4 3
M31 1 . 1 . 4 . M4 C 3
M41 4 1 5 . . 2 M4 1
Q 1 1 . 1 . . P .
tot 9 6 8 6 10 7 - 11
- Légende: ext pour extrêmes. Sauf pour la forme où # veut dire différent, où = veut dire pour E11 que ses formes vont de E2 à E5, pour E21 que les formes vont de E6 et plus. Pour M31 il y a 3 formes M4, 3 C et les autres (#) ce sont 2 M2 et 1 M3. Le total c'est la ligne tot.
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale. Discussion
modifier
- Pour un même génome à 2 éléments, ceux-ci ont des formes différentes: plasmide et chromosome (abq abs ppm), 2 chromosomes circulaires (oan vha vpb), 1 chromosome circulaire et l'autre linéaire (agr). Voir le tableau de comparaison.
- Deux génomes qui se ressemblent, pour tous les paramètres de classement ou tous les paramètres indépendants, ont la même forme: cdc cdc8, abq abs, abqp absp, rpl rtb.
- Ces 2 remarques montrent que la forme peut être transmise de génération en génération et que l'architecture du chromosome ou du plasmide, n'est pas créée par le protéonome mais qu'elle est le résultat de nombreuses contraintes environnementales qui agissent sur de longues durées. Le protéonome ne fait que transmettre ces contraintes au chromosome, notamment par les enzymes de réparation de l'ADN.
- La forme est unique pour un élément d'un génome donné: Elle représente son architecture adénélique. En comparaison avec les CDS, ceux-ci peuvent être communs à de nombreux génomes avec les mêmes fonctionnalités mais diffèrent très peu par leurs séquences. Les intercalaires entre CDS nuls ou petits peuvent être très nombreux dans le même chromosomes, sans fonctionnalités apparemment ou alors de tailles plus grandes et servent de contrôle lors de la transcription des CDS (promoteur opéron).
- La genèse des intercalaires est différente de celle des CDS. Les intercalaires entre CDS ressemblent plus aux intercalaires entre tRNAs, petits et variant dans la séquence et non par la taille. Par contre les CDS sont beaucoup plus longs et varient très peu en longueur et dans leur séquence (mutations). Les plus petits CDS ont une longueur qui ne descend pas en dessous de 50 acides aminés (150 pbs) loin derrière les tRNA qui ne dépassent pas les 120 pbs. La genèse des CDS, par leur constance à travers tous les génomes et leurs grandes tailles, semble procéder plus par de nombreuses contraintes environnementales et évoluer sur de longues périodes. Par ces caractéristiques un CDS devrait avoir une résonance spécifique qui obéit plus à la physique quantique, alors que les intercalaires entre CDS devraient plus procéder de la mécanique pour gérer des millions de pbs. Cependant, en dehors des tout petits intercalaires (à priori de faible résonance), les longs intercalaires doivent avoir une résonance quantique qui les rend fonctionnels, c'est à dire interagissant avec toute molécule de la cellule sans pour autant produire une protéine dont la fonctionnalité s'exprime avec l'ADN et surtout avec les milliards d'autres molécules de la cellule.
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec le polynôme de d°3
modifier
- Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc+400. Contient les équations des courbes de tendance en polynôme de d° 3.
- Légende
- - Les couleurs: c'est pour visualiser les groupes de génomes G en fonction des taux des plages xmp et rest. Ces 2 colonnes sont divisées en taux fort (cyan), moyen fort (rouge), moyen faible (blanc) et faible (jaune). Les groupes (colonne G) apparaissent quand je trie la colonne xmp en tri décroissant. En regroupant les génomes ayant les 2 mêmes couleurs, xmp puis rest, j'ai pu définir les groupes de la colonne G avec une lettre suivi d'un chiffre indiquant l'ordre croissant dans la colonne flexp: a (cyan jaune), d (cyan blanc), b (rouge cyan), e (rouge rouge), g(rouge blanc), h (rouge jaune), f (blanc rouge), c (jaune cyan) et i (jaune blanc).
- + Les ruptures intra couleur pour rest sont sous les gen cbc cbei rpm vpb1 pour respectivement, cyan rouge blanc jaune, dans un tri décroissant.
- + Les ruptures intra couleur pour xmp sont sous les gen mja ade abq blo pour respectivement, cyan rouge blanc jaune, dans un tri décroissant.
- + Pour faciliter le regroupement par couleur j'ai créé une colonne p1 et après avoir trié la colonne xmp en décroissant, j'ai noté le cyan en 11 jusqu'à la rupture à l'intérieur du cyan et 12 jusqu'à la rupture du cyan avec le rouge. Puis j'ai fait de même avec le rouge 21 et 22, le blanc 31 32 et le jaune 41 42. Ensuite j'ai fait de même avec la colonne rest pour laquelle j'ai créé la colonne pr.
- + Un groupe homogène pour les 3 colonnes xmp flexp rest peut être à cheval sur une rupture, en contrôlant avec les colonnes p1 pr flexp, et donc le groupe peut avoir quelques couleurs différentes de sa définition ci-dessus.
- - Les moyennes (m) des colonnes sont mises en bas du tableau avec leur écartype (e). Après avoir marqué en gras les extrêmes la moyenne est faite sur la plage restante (p) et le nombre de génomes (g) correspondant.
- - Les moyennes des groupes G flexp supft sont celles des diagrammes en poly3 (flexp) et des diagrammes en moyenne glissante (supft). Le groupe a7 est le groupe a sans pub. La moyenne restf est effectuée avec restp+(supdt-supft).
- - Les moyennes des groupes Gf supdt: les groupes Gf sont définis dans la colonne Gf des diagrammes en moyennes glissantes. Le groupe af9 est le groupe af sans pub. Dans la sauvegarde dans le tableur, j'ai présenté af4 et af6, avec les génomes pub pmg ant mja pour af4 et les 6 restant pour af6.
- - Les paramètres du polynôme de d° 3: les abscisses vont de xm à 400 fréquences unitaires (freq1) ou jusqu'à pfin quand c'est nécessaire pour avoir une ordonnée du point d'inflexion (flexo) conséquente. L'abscisse du point d'inflexion (flexa) va servir à calculer le taux de la plage concernée par le rebond (flexp, il correspond à sup4t dans le chapitre de la diagonale) et sa longueur flexa-xm (l4) ainsi que le taux du rebond (sup4) au dessus de l'horizontale passant par le point d'inflexion entre ce dernier et l'abscisse xm. Quand un polynôme a un sommet convexe j'ai indiqué ses coordonnées (soma somo) dont l'ordonnée est à comparer à celle du point d'inflexion (flexo). La pente (pte) au point d'inflexion, en ‰, est intéressante à comparer aux pentes des diagrammes en moyennes glissantes. Les paramètres xm et flexa sont indiqués par une étoile bleue dans les diagrammes en moyennes glissantes dont le lien est dans la dernière colonne, gen, du tableau. Les différents paramètres d'un génome se trouvent dans le lien de la 2ème colonne, gen, du tableau.
- - Importance des 3 régions des diagrammes en polynôme d°3: xmp de 0 à xm-1, flexp de xm à flexa, r400 de flexa+1 à l'abscisse 400 et enfin le reste rfin au-delà de 400. La colonne rest est la somme de r400+rfin. Cette importance est définie par le pourcentage de la plage en ‰ par rapport au total des intercalaires CDS-CDS positifs continus (effect).
- - Le rebond sup4: sup pour supérieur à flexo et 4 pour un diagramme de xm à 400 à courbe de tendance en polynôme de d°3. Voir sa description et son calcul. Son appréciation se fait par le rapport sup4/flexp (supF), en %. J'ai classé les génomes (gen) par rapport à sup4 dans la colonne clas. Les colonnes forme clasf sont celles des diagrammes en moyenne glissante. La différence flexa-bornf se trouve dans la colonne flexf (bornf est obtenu dans les moyennes glissantes par lonf+xm) et correspond sur les diagrammes à l'étoile (flexa) et au gros point (bornf) de la fin de la forme. La différence (supdt-flexp)/flexp, en %, se trouve dans la colonne flexd.
- - L'indice de rfin, i.rfin exprimé en ‰, correspond au rapport (effectif de rfin-somme des effectifs au-delà de et99)/(et99-400) où et99 est l'abscisse du diagramme correspondant à 99% des intercalaires. Pour pub le reste après 400 est 4 et ne correspond pas au 1% attendu, 6/601. Pour ce génome j'ai mis l'indice à zéro, mais il se comporte comme les autres entre les abscisses 90 et 320 ( en freq10) avec un indice de 69, (somme des effectifs de 90 à 320, égale 9)/130=0.069.
int51.400 Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, en abscisses unitaires freq1.
clade |
gen |
effect |
pfin |
xm |
soma |
somo |
pte |
flexa |
flexo |
sup4 |
xmp |
flexp |
r400 |
rfin |
rest |
supF |
l4 |
clas |
G |
forme |
clasf |
flexf |
flexd |
et99 |
i.rfin |
gen
|
act1 |
ase |
3854 |
200 |
25 |
4,6 |
5,67 |
34,65 |
92,9 |
3,64 |
81,85 |
217,4 |
328,2 |
378,6 |
75,8 |
454,3 |
24,94 |
67,9 |
C12 |
c3 |
E4 |
E12 |
-2 |
84 |
1030 |
402 |
ase
|
act2 |
blo |
1045 |
|
35 |
47,7 |
4,07 |
18,50 |
201,0 |
2,17 |
256,86 |
213,4 |
575,1 |
162,7 |
48,8 |
211,5 |
44,66 |
166,0 |
C43 |
i2 |
M4 |
M48 |
17 |
6 |
660 |
158 |
blo
|
act3 |
ksk |
3995 |
|
25 |
44,1 |
4,17 |
18,43 |
197,3 |
2,29 |
232,14 |
110,6 |
616,8 |
193,5 |
79,1 |
272,6 |
37,64 |
172,3 |
C42 |
i3 |
M4 |
M42 |
60 |
18 |
1060 |
418 |
ksk
|
act4 |
sma |
3894 |
|
49 |
51,6 |
3,47 |
14,27 |
200,7 |
2,06 |
150,45 |
254,5 |
451,7 |
209,3 |
84,5 |
293,8 |
33,31 |
151,7 |
C32 |
f6 |
P2 |
Q8 |
42 |
41 |
930 |
547 |
sma
|
act5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
al1 |
abq |
1565 |
|
35 |
38,2 |
4,19 |
20,13 |
189,2 |
2,16 |
229,28 |
276,0 |
535,5 |
152,1 |
36,4 |
188,5 |
42,82 |
154,2 |
C42 |
h4 |
P2 |
Q5 |
43 |
8 |
560 |
256 |
abq
|
al2 |
abqp |
921 |
|
45 |
-23,2 |
4,63 |
17,70 |
165,9 |
2,40 |
169,67 |
335,5 |
423,5 |
191,1 |
49,9 |
241,0 |
40,07 |
120,9 |
C33 |
g6 |
M3 |
M26 |
-8 |
27 |
720 |
112 |
abqp
|
al3 |
abs |
1570 |
|
45 |
28,4 |
4,27 |
19,41 |
187,7 |
2,21 |
205,77 |
314,6 |
496,2 |
154,1 |
35,0 |
189,2 |
41,47 |
142,7 |
C41 |
h1 |
P2 |
Q4 |
43 |
6 |
570 |
229 |
abs
|
al4 |
absp |
873 |
|
45 |
-29,7 |
4,71 |
17,46 |
164,4 |
2,45 |
172,41 |
326,5 |
426,1 |
197,0 |
50,4 |
247,4 |
40,46 |
119,4 |
C33 |
g7 |
M4 |
M28 |
-20 |
12 |
910 |
65 |
absp
|
al5 |
agrc |
1466 |
|
45 |
87,2 |
3,64 |
20,56 |
212,7 |
1,92 |
230,18 |
316,5 |
527,3 |
133,0 |
23,2 |
156,2 |
43,65 |
167,7 |
C42 |
h2 |
M5 |
M45 |
38 |
5 |
480 |
250 |
agrc
|
al6 |
agrl |
1040 |
250 |
35 |
-23,3 |
4,84 |
20,42 |
110,6 |
3,02 |
98,43 |
341,3 |
288,5 |
330,8 |
39,4 |
370,2 |
34,12 |
75,6 |
C21 |
b6 |
C |
M31 |
27 |
77 |
710 |
100 |
agrl
|
al7 |
aua |
1803 |
|
35 |
55,3 |
3,68 |
17,15 |
205,0 |
1,97 |
220,98 |
266,2 |
528,6 |
154,2 |
51,0 |
205,2 |
41,81 |
170,0 |
C42 |
h3 |
M4 |
M25 |
43 |
17 |
710 |
242 |
aua
|
al8 |
oan1 |
1517 |
|
45 |
13,7 |
3,67 |
13,89 |
183,9 |
2,09 |
155,68 |
326,3 |
418,6 |
209,0 |
46,1 |
255,1 |
37,19 |
138,9 |
C32 |
g4 |
M4 |
M23 |
29 |
24 |
640 |
229 |
oan1
|
al9 |
oan2 |
914 |
250 |
45 |
74,1 |
3,71 |
28,53 |
143,9 |
2,39 |
133,66 |
407.0 |
330,4 |
227,6 |
35,0 |
262,6 |
40,45 |
98,9 |
C31 |
d3 |
M4 |
M44 |
-27 |
29 |
670 |
85 |
oan2
|
alp1 |
pub |
601 |
150 |
25 |
29,2 |
4,91 |
62,10 |
80,3 |
2,79 |
101,34 |
633,9 |
229,6 |
129,8 |
6,7 |
136,4 |
44,13 |
55,3 |
C21 |
a1 |
E4 |
E10 |
13 |
15 |
400 |
0 |
pub
|
alp2 |
rpl |
527 |
|
45 |
111,6 |
3,09 |
20,91 |
223,6 |
1,53 |
263,93 |
260,0 |
463,0 |
83,5 |
193,5 |
277.0 |
57.00 |
178,6 |
C43 |
f8 |
M4 |
M46 |
46 |
-15 |
1800 |
69 |
rpl
|
alp3 |
rpm |
1847 |
|
45 |
17,6 |
3,88 |
15,61 |
188,1 |
2,10 |
159,30 |
329,7 |
445,6 |
183,5 |
41,1 |
224,7 |
35,75 |
143,1 |
C32 |
gb |
M2 |
M24 |
22 |
24 |
710 |
187 |
rpm
|
alp4 |
rru |
2136 |
|
35 |
-79,1 |
5,49 |
17,86 |
140,4 |
2,88 |
116,61 |
279,5 |
402,6 |
285,1 |
32,8 |
317,9 |
28,96 |
105,4 |
C23 |
f2 |
E4 |
E13 |
34 |
46 |
580 |
278 |
rru
|
alp5 |
rtb |
505 |
|
45 |
116,2 |
3,05 |
21,63 |
224.0 |
1,49 |
250,44 |
269,3 |
447,5 |
85,1 |
198.0 |
283,2 |
55,96 |
179.0 |
C43 |
f4 |
M4 |
M49 |
19 |
-4 |
1850 |
66 |
rtb
|
alp6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
arc1 |
mba |
2379 |
|
45 |
- |
- |
2,62 |
242,7 |
1,32 |
116,95 |
198,4 |
340,9 |
163,5 |
297,2 |
460,7 |
34,31 |
197,7 |
C23 |
c4 |
E8 |
E28 |
45 |
32 |
1550 |
595 |
mba
|
arc2 |
mfe |
2011 |
|
55 |
-67,9 |
2,71 |
5,78 |
195,1 |
1,70 |
90,61 |
236,2 |
293,4 |
238,2 |
232,2 |
470,4 |
30,89 |
140,1 |
C12 |
c2 |
E8 |
E29 |
-22 |
65 |
1490 |
410 |
mfe
|
arc3 |
mfi |
1545 |
|
25 |
25,1 |
3,77 |
14,87 |
187,1 |
2,17 |
202,09 |
202,6 |
514,6 |
222,7 |
60,2 |
282,8 |
39,27 |
162,1 |
C41 |
i1 |
E5 |
E24 |
27 |
21 |
720 |
244 |
mfi
|
arc4 |
mja |
1069 |
250 |
45 |
42,2 |
4,01 |
25,82 |
134,5 |
2,42 |
115,54 |
477,1 |
303,1 |
203,9 |
11,2 |
215,2 |
38,12 |
89,5 |
C23 |
d4 |
F6 |
E21 |
-30 |
15 |
440 |
50 |
mja
|
arc5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bac1 |
ban |
3289 |
|
45 |
45,9 |
3,48 |
15,24 |
193,8 |
1,98 |
162,80 |
324,4 |
437,5 |
187,0 |
51,1 |
238,1 |
37,21 |
148,8 |
C32 |
g8 |
M4 |
M22 |
42 |
11 |
640 |
562 |
ban
|
bac2 |
bsu |
2512 |
|
45 |
-32,3 |
5,13 |
20,87 |
150,8 |
2,59 |
137,90 |
397,7 |
398,1 |
184,7 |
19,5 |
204,2 |
34,64 |
105,8 |
C31 |
a5 |
C |
M35 |
13 |
24 |
510 |
218 |
bsu
|
bac3 |
lam |
1248 |
|
35 |
-89,1 |
5,64 |
19,42 |
120,5 |
2,93 |
120,02 |
373,4 |
349,4 |
257,2 |
20,0 |
277,2 |
34,35 |
85,5 |
C23 |
e5 |
M2 |
M37 |
-8 |
39 |
520 |
108 |
lam
|
bac4 |
lbu |
1098 |
|
35 |
12,4 |
3,83 |
16,23 |
176,7 |
2,05 |
190,31 |
340,6 |
445,4 |
167,6 |
46,4 |
214,0 |
42,73 |
141,7 |
C41 |
ga |
M4 |
M27 |
6 |
14 |
670 |
148 |
lbu
|
bac5 |
lmo |
1849 |
|
45 |
51,1 |
3,45 |
17,65 |
192,7 |
1,78 |
187,97 |
425,1 |
427,3 |
120,1 |
27,6 |
147,6 |
43,99 |
147,7 |
C41 |
a7 |
M4 |
M38 |
53 |
5 |
600 |
160 |
lmo
|
bac6 |
pmq |
4540 |
300 |
45 |
- |
- |
7,18 |
185,6 |
2,08 |
117,98 |
279,7 |
397,8 |
244,5 |
78,0 |
322,5 |
29,66 |
140,6 |
C23 |
f1 |
E4 |
E18 |
31 |
32 |
910 |
606 |
pmq
|
bac7 |
ppm |
3176 |
|
55 |
42,3 |
3,46 |
13,78 |
209,0 |
1,93 |
158,22 |
318.0 |
442,4 |
170,0 |
69,6 |
239,6 |
35,77 |
154,0 |
C32 |
g9 |
E5 |
E14 |
62 |
13 |
830 |
440 |
ppm
|
bac8 |
ppmp |
438 |
|
45 |
-135,9 |
5,21 |
13,29 |
133,1 |
2,83 |
111,52 |
214,6 |
292,2 |
369,9 |
123,3 |
493,2 |
38,16 |
88,1 |
C22 |
c1 |
C |
M32 |
25 |
90 |
1020 |
81 |
ppmp
|
bac9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bct1 |
myr |
2273 |
250 |
45 |
65,5 |
3,70 |
29,33 |
142,3 |
2,20 |
118,03 |
411,4 |
315,0 |
194,5 |
79,2 |
273,6 |
37,47 |
97,3 |
C23 |
d2 |
M4 |
M34 |
20 |
22 |
900 |
314 |
myr
|
bct2 |
fps |
1628 |
250 |
35 |
27,5 |
4,59 |
28,71 |
122,8 |
2,77 |
118,75 |
328.0 |
346,4 |
263,5 |
62,0 |
325,6 |
34,28 |
87,8 |
C23 |
e4 |
M2 |
M39 |
2 |
49 |
870 |
181 |
fps
|
bct3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bde1 |
cvi |
2412 |
250 |
35 |
39,5 |
4,83 |
31,29 |
137,0 |
2,79 |
147,26 |
315,5 |
420,4 |
225,1 |
39,0 |
264,1 |
35,03 |
102,0 |
C32 |
g5 |
C |
M12 |
16 |
15 |
680 |
250 |
cvi
|
bde2 |
ade |
2335 |
250 |
35 |
39,6 |
4,63 |
29,70 |
138,9 |
2,66 |
148,36 |
355.0 |
410,3 |
200,4 |
34,3 |
234,7 |
36,16 |
103,9 |
C32 |
g3 |
C |
M11 |
29 |
13 |
630 |
248 |
ade
|
bde3 |
ant |
1700 |
250 |
35 |
54,0 |
4,14 |
35,99 |
134,2 |
2,21 |
153,23 |
507,6 |
354,7 |
120,6 |
17,1 |
137,6 |
43,20 |
99,2 |
C32 |
a3 |
M3 |
M33 |
30 |
8 |
540 |
86 |
ant
|
bde4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clo1 |
cbc |
2572 |
|
45 |
-43,7 |
3,13 |
8,78 |
153,6 |
1,98 |
75,35 |
318.0 |
272,2 |
283,0 |
126,7 |
409,8 |
27,69 |
108,6 |
C11 |
b4 |
F6 |
E25 |
-31 |
50 |
920 |
579 |
cbc
|
clo2 |
cbei |
4010 |
300 |
35 |
- |
- |
5,50 |
246,8 |
1,52 |
157,56 |
224,7 |
462,6 |
164,1 |
148,6 |
312,7 |
34,06 |
211,8 |
C32 |
f7 |
E6 |
E27 |
40 |
12 |
990 |
941 |
cbei
|
clo3 |
cbn |
1775 |
|
45 |
-3,3 |
3,92 |
14,99 |
175,9 |
2,13 |
145,39 |
368,5 |
401,7 |
194,9 |
34,9 |
229,9 |
36,20 |
130,9 |
C32 |
g1 |
E6 |
E23 |
-4 |
27 |
540 |
314 |
cbn
|
clo4 |
cdc |
2589 |
250 |
45 |
36,0 |
2,98 |
13,53 |
137,7 |
2,06 |
70,11 |
373,1 |
248,7 |
283,1 |
95,0 |
378,1 |
28,19 |
92,7 |
C11 |
b2 |
E2 |
E16 |
1 |
55 |
910 |
433 |
cdc
|
clo5 |
cdc8 |
2727 |
250 |
45 |
29,0 |
3,06 |
13,48 |
138,0 |
2,08 |
71,86 |
379,2 |
251,6 |
280,5 |
88,7 |
369,3 |
28,57 |
93,0 |
C11 |
b3 |
E2 |
E15 |
1 |
55 |
910 |
422 |
cdc8
|
clo6 |
cle |
2900 |
300 |
45 |
7,6 |
3,48 |
13,19 |
151,9 |
2,22 |
85,99 |
372,4 |
309,0 |
254,8 |
63,8 |
318,6 |
27,83 |
106,9 |
C12 |
e2 |
F9 |
E22 |
-21 |
43 |
870 |
334 |
cle
|
clo7 |
hmo |
1867 |
300 |
47 |
34,0 |
3,89 |
17,71 |
155,1 |
2,46 |
112,24 |
316.0 |
361,0 |
265,1 |
57,8 |
323.0 |
31,09 |
108,1 |
C22 |
e7 |
P4 |
Q2 |
38 |
51 |
660 |
342 |
hmo
|
clo8 |
psor |
2350 |
|
45 |
89,4 |
3,00 |
16,32 |
216,1 |
1,62 |
192,27 |
378,7 |
448,9 |
116,6 |
55,7 |
172,3 |
42,83 |
171,1 |
C41 |
a8 |
M4 |
M47 |
36 |
0 |
740 |
318 |
psor
|
clo9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
cya1 |
npu |
3999 |
|
25 |
-12,3 |
3,77 |
11,77 |
180,3 |
2,26 |
149,48 |
99.0 |
486,6 |
267,8 |
146,5 |
414,4 |
30,72 |
155,3 |
C32 |
c5 |
M4 |
M21 |
56 |
33 |
1060 |
826 |
npu
|
cya2 |
pmg |
948 |
150 |
44 |
38,2 |
5,68 |
58,83 |
102,4 |
3,17 |
108,60 |
520.0 |
272,2 |
185,7 |
22,2 |
207,8 |
39,90 |
58,4 |
C22 |
a2 |
P1 |
Q1 |
13 |
14 |
450 |
220 |
pmg
|
cya3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ga1 |
amed |
2382 |
|
45 |
-29,4 |
5,02 |
18,34 |
162,0 |
2,68 |
150,27 |
267,0 |
447,5 |
239,7 |
45,8 |
285,5 |
33,58 |
117,0 |
C32 |
f3 |
M4 |
M36 |
24 |
27 |
700 |
287 |
amed
|
ga2 |
eal |
2286 |
200 |
35 |
-21,0 |
4,78 |
21,94 |
111,8 |
2,84 |
77,24 |
335,5 |
283,0 |
321,1 |
60,4 |
381,5 |
27,29 |
76,8 |
C11 |
b5 |
E5 |
E17 |
-26 |
60 |
950 |
211 |
eal
|
ga3 |
eco |
2204 |
250 |
35 |
24,3 |
4,10 |
20,88 |
137,1 |
2,53 |
117,43 |
358.0 |
353,4 |
259,5 |
29,0 |
288,6 |
33,22 |
102,1 |
C23 |
e6 |
M3 |
M13 |
16 |
32 |
520 |
350 |
eco
|
ga4 |
ecoN |
2822 |
250 |
35 |
14,7 |
4,46 |
24,21 |
123,1 |
2,71 |
103,64 |
355,1 |
327,4 |
273,2 |
44,3 |
317,5 |
31,65 |
88,1 |
C21 |
e3 |
M3 |
M14 |
7 |
53 |
670 |
363 |
ecoN
|
ga5 |
spl |
2482 |
|
42 |
-69,7 |
4,16 |
12,31 |
150,2 |
2,36 |
97,38 |
284,9 |
334,0 |
279,2 |
101,9 |
381,1 |
29,16 |
108,2 |
C21 |
b7 |
E5 |
E19 |
3 |
45 |
860 |
493 |
spl
|
ga6 |
vha1 |
1945 |
|
43 |
-15,9 |
3,84 |
13,48 |
179,2 |
2,08 |
150,24 |
322,4 |
407,2 |
195,4 |
75,1 |
270,4 |
36,90 |
136,2 |
C32 |
g2 |
P5 |
Q6 |
21 |
15 |
700 |
423 |
vha1
|
ga7 |
vha2 |
1075 |
|
35 |
37,1 |
3,42 |
14,29 |
191,1 |
1,96 |
196,05 |
277,2 |
448,4 |
196,3 |
78,1 |
274,4 |
43,73 |
156,1 |
C41 |
f5 |
M4 |
M43 |
33 |
16 |
740 |
215 |
vha2
|
ga8 |
vpb1 |
1757 |
|
55 |
50,2 |
3,15 |
13,57 |
209,7 |
1,71 |
167,59 |
407,5 |
405,8 |
133,8 |
52,9 |
186,7 |
41,30 |
154,7 |
C33 |
a6 |
M5 |
M29 |
25 |
18 |
670 |
278 |
vpb1
|
ga9 |
vpb2 |
828 |
|
45 |
-159,6 |
4,68 |
11,20 |
127,0 |
2,54 |
77,49 |
335,7 |
246,4 |
341,8 |
76,1 |
417,9 |
31,45 |
82,0 |
C11 |
b1 |
F6 |
E26 |
-65 |
98 |
810 |
134 |
vpb2
|
gam |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
neg1 |
afn |
1385 |
|
44 |
-54,0 |
3,71 |
11,99 |
150,8 |
2,08 |
102,38 |
434,7 |
299,6 |
226,7 |
39,0 |
265,7 |
34,17 |
106,8 |
C21 |
d1 |
P2 |
Q3 |
11 |
22 |
670 |
148 |
afn
|
neg2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
spi1 |
scc |
1000 |
170 |
35 |
- |
- |
21,07 |
109,6 |
2,77 |
107,59 |
365.0 |
290,0 |
311.0 |
34,0 |
345.0 |
37,10 |
74,6 |
C22 |
e1 |
E6 |
E11 |
11 |
45 |
570 |
141 |
scc
|
ter1 |
abra |
980 |
|
35 |
-20,7 |
4,15 |
17,24 |
154,6 |
2,14 |
159,70 |
420,4 |
390,8 |
155,1 |
33,7 |
188,8 |
40,86 |
119,6 |
C32 |
a4 |
P4 |
Q7 |
-6 |
13 |
600 |
115 |
abra
|
ter2 |
apal |
919 |
|
28 |
-65,0 |
4,70 |
17,35 |
131,3 |
2,43 |
140,69 |
396,1 |
354,7 |
207,8 |
41,3 |
249,2 |
39,66 |
103,3 |
C31 |
d5 |
M4 |
M41 |
-18 |
16 |
770 |
78 |
apal
|
ter3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clade |
gen |
effect |
pfin |
xm |
soma |
somo |
pte |
flexa |
flexo |
sup4 |
xmp |
flexp |
r400 |
rfin |
rest |
supF |
l4 |
clas |
G |
forme |
clasf |
flexf |
flexd |
et99 |
i.rfin |
gen
|
Moyennes des colonnes |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
m |
|
1812,8 |
|
|
|
4,09 |
18,3 |
159,3 |
2,3 |
139,3 |
324,1 |
376,4 |
204,2 |
52,0 |
280,6 |
36,4 |
122,0 |
|
|
|
|
|
|
796,3 |
287,0 |
|
e |
|
678,2 |
|
|
|
0,75 |
5,1 |
30,1 |
0,3 |
32,7 |
63,5 |
60,2 |
49,1 |
21,0 |
63,8 |
5,0 |
29,3 |
|
|
|
|
|
|
294,1 |
189,0 |
|
m/e |
|
2,7 |
|
|
|
5,4 |
3,6 |
5,3 |
7,1 |
4,3 |
5,1 |
6,3 |
4,2 |
2,5 |
4,4 |
7,2 |
4,2 |
|
|
|
|
|
|
2,7 |
1,5 |
|
g |
|
48 |
|
|
|
54 |
49 |
50 |
49 |
46 |
53 |
46 |
50 |
47 |
49 |
55 |
51 |
|
|
|
|
|
|
57 |
57 |
|
p |
|
830-3300 |
|
|
|
2,7-5,7 |
11-31 |
102-210 |
1,6-2,8 |
82-206 |
198-435 |
272-463 |
117-285 |
20-102 |
187-418 |
27-45 |
75-172 |
|
|
|
|
|
|
440-1850 |
50-941 |
|
Moyennes des groupes G, flexp |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
sup4 |
xmp |
flexp |
rest |
flexa |
sup4 |
xmp |
flexp |
rest |
flexa |
sup4 |
xmp |
flexp |
rest |
flexa |
sup4 |
xmp |
flexp |
rest |
flexa |
sup4 |
xmp |
flexp |
rest |
flexa |
|
|
a7 |
|
|
|
|
b7 |
|
|
|
|
c5 |
|
|
|
|
d5 |
|
|
|
|
e7 |
|
|
|
|
|
m |
158,2 |
436,7 |
385,4 |
177,9 |
165,8 |
81,1 |
338,3 |
274,9 |
386,8 |
132,7 |
110,1 |
193,1 |
348,3 |
458,6 |
168,8 |
122,1 |
425,2 |
320,6 |
253,3 |
140,6 |
109,4 |
352,6 |
333,8 |
313,6 |
131,4 |
|
e |
29,0 |
54,9 |
58,0 |
26,9 |
41,9 |
11,8 |
32,1 |
31,1 |
19,2 |
17,1 |
26,3 |
54,3 |
80,2 |
28,8 |
57,7 |
15,2 |
32,2 |
22,6 |
23,1 |
7,8 |
12,0 |
22,2 |
26,2 |
23,1 |
17,1 |
|
m/e |
5,5 |
7,9 |
6,6 |
6,6 |
4,0 |
6,9 |
10,5 |
8,8 |
20,1 |
7,8 |
4,2 |
3,6 |
4,3 |
15,9 |
2,9 |
8,0 |
13,2 |
14,2 |
11,0 |
18,1 |
9,2 |
15,9 |
12,8 |
13,6 |
7,7 |
|
|
f8 |
|
|
|
|
g11 |
|
|
|
|
h4 |
|
|
|
|
i3 |
|
|
|
|
|
|
|
|
|
|
m |
175,4 |
264,0 |
440,1 |
295,9 |
196,8 |
160,0 |
332,9 |
425,3 |
241,7 |
173,9 |
221,6 |
293,4 |
521,9 |
184,8 |
198,7 |
230,4 |
175,5 |
568,8 |
255,6 |
195,2 |
|
|
|
|
|
|
e |
56,3 |
18,3 |
25,5 |
19,1 |
34,9 |
13,4 |
16,2 |
15,6 |
16,7 |
21,7 |
11,3 |
26,0 |
17,5 |
20,6 |
12,2 |
27,4 |
56,5 |
51,4 |
38,6 |
7,2 |
|
|
|
|
|
|
m/e |
3,1 |
14,4 |
17,3 |
15,5 |
5,6 |
11,9 |
20,6 |
27,2 |
14,4 |
8,0 |
19,6 |
11,3 |
29,8 |
9,0 |
16,2 |
8,4 |
3,1 |
11,1 |
6,6 |
27,1 |
|
|
|
|
|
|
Moyennes des groupes G, supft |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
supf |
xmp |
supft |
restf |
bornf |
supf |
xmp |
supft |
restf |
bornf |
supf |
xmp |
supft |
restf |
bornf |
supf |
xmp |
supft |
restf |
bornf |
supf |
xmp |
supft |
restf |
bornf |
|
|
a7 |
|
|
|
|
b7 |
|
|
|
|
c5 |
|
|
|
|
d5 |
|
|
|
|
e7 |
|
|
|
|
|
m |
141 |
429,6 |
343,3 |
227,1 |
142,4 |
78,6 |
347,6 |
285,0 |
367,5 |
145,7 |
86,7 |
169,0 |
328,9 |
502,1 |
148,4 |
148,3 |
430,3 |
334,9 |
234,8 |
149,2 |
108,1 |
348,9 |
319,1 |
332,0 |
125,0 |
|
e |
44,1 |
66,3 |
73,9 |
25,2 |
36,3 |
49,2 |
32,2 |
67,4 |
53,8 |
35,8 |
35,8 |
50,0 |
59,4 |
58,3 |
55,3 |
42,8 |
38,2 |
52,2 |
65,6 |
19,5 |
40,5 |
40,0 |
47,7 |
58,7 |
23,0 |
|
m/e |
3,2 |
6,5 |
4,6 |
9,0 |
3,9 |
1,6 |
10,8 |
4,2 |
6,8 |
4,1 |
2,4 |
3,4 |
5,5 |
8,6 |
2,7 |
3,5 |
11,3 |
6,4 |
3,6 |
7,7 |
2,7 |
8,7 |
6,7 |
5,7 |
5,4 |
|
|
f8 |
|
|
|
|
g11 |
|
|
|
|
h4 |
|
|
|
|
i3 |
|
|
|
|
|
|
|
|
|
|
m |
162,6 |
257,1 |
381,1 |
361,8 |
163,3 |
124,3 |
343,9 |
372,0 |
284,1 |
156,2 |
164,5 |
295,9 |
426,2 |
277,9 |
157,0 |
199,7 |
170,4 |
491,3 |
338,3 |
160,3 |
|
|
|
|
|
|
e |
112,2 |
45,7 |
57,7 |
38,0 |
33,6 |
35,2 |
25,5 |
65,4 |
58,4 |
23,3 |
52,0 |
24,2 |
26,1 |
28,0 |
14,3 |
49,9 |
65,4 |
44,5 |
96,6 |
23,5 |
|
|
|
|
|
|
m/e |
1,4 |
5,6 |
6,6 |
9,5 |
4,9 |
3,5 |
13,5 |
5,7 |
4,9 |
6,7 |
3,2 |
12,3 |
16,3 |
9,9 |
11,0 |
4,0 |
2,6 |
11,0 |
3,5 |
6,8 |
|
|
|
|
|
|
Moyennes des groupes Gf, supdt |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
supd |
xmp |
supdt |
restp |
x1m |
supd |
xmp |
supdt |
restp |
x1m |
supd |
xmp |
supdt |
restp |
x1m |
supd |
xmp |
supdt |
restp |
x1m |
supd |
xmp |
supdt |
restp |
x1m |
|
|
af 9 |
|
|
|
|
bf 7 |
|
|
|
|
cf 5 |
|
|
|
|
df 5 |
|
|
|
|
ef 7 |
|
|
|
|
|
m |
158,5 |
433,3 |
437,2 |
129,5 |
193,7 |
159,6 |
319,7 |
416,0 |
264,2 |
213,1 |
162,1 |
171,5 |
531,1 |
297,4 |
277,4 |
176,7 |
410,5 |
406,4 |
183,1 |
184,4 |
164,2 |
348,1 |
466,6 |
185,3 |
223,9 |
|
e |
41,3 |
64,0 |
72,6 |
16,4 |
39,7 |
99,8 |
47,8 |
34,1 |
44,9 |
32,3 |
101,2 |
53,3 |
76,2 |
75,4 |
15,6 |
33,6 |
9,0 |
30,8 |
22,1 |
13,1 |
51,2 |
24,6 |
18,0 |
11,7 |
17,8 |
|
m/e |
3,8 |
6,8 |
6,0 |
7,9 |
4,9 |
1,6 |
6,7 |
12,2 |
5,9 |
6,6 |
1,6 |
3,2 |
7,0 |
3,9 |
17,8 |
5,3 |
45,8 |
13,2 |
8,3 |
14,1 |
3,2 |
14,1 |
26,0 |
15,8 |
12,6 |
|
|
ff 5 |
|
|
|
|
gf 9 |
|
|
|
|
hf 7 |
|
|
|
|
if 3 |
|
|
|
|
|
|
|
|
|
|
m |
221,9 |
253,0 |
564,0 |
183,0 |
226,2 |
154,5 |
343,5 |
503,4 |
153,1 |
230,4 |
201,5 |
302,1 |
567,7 |
130,2 |
241,6 |
208,8 |
152,5 |
662,6 |
184,9 |
257,3 |
|
|
|
|
|
|
e |
103,9 |
35,3 |
45,2 |
14,6 |
15,6 |
44,2 |
22,3 |
18,4 |
9,0 |
30,3 |
42,6 |
26,3 |
30,1 |
12,9 |
18,4 |
80,3 |
54,1 |
57,5 |
15,6 |
4,7 |
|
|
|
|
|
|
m/e |
2,1 |
7,2 |
12,5 |
12,6 |
14,5 |
3,5 |
15,4 |
27,3 |
17,0 |
7,6 |
4,7 |
11,5 |
18,8 |
10,1 |
13,2 |
2,6 |
2,8 |
11,5 |
11,9 |
54,5 |
|
|
|
|
|
|
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec le polynôme de d°3.Note
modifier
- Le rebond avec l'horizontale est plus grand qu'avec la diagonale. C'est comme si dans les moyennes glissantes il y avait 2 processus en action, celui du rebond qui a une forme et l'autre, entre la diagonale et l'horizontale x1m, un processus qui diminue suivant la pente de la diagonale. Le reste, sous les horizontales de poly3 et x1m, est un processus aléatoire qui n'a pas de rôle particulier. Aussi le sens du rebond est différend dans les 2 tableaux étudiés, et ce n'est pas seulement une question de différence de calcul.
- Les différences flexf se répartissent ainsi (en valeurs absolues): 5 supérieures à 50%, 11 entre 46 et 36% et 42 entre 34 et 0%
- Les moyennes par clasf: je retrouve l'ordre des moyennes avec poly3 sauf pour s4/l4 de M11 qui est trop élevée. Les différences en % sont divisées par la valeur la plus faible. Lien au tableur: Intergen51. Comparaison diagonale poly3
Int51.fc+400. Comparaion diagonale poly3
|
Poly3 |
Forme |
s4-sf |
sd-s4 |
sd-sf
|
clasf |
l4 |
s4/l4 |
s4 |
flexo |
lf |
sf/lf |
sf |
ld |
sd/ld |
sd |
%s4f |
%sd4 |
%sdf
|
E1 |
101,5 |
1,01 |
99,9 |
2,52 |
86,6 |
0,69 |
57,1 |
191,3 |
0,56 |
103,1 |
74,9 |
3,2 |
80,5
|
E2 |
131,6 |
0,90 |
118,6 |
2,00 |
147,3 |
0,76 |
106,4 |
209,7 |
0,69 |
136,0 |
11,4 |
14,7 |
27,8
|
M11 |
99,0 |
1,30 |
129,2 |
2,67 |
73,3 |
1,12 |
81,3 |
168.0 |
0,77 |
127.0 |
58,9 |
-1,7 |
56,2
|
M21 |
143,6 |
1,21 |
172,0 |
2,11 |
123,6 |
1,15 |
142,8 |
198,9 |
0,94 |
183,6 |
20,5 |
6,7 |
28,6
|
M31 |
100,4 |
1,33 |
132,9 |
2,56 |
80,3 |
1,81 |
142,1 |
167,2 |
1,28 |
214,5 |
-6,9 |
61,4 |
51.0
|
M41 |
154,8 |
1,36 |
210,7 |
1,98 |
132,1 |
1,80 |
237,7 |
176,0 |
1,57 |
270,7 |
-12,8 |
28,5 |
13,9
|
Q |
122,2 |
1,28 |
152,3 |
2,29 |
100,6 |
1,14 |
111,9 |
166,6 |
0,99 |
155,4 |
36,2 |
2,0 |
38,9
|
- Les sommets de poly3: M41 a 8 sommets convenables, c'est à dire dont l'abscisse est supérieure à xm (+xm). Les autres sont soit négatifs soit positifs mais inférieurs à xm (-xm).
soma +xm -xm
E1 0 4
E2 2 1
M11 2 2
M21 4 2
M31 3 1
M41 8 0
Q 2 3
- Les ruptures des classes sup4
C11 C12 C21 C22 C23 C31 C32 C33 C41 C42 C43
5.6 7.5 3.8 2.9 11.4 3.3 2.9 9.0 7.4 7.9
- Fréquences des flexf, flexa-bornf
5 10 15 20 25 30 35 40 45 50 55 60 65
6 5 5 6 7 8 5 4 6 1 1 1 3 58
10 20 30 40 53 70 80 153 total flexa x1m
6 10 7 11 8 10 0 6 58 26>165 53 >165
- Les déterminants R2 des moyennes glissantes (mg9) et des polynômes de d°3
fréquences mg9 R2,21 poly3 R2,3
500 1 ppmp 200 0
550 0 250 3 mba mfe ppmp
600 2 vha2 vpb2 300 2 oan2 agrl>275
650 6 rtb mba blo absp 350 6
700 2 abqp mfi 400 4
750 4 450 4 55 275-715
800 16 48 686-901 500 8
850 18 550 8
900 8 600 6
1 pub 650 8
700 9
différences% mg9 % %
scc 165 750-850 rpl 87 10 2
cbei 129 mja 102 20 4
cdc 148 rtb 89 30 9
cdc8 139 vpb2 90 40 10
agrl 166 pmg 107 50 4
oan2 174 cbc 104 60 6
pub 137 924 70 2
mba 173 600 41,2 131,9 80 3
mfe 169 600 20,9 33,2 90 3
2,0 4,0 43
43 15
- Les diagrammes fc+400
- - Lien au tableau
- - Les diagrammes fc+ (freq10) présentent un minimum local autour de l'abscisse 50 suivi d'un rebond puis d'une inflexion aux alentours de l'abscisse 200 (images fcp1 fcp2). L'objectif de l'étude des diagrammes fc+400, en fréquences unitaires (freq1), est de caractériser ce rebond pour déterminer les pics de fréquences susceptibles d'avoir des rôles de contrôle des CDS adjacents à ces intercalaires, comme les pics identifiés en 1er dans les diagrammes fc40 autour des fréquences 1 et 12 .
- - Les diagrammes de sup4 en fonction des paramètres pte flexp effect . . .
- - Le rebond: j'ai détaillé les paramètres du tableau et notamment le calcul de sup4 dans description et calcul des rebonds poly3 et mg9.
- Après avoir repéré (xm,ym) dans les colonnes des données en fréquences unitaires (en s'aidant du diagramme en lots de fréquence de 10), j'utilise un tableau de calc contenant les formules mathématiques pour calculer les coordonnées du sommet (soma, somo) qui nécessite la dérivée 1ère, du point d'inflexion (flexa, flexo) qui nécessite la dérivée seconde, et l'ordonnée yc en xm sur la courbe de tendance du polynôme de d°3, poly3. En entrée de ce tableau je donne les 4 coefficients du polynôme et xm. J'ai calculé aussi, dans ce tableau de formules, les coefficients (a’, b') de la droite tangente au point d'inflexion.
- Une fois obtenu flexa et flexo je calcule, pour chaque abscisse, de xm à flexa, la différence y-flexo. La colonne des y-flexo est sauvegardée numériquement, les cellules à valeurs négatives (recherche du signe moins (-)) sont recherchées et effacées. La somme de cette colonne donne sup4.
- - Classement des diagrammes
- par le sommet du polynôme 3, somo.
- - L'ordonnée du sommet, somo, n'est pas très informative parce que sa moyenne de 4.1 varie peu avec un m/e de 5.4 pour 54 génomes. Les 4 génomes restants n'ont pas de sommet.
- - Le classement par le sommet n'a de sens que relativement au rebond qui est défini par la différence somo-flexo, et cette différence est très peu informative puisqu'elle est très faible et varie très peu comme somo et flexo avec les valeurs de m m/e g respectivement, 4.1 5.4 54 contre 2.3 7.1 49 pour flexo.
- par le rebond sup4:
- - Comparaison avec les diagrammes fc40 qui sont nets pour oan2 ban psor ou bien aussi déchiquetés ( en dents de scie ) que les fc400 comme blo ou bien quasiment sans pics comme aua npu. Les fc400 sont systématiquement en dents de scie mais présentent régulièrement des ondulations, chacune s'étendant sur une dizaine de fréquences comme les fc40 nets.
- - Calcul du rebond
- Une façon de calculer le rebond, qui tient compte de toutes ces dents de scie (qui seraient chacune un pic de contrôle) et s'étend sur une plage 3 fois plus grande que la plage des fc40, soit 120 fréquences, est de sommer toutes les portions de pics qui dépassent l'ordonnée du point d'inflexion, flexo. Voir sa construction à partir du lien au début de ce chapitre, "Le rebond".
- Le point d'inflexion est le mieux approprié pour ce calcul parce que, en faisant partie de la courbe, celle-ci résume l'ensemble des points considérés alors que prendre ym, le minimum local, ne représente que lui-même. Une ordonnée d'un autre point de la courbe qui me paraissait intéressant est celle correspondant à l'abscisse xm. Or, pour une courbe à coefficient du monome x3 négatif, cette ordonnée, yc sur l'image, peut être très grande et dépasser tous les autres points du diagramme, ce qui rend nulle la somme sup4.
- J'ai opté pour l'utilisation du point d'inflexion parce qu'il permet d'inclure les courbes à coefficient négatif de x3, mais j'ai eu 21 courbes anormales, sans point d'inflexion. Sur 36 tests de ces génomes, avec comme limite l'abscisse 400, 16 tests ont un flexa, positif ou negatif, qui dépasse 400 et 20 dont le flexo est trop grand, supérieur à 3 (7) ou trop petit, inférieur à 0.9 cbei (13). Suite à une étude précédente en abscisse 200, où beaucoup de ces génomes avaient des courbes avec un point d'inflexion, j'ai réduit la limite de 400 à pfin pour ces génomes (voir cette colonne dans le tableau). Ainsi 4 génomes vont jusqu'à 300, 12 jusqu'à 250, 2 jusqu'à 200 (eal ase), scc jusqu'à 170 et 2 jusqu'à 150 (pmg pub). La majorité des 58 génomes étudiés ont un xm moitié de l'abscisse freq10 du minimum local des diagrammes en freq10, étendus de 1 à 400. Ces xm se terminent donc par 5. J'ai testé 15 génomes normaux en prenant un xm unitaire, autour du minimum local en freq10. Pour ces tests flexo et flexa changent très peu. J'ai pris seulement 7 xm ne se terminant par 5 et seul hmo présente un écart élevé du sup4, 50 entre 45 et 400 et 118 entre 47 et 300. J'ai mis en sauvegarde, dans le tableur, ces courbes avec le 1er choix du xm, l'équation de la courbe et les valeurs du point d'inflexion et de sa tangente.
- - Classement des fc400 avec le paramètre sup4 en tri croissant, colonne clas.
- Principe du classement: dans le chapitre des rebonds en diagonale des fc+400, j'ai pu attribuer des formes qui se regroupent naturellement avec des tailles de rebond homogènes. Dans le cas des polynômes de d°3, ceux-ci ont tous la même forme basée sur le point d'inflexion, aussi je n'ai pas pu trier en tri croissant sur l4 comme avec lf pour une forme donnée. Sans la forme, les petites longueurs l4 vont être un mélange de E1 M11 M31 Q avec des sup4 extrêmes, les plus petits avec E1 M11, les plus grands avec M31 et les moyens avec Q. Ainsi, seule la classification avec sup4 arrive à donner des groupes homogènes.
- Comparaison des rebonds en moyennes sup4 supf:
- + En principe le rebond avec l'horizontale est plus grand qu'avec la diagonale (voir la construction des rebonds). C'est comme si dans les moyennes glissantes il y avait 2 processus en action, celui du rebond qui a une forme et l'autre, entre la diagonale et l'horizontale x1m, un processus qui diminue suivant la pente de la diagonale. Le reste, sous l’horizontale en x1m, est un processus aléatoire qui n'a pas de rôle particulier. Aussi le sens du rebond est différend dans les 2 tableaux étudiés, et ce n'est pas seulement une question de différence de calcul.
- + Suivant ce principe, sup4>supf, seulement 2 classes clasf sur 7, M31 M41, n'y conviennent pas avec sup4<supf. Cependant, comme bornf et flexa sont proches (voir les différences) je m'attendais à ce que supd soit largement supérieur à sup4. Seul M31 répond à ce critère avec une différence de 61 %, puis largement après M41 avec 28 % . Les 5 autres groupes ne dépassent pas les 15 %. C'est en essayant de comprendre ces différences que j'ai comparé M11 et M31 qui ont les mêmes 6 paramètres sur 10 et ne diffèrent que par supf et supd, de même pour sf/lf et sd/ld puisque les 2 lf et les 2 ld sont identiques entre eux. Le rebond sup4 est quasiment identique entre eux, mais il se comporte différemment relativement à supf et supd,
- pour M11 sup4 est égal à supd, comme s'il ne voyait pas la forme supf puisque supd est égal à supf+sdf
- pour M31 sup4 est égal à supf, comme s'il ne voyait que la forme supf et pas sdf
- + Aussi, en tablant sur la colonne %sd4, je peux regrouper les 3 clasf E1 M21 Q avec M11. Ces 4 clasf ont, en gros, une forme en escalier. C'est effectivement le cas de E1 mais pour les 3 autres ont un indice sf/lf faible (1.12 1.15 1.14) qui masque leur forme en plateau par rapport à la diagonale.
- + En parallèle on peut regrouper les 2 clasf E2 M41 avec M31 suivant la colonne %s4f. La clasf E2 est une forme en escalier, avec un sf/lf de 0.76, mais comme sup4=supf cela veut dire que ses marches sont plus élevées que celles de E1. Cependant E2 reste intermédiaire entre les 2 groupes puisque les différences %s4f et %sd4 sont faibles et presque égales, 11% et 15%. La clasf M41 ressemble beaucoup à M31, elle se différencie d'elle par le %sdf, tres faible, 14% contre 51% qui explique aussi la faiblesse de %sd4, 28% contre 61%. Malgré le %sdf élevé de M31, il est masqué par son %sd4 encore plus élevé, ce qui explique que sup4 ne voit que supf, la forme.
- Homogénéité des classes en poly3, clas: Voir tableau des moyennes.
- + Par construction les classes et les sous-classes de sup4 sont très homogènes par rapport à sup4, tableau int51.11 des moyennes, les rapports m/e des 4 classes C sont supérieurs à 8.
- + Les classes C sont aussi homogènes par rapport aux plages flexp à partir desquelles j'ai calculé les rebonds sup4, tableau int51.24, m/e supérieurs à 7. Cela correspond à l'homogénéité du rapport sup4/flexp, colonne supF du tableau des diagrammes poly3, avec un m/e supérieur à 7 et une moyenne de 36%. Plus flexp est importante et plus le rebond est grand.
- Hétérogénéité des clades par rapport au rebond sup4:
- + Les clades sont très hétérogènes avec un m/e, du tableau des moyennes, inférieur à celui du total, 4.3 pour sup4 et 6.3 pour flexp
- + Comme pour la discussion sur les formes du tableau des rebonds supf par rapport à "la diagonale", diagrammes des diagonales, discussion, le rebond sup4 ne dépend pas du clade mais du chromosome. Ainsi
- Pour un même génome à 2 éléments, ceux-ci ont des rebonds différents: plasmide et chromosome abq abs ppm (170 229, 172 206, 112 158), 2 chromosomes circulaires oan vha vpb (156 134, 196 150, 168 77), 1 chromosome circulaire et l'autre linéaire agr (230 98).
- Deux génomes qui se ressemblent, pour tous les paramètres de classement, ont le même rebond: cdc cdc8 (70 72), abq abs (229 206), abqp absp (170 172), rpl rtb (264 250).
- - L'importance de la zone de rebond, flexp:
- Le rebond m'a permis d'appréhender la forme des courbes avec la méthode de la diagonale et de les numériser avec la méthode du poly3. Mais le rebond ne concerne qu'environ le tiers des intercalaires de sa zone, moyenne de 36% pour poly3 (supF) et 34% pour la méthode diagonale (%sd %sf), alors que c'est la totalité de cette zone qui doit être prise en compte pour étudier le rôle de ces intercalires dans le contrôle des CDS ou de l'architecture du chromosome en entier. Par ailleurs les 2 zones définies par les 2 méthodes ont chacune une importance: celle de poly3 donne une vue globale (flexp) et un point d'inflexion (flexa) qui serait la frontière entre 2 processus, le contrôle et un autre processus; celle de la méthode diagonale (supdt), plus étendue que flexp, permet de mettre en valeur les formes en escaliers qui sont mal définies dans poly3 parce qu'elles n'ont pas un sommet convexe, bien défini, du polynôme (soma somo) ou bien leur point d'inflexion n'est que visuel pour la zone supft comparable à flexp et qui est limitée à la forme constatée. La zone supdt concerne donc la totalité du processus de contrôle et se distingue de l'autre processus d'après qui décroît exponentiellement de flexa à la fin du reste des intercalaires (rfin). Ce 2ème processus débute souvent avec des intercalaires de plus de 300 pbs (correspodant à des protéines de plus de 100 aas) et concerne soit des CDS non définis par la base de données soit des zones de contrôle importantes comme celles nécésaires pour résoudre les contraintes de la réplication ou soit encore des intercalaires en cours de formation pour donner un CDS.
- - Les diagrammes de sup4 en fonction des paramètres pte flexp effect: flexp est proportionnelle à sup4 avec un R2 de 0.790 comme supft et supf avec un R2 de 0.410, mais ce n'est pas le cas de supd et supdt avec un R2 de 0.114.
- Importance relative des 3 zones xmp, flexp (et supft), rest (et restp):
- - les moyennes: la zone de rebond est très importante avec une moyenne de (376-6.3-46 et 272-463) pour flexp, (492-6.8-55 et 350-648) pour supdt et (349-4.8-57 et 178-468) pour supft. Je note la ressemblance entre flexp et supft. J'ai refait le calcul pour supft avec 53 genomes: (360-5.7-53 et 246-468).
- - les groupes:
- * Quand j'ai commencé à regrouper les génomes dans le tableau des poly3, par leurs zones flexp, j'ai remarqué que, pour une même valeur de cette zone, je pouvais avoir 2 génomes totalement différents, avec un tandem (xmp rest) inverse l'un de l'autre. Par exemple pour les 4 génomes ppmp mfe afn mja, après tri sur flexp, le trio (xmp flexp rest) donne respectivement (215 292 493) (236 293 470) (435 300 266) (477 303 215). Ainsi le couple (ppmp mfe) a 2 génomes semblables tout comme (afn mja), par contre mfe et afn sont très différents. J'ai détaillé la méthode de classement dans la légende du tableau. L'aspect de Trois diagrammes, en forme de cône, illustrent bien ce classement: effect/xmp rest/xmp effect/rest, avec un coefficient R2 linéaire, respectivement de 0.165 0.264 0.070. Pour une même valeur de l'abscisse (xmp ou rest) j'ai un groupe à ordonnées élevées et un groupe à ordonnées faibles, ce qui se traduit par des verticales qui diminuent (effect/xmp rest/xmp) ou augmentent (effect/rest) de taille avec l'abscisse. Dans le diagramme rest/xmp j'ai séparé les groupes a b c d e f g h i avec 2 couleurs et avec un représentant pour chaque groupe. Deux groupes qui ont le même xmp ont un rest et un flexp différents mais dans un groupe donné les génomes ont les 3 quantités proches.
- * Moyenne et dispersion de chaque groupe:
- Ce sont les groupes Gf que j'ai choisis pour l'analyse. Parce que leurs limites x1m sont clairement définies à l'encontre des limites flexa et bornf. Les courbes de tendance des poly3 s'adaptent mal aux formes en escalier (clasf E11 et E21) et n'ont pas un flexa bien défini; De même que pour mon appréhension pour définir leur inflexion, bornf, correspondant à la limite de la forme. Par contre les formes de clasf, M11 M21 M31 M41 Q, présentent une décroissance rapide après leur forme et leur bornf se trouve bien définie. Ainsi les formes en escalier seront représentées uniquement avec x1m, alors que les autres formes peuvent être comparées entre flexa, bornf et x1m.
- Mise à l'écart du génome pub: Que ça soit pour les groupes Gf ou G ce génome a des valeurs extrêmes. Aussi les groupes af10 et a8 deviennent af9 et a7. Je l'ai regroupé avec les 3 génomes pmg ant mja qui ont aussi des valeurs élevées notamment en xmp et les valeurs de ce groupe, af4, sont homogènes comme le groupe if3 extrême en restp (voir la sauvegarde dans le tableur). Ses valeurs [supd xmp supdt restp x1m] et leurs dispersions (m/e) sont [126/4,2 549/7,6 327/6,3 124/3,5 137/5,2]. Les 6 génomes restant du groupe af10 forment un groupe af6 beaucoup plus homogène que le groupe af9 avec les valeurs [171/4,1 393/16,4 482/18,7 125/14,6 217/11,7]. Si les 2 groupes af9 et af6 restent semblables avec xmp/supdt et x1m respectivement de (1.0 194) et (0.8 217) le groupe af4 Se distingue de tous les autres groupes Gf par un rapport nettement inverse 1.7, contre un rapport inférieur à 1.0, et un x1m très petit de 137 contre 184 pour le plus petit de df5.
- Les groupes G flexp sont semblables aux groupes Gf supdt: l'ordre relatif des rest et des restp, le nombre de génomes par groupe et les plages de définition sont les mêmes.
- Ils diffèrent par les valeurs du rebond sup4 avec 2 dispersions seulement, par contre les valeurs du rebond supd sont tous dispersées (sauf pour le groupe df5). La dispersion de supd se comprend parce que celui-ci représente la forme d'un génome dans le tableau de la diagonale et j'ai montré, dans la note de diagonale, que supd est indépendant de toute caractéristique du génome. Comme par construction un groupe est homogène, en xmp et restp seulement, ceci implique que supd est indépendant de ces 2 caractéristiques. De même par construction (polynôme de d°3, poly3) les rebonds sup4 sont calculés par rapport à l'horizontale passant par flexo comme flexp l'est par rapport à l'abscisse. Donc flexp et sup4 doivent être analogues dans leur homogénéité aussi. Il faut remarquer que la plage de définition de supd (xm-x1m) est plus grande que celle de sup4 (xm-flexa) alors que leurs moyennes sont presque égales, 164 contre 139 pour sup4, avec une même dispersion de 4.2.
- Les flexa sont très dispersés (6 groupes <8 dont 3<5 et 3>16) les x1m non ( 3<8 dont 1 seul <5 avec 4.9 pour af9, et 6>13). Ce qui justifie la clareté des x1m.
- Les supf, comparaison avec les sup4 avec les mêmes groupes G. Les colonnes restf et bornf ne sont pas incluses dans le tableau mais elles le sont dans le lien au tableur. La moyenne de restf est (299/5.1 pour 46 genomes etendue sur 205-390). La moyenne de bornf est (149/4.8 pour 57 génomes étendue sur 84-217). Comme pour supd, à cause de la forme, supf est dispersé dans les 9 groupes de G. Pour bornf, qui est mal défini pour les formes en escalier E (voir ci-dessus), les groupes dispersés sont b7 avec 6 formes E, c5 avec 3E et f8 avec 3E. Le groupe a7 est dispersé et n'a pas de formes en escalier, il déroge à la règle. Les autres groupes ont d5 1E, e7 2E, g11 2E, h4 0E et i3 1E. Pour l'ordre relatif des restp, les gropues G supft les respectent avec 2 exceptions sur 9 pour les non extrêmes: les max b7 c5 donnent 368 502, les min a7 g11 h4 donnent 227 284 278 et les intermédiaires d5 e7 f8 i3 donnent 235 363 332 338. Ainsi le groupe d5 est celui qui déroge clairement à la règle.
- Les classements des groupes par restp: J'ai choisi restp à cause de ses valeurs faibles qui permettent de dégager les extrêmes bien qu'il soit peu dispersé par construction. J'ai ainsi 2 groupes b7 c5 à maximum (restp > 264), 3 groupes a9 g9 h7 à minnimum (restp < 153) et 4 groupes intermédiaires d5 e7 f5 i3 à 184 ± 1. Dans chaque grand groupe restp, les groupes diffèrent par le rapport xmp/supdt auquel j'ajoute x1m qui n'est pas corrélé à restp.
- + bf 7 rpl rtb cbc cdc scc cdc8 spl . . . . . . 264 0.77 213
- + cf 5 mba mfe npu cbei ppmp . . . . . . . . 297 0,32 277
- .
- + af 9 pmg ant mja lmo ade eco bsu cbn agrl . . . . . . 130 0,99 194
- + gf 9 lam ecoN vpb1 cvi lbu ppm oan1 abs pmq . . . 153 0,68 230
- + hf 7 abqp rpm agrc hmo abq rru aua . . . . . . . . . . . 130 0,53 242
- .
- + df 5 afn myr apal oan2 abra . . . . . . . . . . . . 183 1,01 184
- + ef 7 psor cle eal vpb2 vha1 absp ban . . . . . 185 0,75 224
- + ff 5 fps vha2 amed ase blo . . . . . . . . . . . . . 183 0,45 226
- + if 3 mfi sma ksk . . . . . . . . . . . . . . . . . . . . . .185 0,23 257
- .
- + af 6 lmo ade eco bsu cbn agrl . . . . . . . . 125 0,82 217
- + af 4 pub pmg ant mja . . . . . . . . . . . . . . 124 1,68 137
Intergen51. Classement des courbes CDS-CDS positifs continus.Note. Moyennes des classes et des clades
modifier
- fc+400. Moyennes par classe et clade. lien au tableur. La bordure dans chaque tableau des classes sépare les classes des sous-classes. La bordure dans chaque tableau des clades sépare les moyennes au nombre de génomes supérieur à 2, des clades réduits à 1 ou 2 génomes sans moyenne.
Int51.fc+400 Moyennes des clades et des classes
Int51.11 Classes du sup4
clas |
m |
e |
m/e |
gen
|
C11 |
74 |
3,3 |
23 |
5
|
C12 |
86 |
4,4 |
20 |
3
|
C21 |
101 |
2,6 |
38 |
5
|
C22 |
110 |
2,2 |
49 |
4
|
C23 |
118 |
1,4 |
86 |
8
|
C31 |
137 |
3,5 |
39 |
3
|
C32 |
153 |
5,4 |
28 |
14
|
C33 |
170 |
2,4 |
70 |
3
|
C41 |
196 |
7,0 |
28 |
6
|
C42 |
228 |
4,9 |
46 |
4
|
C43 |
257 |
6,7 |
38 |
3
|
total |
139 |
33 |
4,3 |
46
|
C1 |
79 |
7,0 |
11 |
8
|
C2 |
111 |
7,7 |
14 |
17
|
C3 |
153 |
10,3 |
15 |
20
|
C4 |
220 |
26 |
8,3 |
13
|
|
Int51.12 Classes du pte
clas |
m |
e |
m/e |
gen
|
C11 |
14 |
5,0 |
2,8 |
5
|
C12 |
18 |
15 |
1,2 |
3
|
C21 |
26 |
21 |
1,3 |
5
|
C22 |
28 |
21 |
1,3 |
4
|
C23 |
19 |
10 |
2.0 |
8
|
C31 |
22 |
6 |
3,9 |
3
|
C32 |
18 |
8,4 |
2,1 |
14
|
C33 |
16 |
2,3 |
7,0 |
3
|
C41 |
16 |
1,9 |
8,8 |
6
|
C42 |
19 |
1,6 |
12 |
4
|
C43 |
20 |
1,6 |
12 |
3
|
total |
18 |
5,1 |
3,6 |
49
|
C1 |
15 |
9,1 |
1,7 |
8
|
C2 |
23 |
16 |
1,5 |
17
|
C3 |
18 |
7,5 |
2,5 |
20
|
C4 |
18 |
2,3 |
7,8 |
13
|
|
Int51.13 Classes du xmp
clas |
m |
e |
m/e |
gen
|
C11 |
348 |
26 |
13 |
5
|
C12 |
275 |
85 |
3,3 |
3
|
C21 |
410 |
136 |
3,0 |
5
|
C22 |
354 |
127 |
2,8 |
4
|
C23 |
338 |
87 |
3,9 |
8
|
C31 |
400 |
6 |
68 |
3
|
C32 |
317 |
94 |
3,4 |
14
|
C33 |
356 |
44 |
8,0 |
3
|
C41 |
323 |
78 |
4,1 |
6
|
C42 |
242 |
90 |
2,7 |
4
|
C43 |
248 |
30 |
8,3 |
3
|
total |
324 |
64 |
5,1 |
53
|
C1 |
321 |
62 |
5,2 |
8
|
C2 |
363 |
109 |
3,3 |
17
|
C3 |
335 |
85 |
3,9 |
20
|
C4 |
281 |
80 |
3,5 |
13
|
|
Int51.14 Classes du flexp
clas |
m |
e |
m/e |
gen
|
C11 |
260 |
16 |
16 |
5
|
C12 |
310 |
17 |
18 |
3
|
C21 |
296 |
42 |
7,1 |
5
|
C22 |
304 |
39 |
7,8 |
4
|
C23 |
351 |
35 |
10 |
8
|
C31 |
361 |
34 |
11 |
3
|
C32 |
427 |
33 |
13 |
14
|
C33 |
418 |
11 |
38 |
3
|
C41 |
463 |
34 |
14 |
6
|
C42 |
552 |
43 |
13 |
4
|
C43 |
495 |
70 |
7,1 |
3
|
total |
376 |
60 |
6,3 |
46
|
C1 |
279 |
30 |
9,3 |
8
|
C2 |
324 |
44 |
7,3 |
17
|
C3 |
416 |
38 |
11 |
20
|
C4 |
498 |
58 |
8,6 |
13
|
|
Int51.15 Classes du rest
clas |
m |
e |
m/e |
gen
|
C11 |
391 |
21 |
18 |
5
|
C12 |
414 |
83 |
5,0 |
3
|
C21 |
294 |
99 |
3,0 |
5
|
C22 |
342 |
117 |
2,9 |
4
|
C23 |
310 |
71 |
4,4 |
8
|
C31 |
239 |
31 |
7,8 |
3
|
C32 |
256 |
63 |
4,1 |
14
|
C33 |
225 |
33 |
6,7 |
3
|
C41 |
213 |
55 |
3,9 |
6
|
C42 |
206 |
49 |
4,2 |
4
|
C43 |
257 |
40 |
6,5 |
3
|
total |
281 |
64 |
4,4 |
49
|
C1 |
400 |
49 |
8,2 |
8
|
C2 |
313 |
87 |
3,6 |
17
|
C3 |
249 |
56 |
4,5 |
20
|
C4 |
221 |
51 |
4,4 |
13
|
|
Int51.21 Clades du sup4
clade |
m |
e |
m/e |
gen
|
alpha |
179 |
55 |
3,3 |
14
|
gama |
126 |
42 |
3,0 |
9
|
bacilli |
148 |
31 |
4,7 |
8
|
clostrid |
114 |
46 |
2,5 |
8
|
actino |
180 |
80 |
2,3 |
4
|
archeo |
131 |
49 |
2,7 |
4
|
total |
139 |
33 |
4,3 |
46
|
bacter |
118 |
119 |
|
2
|
cyano |
149 |
109 |
|
2
|
teneri |
160 |
141 |
|
2
|
cvi |
147 |
|
|
1
|
ade |
148 |
|
|
1
|
ant |
153 |
|
|
1
|
afn |
102 |
|
|
1
|
scc |
108 |
|
|
1
|
|
Int51.22 Clades du pte
clade |
m |
e |
m/e |
gen
|
alpha |
22 |
12 |
1,9 |
14
|
gama |
17 |
4,7 |
3,5 |
9
|
bacilli |
15 |
4,3 |
3,6 |
8
|
clostrid |
13 |
4,0 |
3,2 |
8
|
actino |
21 |
9,0 |
2,4 |
4
|
archeo |
12 |
10,4 |
1,2 |
4
|
total |
18 |
5,1 |
3,6 |
49
|
bacter |
29 |
29 |
|
2
|
cyano |
12 |
59 |
|
2
|
teneri |
17 |
17 |
|
2
|
cvi |
31 |
|
|
1
|
ade |
30 |
|
|
1
|
ant |
36 |
|
|
1
|
afn |
12 |
|
|
1
|
scc |
21 |
|
|
1
|
|
Int51.23 Clades du xmp
clade |
m |
e |
m/e |
gen
|
alpha |
334 |
95 |
3,5 |
14
|
gama |
327 |
45 |
7,3 |
9
|
bacilli |
334 |
67 |
5,0 |
8
|
clostrid |
341 |
54 |
6,3 |
8
|
actino |
199 |
62 |
3,2 |
4
|
archeo |
279 |
133 |
2,1 |
4
|
total |
324 |
64 |
5,1 |
53
|
bacter |
411 |
328 |
|
2
|
cyano |
99 |
520 |
|
2
|
teneri |
420 |
396 |
|
2
|
cvi |
316 |
|
|
1
|
ade |
355 |
|
|
1
|
ant |
508 |
|
|
1
|
afn |
435 |
|
|
1
|
scc |
365 |
|
|
1
|
|
Int51.24 Clades du flexp
clade |
m |
e |
m/e |
gen
|
alpha |
426 |
91 |
4,7 |
14
|
gama |
361 |
71 |
5,1 |
9
|
bacilli |
399 |
54 |
7,4 |
8
|
clostrid |
344 |
87 |
4,0 |
8
|
actino |
493 |
130 |
3,8 |
4
|
archeo |
363 |
103 |
3,5 |
4
|
total |
376 |
60 |
6,3 |
46
|
bacter |
315 |
346 |
|
2
|
cyano |
487 |
272 |
|
2
|
teneri |
391 |
355 |
|
2
|
cvi |
420 |
|
|
1
|
ade |
410 |
|
|
1
|
ant |
355 |
|
|
1
|
afn |
300 |
|
|
1
|
scc |
290 |
|
|
1
|
|
Int51.25 Clades du rest
clade |
m |
e |
m/e |
gen
|
alpha |
240 |
63 |
3,8 |
14
|
gama |
312 |
72 |
4,4 |
9
|
bacilli |
267 |
105 |
2,5 |
8
|
clostrid |
314 |
79 |
4,0 |
8
|
actino |
308 |
104 |
3,0 |
4
|
archeo |
357 |
128 |
2,8 |
4
|
total |
281 |
64 |
4,4 |
49
|
bacter |
274 |
326 |
|
2
|
cyano |
414 |
208 |
|
2
|
teneri |
189 |
249 |
|
2
|
cvi |
264 |
|
|
1
|
ade |
235 |
|
|
1
|
ant |
138 |
|
|
1
|
afn |
266 |
|
|
1
|
scc |
345 |
|
|
1
|
|
Intergen51. Les diagrammes CDS-CDS négatifs
modifier
Intergen51. Les fréquences de -1 à -5
modifier
- Liens tableau des 51 génomes et le tableau avec des couleurs.
- Notes:
- - Les fréquences 1 2 3 4 5: Les 2 lots continu c- et discontinu x- ont en commun les fréquences 3 4 5, avec la proportion la plus élevée de la fréquence 4 (47% en continu et 29% en discontinu), les fréquences 3 et 5 sont quasiment nuls. Par contre les 2 lots se différencient nettement par les fréquences 1 et 2: la 1 des continus a la 2ème proportion la plus élevée et rivalise avec la fréquence 8 (18% contre 10%) et la fréquence 2 est quasiment nulle avec un effectif de 11 contre 814 attendus par rapport aux discontinus, 85*23512/2456; la 1 des discontinus est nulle, par contre la fréquence 2 rivalise avec la fréquence 8 (3.5% contre 3.6%).
- - Ainsi les 2 processus se comportent de façon inverse pour le taux des 5 1ères fréquences par rapport à leur total: 33% pour les discontinus et 64% pour les continus ce qui explique la forte proportion du reste chez les discontinus, 10.7% contre 1.8%, accentuée par la forte progression des continus par rapport aux discontinus comme je le détaille à la suite. A ce comportement s'ajoute la forte dissymétrie c/x des négatifs, 9.6 contre 2.5 pour la totalité des intercalaires.
Intergen51. La périodicité de 3
modifier
- Lien au tableur: les rapports pour t4.
- Liens: tableau des 51 génomes.
- Diagrammes: t3.3 t4
- Légende du tableau: 2/1 pour effectif de la fréquence 8 modulo 3, sur effectif de celle de 7 modulo 3. x et c pour discontinu et continu
cds-cds. Les fréquences des intercalaires négatifs cds-cds
inter |
fx- |
‰x- |
2/1x- |
fc- |
‰c- |
2/1c-
|
-1 |
4 |
2 |
|
4,140 |
176 |
|
-2 |
85 |
35 |
|
11 |
0 |
|
-3 |
3 |
1 |
|
12 |
1 |
|
-4 |
717 |
292 |
|
10,938 |
465 |
|
-5 |
5 |
2 |
|
19 |
1 |
|
-6 |
59 |
24 |
|
6 |
0 |
|
-7 |
41 |
17 |
|
351 |
15 |
|
-8 |
89 |
36 |
2.20 |
2,362 |
100 |
6.73
|
-9 |
47 |
19 |
|
7 |
0 |
|
-10 |
29 |
12 |
|
213 |
9 |
|
-11 |
94 |
38 |
3.24 |
1,255 |
53 |
5.89
|
-12 |
39 |
16 |
|
3 |
0 |
|
-13 |
35 |
14 |
|
242 |
10 |
|
-14 |
97 |
39 |
2.77 |
788 |
33 |
3.26
|
-15 |
43 |
18 |
|
6 |
0 |
|
-16 |
28 |
11 |
|
123 |
5 |
|
-17 |
68 |
28 |
2.43 |
537 |
23 |
4.37
|
-18 |
35 |
14 |
|
9 |
0 |
|
-19 |
29 |
12 |
|
107 |
5 |
|
-20 |
51 |
21 |
1.76 |
408 |
17 |
3.81
|
-21 |
17 |
7 |
|
2 |
0 |
|
-22 |
21 |
9 |
|
61 |
3 |
|
-23 |
42 |
17 |
2.00 |
264 |
11 |
4.33
|
-24 |
28 |
11 |
|
5 |
0 |
|
-25 |
22 |
9 |
|
91 |
4 |
|
-26 |
43 |
18 |
1.95 |
246 |
10 |
2.70
|
-27 |
13 |
5 |
|
3 |
0 |
|
-28 |
21 |
9 |
|
54 |
2 |
|
-29 |
43 |
18 |
2.05 |
158 |
7 |
2.93
|
-30 |
17 |
7 |
|
0 |
0 |
|
-31 |
20 |
8 |
|
48 |
2 |
|
-32 |
39 |
16 |
1.95 |
125 |
5 |
2.60
|
-33 |
14 |
6 |
|
0 |
0 |
|
-34 |
15 |
6 |
|
32 |
1 |
|
-35 |
31 |
13 |
2.07 |
125 |
5 |
3.38
|
-36 |
9 |
4 |
|
0 |
0 |
|
-37 |
8 |
3 |
|
27 |
1 |
|
-38 |
27 |
11 |
3.40 |
71 |
3 |
2.63
|
-39 |
15 |
6 |
|
0 |
0 |
|
-40 |
14 |
6 |
|
21 |
1 |
|
-41 |
24 |
10 |
1.71 |
58 |
2 |
2.76
|
-42 |
7 |
3 |
|
0 |
0 |
|
-43 |
10 |
4 |
|
31 |
1 |
|
-44 |
14 |
6 |
1.40 |
47 |
2 |
1.52
|
-45 |
6 |
2 |
|
0 |
0 |
|
-46 |
15 |
6 |
|
14 |
1 |
|
-47 |
19 |
8 |
1.27 |
43 |
2 |
3.07
|
-48 |
12 |
5 |
|
0 |
0 |
|
-49 |
13 |
5 |
|
23 |
1 |
|
-50 |
15 |
6 |
1.15 |
55 |
2 |
2.39
|
reste |
264 |
107 |
|
420 |
18 |
|
total |
2,456 |
1000 |
|
23,544 |
1000 |
|
- Note1: Périodicité de 3
- Découverte de la périodicité: Elle est apparue dès les 1ères études des intercalaires négatifs qui ne tenaient pas compte des compléments. En séparant les discontinus des continus, les effectifs des fréquences continues 6 modulo 3 devenaient nulles à partir de la fréquence 15 sur 50 décomptées. Ce phénomène m'a fait penser immédiatement au code génétique à 3 bases. Ce qui m'a poussé à en faire une étude approfondie.
- Signification de cette périodicité pour les intercalaires continus: un intercalaire négatif entre 2 CDS est une partie commune entre eux. Ce qui fait que pour les intercalaires 6 modulo 3 les 2 CDS ont une séquence d'acides aminés identique. Mais pour les intercalaires 7 et 8 modulo 3 les séquences sont différentes, par décalage, entre les 2 CDS. Une différence de séquence ne pose de problème du point de vue fonctionnel pour 2 protéines, mais l'identité de séquence en pose. C'est ce qui explique l'absence d'intercalaires modulo 3 long. C'est ainsi qu'une longueur de 30 pbs limite correspond à 10 aas qui devrait avoir une fonction spécifique peu fréquente. Reste alors, pourquoi la fréquence 8 modulo 3 est avantagée à celle de 7? (voir les taux dans le petit tableau de fin de note) La 1ère explication est que les fréquences 1 et 4 qui appartiennent à la période 7 modulo 3 et qui représentent 64% des intercalaires continus, servent de barrage pour les intercalaires suivants de cette période. Les fréquences 2 et 5 étant de la période 8 modulo 3 et étant nuls laissent la voie libre aux suivants. Mais le problème n'est que reporté aux fréquences de 1 à 5. Je reprendrais la discussion à la fin de ce chapitre.
- La périodicité de 3 chez les discontinus: Celle des continus était très intéressante mais celle des discontinus l'est encore plus, puisqu'un intercalaire négatif discontinu entre 2 CDS étant sur 2 brins différents leurs bases sont complémentaires et donc les 2 séquences d'aas sont totalement différentes. Ce qui est intéressant, c'est pourquoi y a-t-il une périodicité? Cela ne peut être qu'une conséquence de la physique de l'ADN au moment des réparations à l'origine de la création du complément. Les fréquences de 1 à 5 sont analogues aux continus,surtout la fréquence 4: est-ce qu'on peut en déduire que les continus subissent une contrainte physique lors du chevauchement? (Voir le petit tableau pour la périodicité le chapitre des fréquences de 1 à 5).
- Les processus probables à l'origine de la périodicité des continus.
- - Les fréquences de 1 à 5: Elles représentent 64% de tous les négatifs continus. Une explication qui me vient à l'esprit est le départ de la transcription d'une base ou plus à l'arrière du 2ème CDS quand les 2 gènes sont contigus. J'avais retrouvé cette situation quand je lisais les séquences publiées par le NCBI. Ceci expliquerait les fréquences 1 et 4, la 1ère crée un déphasage de la lecture ce qui donne une nouvelle séquence d'aas et la 2ème rajouterait, en plus, le codon d'initiation de la traduction Metf.
- - Les fréquences supérieures à 5: Les longs intercalaires ne peuvent pas être expliqués par le dé calage de lecture. Mon idée c'est qu'ils sont créés lors des réparations qui apparaissent avec les contraintes physiques de l'ADN créées lors des réparations de délétions ou lors des transcriptions et de la réplication. Le processus de réparation provoquerait un état vibratoire plus ou moins fort prologeant celui du 1er CDS. Cela se traduirait par un décalage d'une à 3 bases pour respecter la périodicité des 3 bases du code génétique. La force du prolongement de l'état vibratoire serait nulle pour un décalage de zéro bases, conséquent pour une base et très fort pour 2 bases. Et plus la force serait grande plus sera grand le décalage. Ce qui donnerait la périodicité constatée chez les intercalaires continus, effectifs quasiment nuls pour la période 6 et qui s'annulent rapidement, de faibles effectifs pour la période 7 et enfin de forts effectifs pour la période 8. Cependant la période 7 accompagne la 8 jusqu'à 116 pbs et peut prendre le dessus sur la 8 pour les faibles effectifs. Dans la liste des grands intercalaires négatifs continus (ref), sur les 22 supérieurs à 120 pbs, 9 les plus grands à partir de 729 sont des 6 modulo 3 (sauf 1295) et peuvent s'expliquer par la terminaison de la transcription ou de la traduction, un seul 7 modulo 3 le 310 et 12 sont des 8 modulo 3, le dernier étant 500.
- Les processus probables à l'origine de la périodicité des discontinus.
- - Appariement du recouvrement: étant donné la rareté des discontinus négatifs, 2456/200502 soit 1.2%, cela montre qu'un CDS a un état quantique propre, différent des autres gènes et que 2 CDS puissent difficilement s'apparier ou autrement dit, le brin compléméntaire d'un CDS est rarement un CDS. C'est comme si l'état quantique des intercalaires, en général, étaient moins solides que celui d'un CDS. La formation d'une discontinuité se ferait alors plus facilement dans un intercalaire continu positif. C'est effectivement le cas puisque j'ai recensé 2,456 x- contre 51,366 x+, soit 20 fois plus. Ce rapport est encore décuplé si l'on considère le rapport de la longueur totale des intercalaires positifs à la longueur du génome, rapport qui se situe en général autour de 10%.
- - Formation d'un intercalaire discontinu négatif: Sur le schéma suivant je suppose que le gène de séquence b est sur le brin complément du gène de séquence a.
- a a a a a= a= a= = =
- ° ° b° b° b b b b b
- Le signe = pour le brin opposé de b, le signe ° pour le brin oppsé de a; a= et b° sont détruits, les 2 brins opposés glissent l'un par rapport à l'autre et a= b° sont remplacées par une base qui maintient le même aa dans la protéine.
- La proximité de 2 CDS imposant chacun sa force quantique contraint le système de réparation à supprimer l'intercalaire qui est entre eux et qui a une faible force quantique et pour résoudre la nouvelle contrainte il détruit quelques bases des 2 gènes pour faire glisser les 2 brins entre eux, ce qui réduit le chromosome. La réduction totale du chromosome est certainement compenser par un allongement plus loin de certains intercalaires positifs de faible force quantique. Au niveau des 2 gènes impactés, ici, le système de réparation reproduit le morceau de chaque gène à l'identique (en aas) contraint par leurs grandes forces quantiques. L'opération ne réussit pas souvent parce que certains aas n'ont pas beaucoup de codons analogues pour changer d'appariement. D'où la rareté du processus. Cependant la réparation résoud les contraintes et renforce encore plus le chromosome qu'il ne l'est par un seul gène sans recouvrement.
- - Conséquence de ce processus sur le recouvrement:
- + Plus la contrainte créée par les 2 CDS est forte plus long sera le recouvrement.
- + Pour les contraintes faibles la périodicité de 3 des CDS n'apparaît pas encore car le recouvrement est court. La périodicité de 2 prend la place avec 2 4 6 et reflète le processus de la réparation qui procèderait par paires de bases. Ce que j'obtiens c'est 3.5% de 2, 29% de 4 et 2.4% de 6. Un recouvrement de 4 paraît comme un minimum pour la consolidation d'un appariemment à problème, comme aussi pour la majorité des CDS moyens ou à force quantique moyenne. La différence de taux de la fréquence 4 entre continus, 47%, et discontinus, 29%, dénote la différence des processus mis en oeuvre.
- + Pour les contraintes fortes, c'est à dire des CDS à grande force quantique, leur périodicité de 3 apparaît à partir de la fréquence 6. Ici la période 6 n'est pas inhibée par chevauchement comme dans les continus. Au total elle a le même effectif que la période 7 (voir les taux dans le petit tableau de fin de note): 431 contre 388.
- + La période 8, dans les discontinus, fait 50% et la 6 26% et la 24%. Dans le CDS la périodicité de 3 ne se révèle qu'à la traduction qui est sensible à l'état quantique de chaque base du codon. Qu'elle est la force de la 1ère base, de la 2ème et de la 3ème base du codon? Je penses que les 2 processus, chevauchement et recouvrement, ont révélés ces forces par leur périodicité de 3. Chez les discontinus, si on considère la 1ère base du codon comme la période 7 alors la 2ème base correspond à la période 8. Ce qui est conforme au code génétique où les 2 premières bases définissent 1 2 ou 4 aas. Ceci est vrai pour les continus, mais étant donné la complémentarité les 2 dernières bases sont à égalité chez les discontinus.
- La périodicité des intercalaires négatifs et les tRNAs.
- - La périodicité des continus rappelle la genèse des tRNAs avec l’absence totale de ceux dont le codon se termine par t, c'est à dire la 3ème base comme les continus. Est-ce la base t ou bien la position du 3ème rang? Ce dernier cas expliquerait le cas du codon cgc qui est absent remplacé par le codon cgt.
- - La périodicité des discontinus rappelle l’occurrence de tous les aas mais n'explique pas pourquoi la répartition des bases chez les intercalaires est de 1 2 1 pour respectivement la 1ère base la seconde et la 3ème. Si j'applique la même règle que pour les continus pour chaque brin, 0 1 1 pour un brin et 1 1 0 pour le complément et en additionnant j'ai bien 1 2 1.
- - Si la genèse des tRNAs utilise le rRNA 5s comme modèle, comme je le montrerais plus loin avec les intercalaires 5s-CDS analogues aux tRNA-CDS, alors le tRNA se formerait, comme pour les intercalaires continus, sur le 5s et non sur le brin opposé et donc devrait s'en séparé par glissement. Si cette hypothèse était vraie alors le mystère de la genèse chez les eucaryotes des tRNA au codon se terminant par t s'éclaircisserait: ils utiliseraient les 2 rRNA 5s et 5,8s comme modèle et le second produirait les tRNA se terminant par t comme font les intercalaires discontinus x-.
- - Dans le tableau qui suit je montre la grande différence de la périodicité 3, entre intercalaires CDS-CDS et tRNA-CDS. Les données des derniers sont dans les intercalaires rares. Ce sont surtout les R- continus qui sont complètement dissymétriques par aux S- continus. Mais la fréquence -4 est nulle pour les R- alors qu'elle représente 50% des S- continus et 30% des discontinus ( voir le tableau des S- ci-dessus).
Totaux des 3 périodes jusqu'à la fréquence 120 pour CDS-CDS
S- continus discontinus
période effect % effect %
6 43 5.1 431 264.6
7 1604 190.9 388 238.2
8 6755 804 810 497.2
total 8402 1000 1629 1000
- - - - -
Totaux des 3 périodes jusqu'à la fréquence 44 pour tRNA-CDS
R- continus discontinus
période effect % effect %
6 4 571 4 444
7 2 286 0 0
8 1 143 5 556
total 7 1000 9 1000
- Note2: Les diagrammes des périodes 3: t3.3 t4 et les données dans le tableau des 51 génomes.
- - Construction du diagramme: J'ai représenté chaque période démarrant par 6 7 8 modulo3 (ou dans le titre 0 1 2 modulo 3) avec ses fréquences (freq -1) en abscisse et ses effectifs (effect) en ordonnée, jusqu'à la fréquence 50. J'ai ajouté le total des effectifs de chaque période avec le label diagr. Je ne suis pas allé jusqu'à la fréquence 120 que j'ai utilisée pour la périodicité 9 dans le chapitre suivant. Mais déjà on voit que les diagrammes x- pourraient être représentées par des droites avec des pentes négatives faibles et que les diagrammes c- sont mieux représentées par un polynôme de d° 6, notamment le diagramme 2 modulo3 avec un coefficient de détermination de 0.999. J'ai représenté cependant les 6 diagrammes avec le polynôme de d° 6. C'est ce qui permet de mettre en évidence la périodicité 9 des x- et pas des c-. Le tableau en fin de Note2 affiche les pentes et les effectifs des périodes successives de la périodicité 9 de 2 modulo3 x- (2x-) qu'on peut deviner aussi dans 1 modulo3 x-.
- - Les rapports entre périodes: J'ai représenté dans l'image t4 les rapports entre 2 périodes de x- entre celles de c-. Par exemple le diagramme 2/1x- est le rapport de l'effectif de la période 2 modulo3 sur celle de 1 modulo3 des x-. Il est indiqué dans le tableau coloré des négatifs en début de chapitre et on peut le retrouver en tableur au début aussi du chapitre. Pour les continus je n'est représenté que 2/1c-, la période 0 c- ayant beaucoup de valeurs nulles. Je retrouve avec ces diagrammes la périodicité 9 des x- avec 2/1x- où j'ai éliminé les rapports des fréquences 11 et 34 (j’ai donné le R2 avec ces 2 rapports). Il ressemble étonnamment à celui de la période 2 modulo3x-. Il montre la corrélation entre les périodes avec la pente de la droite et les séquences de la période 2 modulo. Les rapports de 1/0x- montre une pente faible mais pas de séquences périodiques avec un R2 faible de 0.504. Les rapports de 2/0x- ne montrent même de décroissent avec un R2 quasiment nul de 0.035. Le diagramme 2/1c- ne met pas en lumière la périodicité 9. Il a une décroissance polynomiale nette et ne présente pas de séquences périodiques comme 2/1x-.
- - Mise en évidence de la périodicité 9 chez les discontinus x- avec les droites des diagrammes t3.3. Pour les c- la pente est calculée entre les 2 1ères fréquences. J'ai ajouté les R2 des polynômes de d° 3 pour comparer à d'autres diagrammes du chapitre des négatifs.
poly3 R2 pente *mod3 8 14 23 35
2x- 930 -1.97 *2 x- 89 97 42 31
1x- 895 -0.64 * 94 68 43 27
0x- 926 -1.12 * 97 51 43 24
2c- 960 -369 *
1c- 951 -46 *pente 1.33 -7.67 0.17 -1.17
Intergen51. La périodicité de 9
modifier
- Lien au tableur: les données pour t3.9
- Diagrammes: t3.9
- Périodicité de 9 : Le tableur contient tous les négatifs au-delà de -51 ainsi que les 6 périodes de 9, 6c 7c 8c 6x 7x 8x. Ci-dessous sont représentées les périodes 7c et 7x des continus et des discontinus ainsi que les 3 types d'ordonnées commençant par 6 7 8 des 3 périodes de la périodicité 9..
- - Chaque colonne a b c est une périodicité de 9 et la colonne t est leur total. Une ligne correspond à 3 périodes de 3. Dans l’exemple ci-dessous la 1ère ligne correspond aux effectifs des fréquences 7 10 13 des colonnes 7a 7b 7c et 7t la somme des effectifs de ces 3 fréquences, la 2ème ligne correspond de même aux fréquences 16 19 22 et ainsi de suite.
- - La colonne 7a a les fréquences 7 modulo 9 c'est à dire 7 16 25 ...etc, et la colonne 7b les fréquences 10 modulo 9, 10 19 34 ...etc.
c- 7ca 7cb 7cc 7ct * x- 7xa 7xb 7xc 7xt * Les 3 périodes de 9
7 351 213 242 806 * 7 41 29 35 105 * 6 7 8
16 123 107 61 291 * 16 28 29 21 78 * 15 16 17
25 91 54 48 193 * 25 22 21 20 63 * 24 25 26
34 32 27 21 80 * 34 15 8 14 37 * 33 34 35
43 31 14 23 68 * 43 10 15 13 38 * 42 43 44
52 16 13 6 35 * 52 7 3 8 18 * 51 52 53
61 10 14 17 41 * 61 4 5 8 17 * 60 61 62
70 5 9 5 19 * 70 2 2 2 6 * 69 70 71
79 5 13 7 25 * 79 3 5 2 10 * 78 79 80
88 6 9 9 24 * 88 2 2 1 5 * 87 88 89
97 7 3 1 11 * 97 2 0 1 3 * 96 97 98
106 3 2 2 7 * 106 2 3 0 5 * 105 106 107
115 4 0 0 4 * 115 2 1 0 3 * 114 115 116
- Les coefficients de détermination de toutes les courbes de tendance en polynôme de d°3, d°6 et leurs effectifs:
R2 effect d°6 R2 effect d°6 R2 effect d°6
6ca - 17 7ca 927 684 991 8ca 864 3372 995
6cb - 19 7cb 969 478 999 8cb 908 2015 999
6cc - 7 7cc 867 442 986 8cc 913 1368 999
6ct - 43 7ct 928 1604 994 8ct 887 6755 997
6xa 990 173 994 7xa 997 140 998 8xa 993 287 996
6xb 966 129 979 7xb 908 123 930 8xb 975 271 989
6xc 893 129 975 7xc 970 125 988 8xc 953 253 984
6xt 994 431 997 7xt 988 388 988 8xt 987 811 994
- Note:
- - J'ai montré la construction des diagrammes à la 1ère note "Périodicité de 9" ci-dessus. Je n'ai représenté que les courbes de tendances de 7xa 7ca 7xt 7ct avec leurs R2 en bleu. Sont représentés, affichés aussi, les R2 des 7xb et 7cb (rouge) ainsi que ceux de 7xc et 7cc (en vert). J'ai ajouté le total des effectifs de 7xt et 7ct avec le symbole diagr.
- - Le tableau ci-dessus des R2 de toutes les périodes modulo9 montre que les diagrammes des c- sont mieux représentés en polynômes de d°6, avec les 8 R2 supérieurs à 0.986, que par les polynômes de d°3, avec 7 R2 inférieurs à 0.928 alors même que leurs effectifs sont 10 fois supérieurs à ceux des x-.
- - Le même tableau montre que les x- sont suffisamment représentés par un polynôme de d°3, avec 2 R2 seulement inférieurs à 0.953 (0.908 et 0.893). Les polynômes de d°6 n'améliorent pas la situation comme les c- puis que 5 R2 sont inférieurs à 0.986: 2 avec 0.984 et 0.979 0.975 0.930. On peut attribuer ceci à leurs faibles effectifs relativement à ceux des c-.
- - En conclusion des diagrammes t3.3 t4 et t3.9, les x- avec leur décroissance lente montre bien une périodicité de 9 et les c- ne la montre pas parce qu'il décroissent rapidement et sont mieux représentés par des polynômes de d°6 et non de d°3 qui sont adaptés aux x-.
Intergen51. Les grands négatifs inférieurs à -120
modifier
- Lien au tableur: les recouvrements.
- Les recouvrements
- - Légende
- - add1 add2 adresse du début et de fin d'un cds. Je nomme pour les opérations qui suivent add11 add12 le 1er cds de la 1ère ligne. La ligne suivante contient les adresses du cds suivant que je nomme add21 add22.
- - Les opérations:
- + intercal, intercalaire entre un cds et le suivant. Il est calculé comme add12-add21-1.
- + shift, différence entre les extrémités de droite, des 2 cds, add22-add12. S'il est nul, il est remplacé par celui des extrémités de gauche, add21-add11. Les extrémités identiques, de droite ou de gauche, sont surlignées en jaune.
- + couvre, le recouvrement des 2 cds. Quand le shift est négatif (cyan) le cds est complètement recouvert et la longueur du recouvrement est égale à la longueur du 2ème cds, soit add22-add21+1, inférieure à l'intercalaire. Si le shift est positif le recouvrement est partiel et sa longueur est add12-add21+1, égale à l'intercalaire. Si les extrémités, d'un des 2 côtés, sont identiques le recouvrement d'un des 2 cds est total.
- - Note:
- - Tous les shift ou adresses colorés, au nombre de 22, ont un recouvrement total et la longueur de leurs intercalaires est supérieure à 310 (eal continu partiel) sauf 3 de eco, continus (242 212 153), et un de bsu discontinu (127). Les 12 intercalaires restants, sans couleurs, ont une longueur inférieure à 311 et des recouvrements partiels comme certainement les 97% des intercalaires négatifs de moins de 50 pbs.
- - Les continus ont de longs recouvrements allant jusqu'à 2400 et 12 sur 22 ont un recouvrement supérieur à 310. Les adresses en jaune: la traduction démarre en retrait pour le plus petit gène et garde la même séquence d'aas (idco: la longueur de l'intercalaire est égale au recouvrement) sauf l'intercalaire 153 où le recouvrement est tout à fiat différent pour les 2 gènes (diff); il suit le processus des recouvrements partiels non colorés ou en cyan. Alors que les autres jaunes suivent les processus de la traduction et non ceux des réparations au niveau de l'ADN.
- - Les discontinus, à l'inverse, un seul a 486 pbs de recouvrement sur un total de 12 et 6 sont en dessous de 100 pbs, 5 ayant moins de 297 pbs.
- - Les processus des intercalaires continus sont à 95% des non multiples de 3 comme je l'ai montré dans le chapitre de la périodicité 3. C'est le cas de toutes les adresses en clair et de l'intercalaire 153 qui est en jaune. Les autres jaunes suivant les règles de la traduction sont des multiples de 3. Les 4 adresses en cyan ont des recouvrements multiples de 3 mais n'ont pas d'aas en commun (diff) avec l'autre gène, donc ils suivent les processus partiels des réparations.
- - Les recouvrements des intercalaires discontinus sont totalitaires ou partiels et multiples ou non de 3 bien qu'ils aient de grandes longueurs.
cds-cds-. Les grands intercalaires cds-cds négatifs, les recouvrements.
intercal |
add1 |
add2 |
shift |
couvre |
multiple 3 |
intercal |
add1 |
add2 |
shift |
couvre |
multiple 3
|
continu
|
bsu |
|
|
|
|
|
eco |
|
|
|
|
|
-7616 |
387744 |
398495 |
-7475 |
141 |
*diff |
-2400 |
164730 |
167264 |
136 |
2400 |
*idco
|
|
390880 |
391020 |
|
|
|
|
164865 |
167264 |
|
|
|
|
|
|
|
|
|
-2202 |
3313342 |
3315543 |
470 |
2202 |
*idco
|
-500 |
3717238 |
3717825 |
-20 |
480 |
*diff |
|
3313342 |
3316014 |
|
|
|
|
3717326 |
3717805 |
|
|
|
-2181 |
3313342 |
3315522 |
20 |
2181 |
*idco
|
|
|
|
|
|
|
|
3313342 |
3315543 |
|
|
|
-492 |
2909520 |
2910011 |
735 |
492 |
*idco |
-2130 |
2731600 |
2733729 |
444 |
2130 |
*idco
|
|
2909520 |
2910746 |
|
|
|
|
2731600 |
2734173 |
|
|
|
|
|
|
|
|
|
-1674 |
1973360 |
1975033 |
290 |
1674 |
*idco
|
-164 |
1252815 |
1253021 |
52 |
164 |
|
|
1973360 |
1975324 |
|
|
|
|
1252858 |
1253073 |
|
|
|
-1295 |
492092 |
493386 |
637 |
1295 |
idco
|
|
|
|
|
|
|
|
492092 |
494023 |
|
|
|
-154 |
2466721 |
2467953 |
209 |
154 |
|
-897 |
4577958 |
4578854 |
483 |
897 |
*idco
|
|
2467800 |
2468162 |
|
|
|
|
4577958 |
4579337 |
|
|
|
|
|
|
|
|
|
-729 |
1179520 |
1180359 |
112 |
840 |
*idco
|
-143 |
1916663 |
1917097 |
205 |
143 |
|
|
1179631 |
1180359 |
|
|
|
|
1916955 |
1917302 |
|
|
|
-448 |
1639030 |
1639527 |
-193 |
255 |
*diff
|
rru |
|
|
|
|
|
|
1639080 |
1639334 |
|
|
|
-137 |
2068001 |
2069146 |
934 |
137 |
|
-242 |
578107 |
578568 |
-59 |
183 |
*diff
|
|
2069010 |
2070080 |
|
|
|
|
578327 |
578509 |
|
|
|
lmo |
|
|
|
|
|
-212 |
508875 |
511379 |
2292 |
212 |
*idco
|
-161 |
509400 |
510287 |
925 |
161 |
|
|
511168 |
511379 |
|
|
|
|
510127 |
511212 |
|
|
|
-153 |
16751 |
16903 |
57 |
153 |
*diff
|
mfi |
|
|
|
|
|
|
16751 |
16960 |
|
|
|
-161 |
515362 |
516138 |
142 |
161 |
|
eal |
|
|
|
|
|
|
515978 |
516280 |
|
|
|
-310 |
1869470 |
1869865 |
467 |
310 |
diff
|
|
|
|
|
|
|
|
1869556 |
1870332 |
|
|
|
discontinu
|
bsu |
|
|
|
|
|
eco |
|
|
|
|
|
-361 |
2601528 |
2603339 |
-64 |
297 |
* |
-723 |
3111128 |
3111988 |
-663 |
60 |
*
|
|
2602979 |
2603275 |
|
|
|
|
3111266 |
3111325 |
|
|
|
|
|
|
|
|
|
-530 |
3838248 |
3839171 |
-470 |
60 |
*
|
-127 |
3666841 |
3667059 |
-43 |
84 |
* |
|
3838642 |
3838701 |
|
|
|
|
3666933 |
3667016 |
|
|
|
-527 |
10643 |
11356 |
-41 |
486 |
*
|
|
|
|
|
|
|
|
10830 |
11315 |
|
|
|
-93 |
2652993 |
2653463 |
1410 |
93 |
* |
-495 |
234027 |
234782 |
-462 |
33 |
*
|
|
2653371 |
2654873 |
|
|
|
|
234288 |
234320 |
|
|
|
eal |
|
|
|
|
|
-436 |
3796948 |
3798207 |
-361 |
75 |
*
|
-189 |
3265916 |
3266143 |
1749 |
189 |
* |
|
3797772 |
3797846 |
|
|
|
|
3265955 |
3267892 |
|
|
|
-210 |
3993739 |
3994059 |
276 |
210 |
*
|
eal |
|
|
|
|
|
|
3993850 |
3994335 |
|
|
|
-167 |
1123029 |
1123934 |
1507 |
167 |
|
-129 |
1240260 |
1240463 |
1608 |
129 |
*
|
|
1123768 |
1125441 |
|
|
|
|
1240335 |
1242071 |
|
|
|
Intergen51. Les diagrammes CDS-rRNA
modifier
Intergen51. Les diagrammes CDS-16s
modifier
- Lien au tableur: Intergen51. Les diagrammes CDS-16s.
- Diagrammes: t5
- Comparaison CDS16s 5sCDS
- - Les équations des polynômes de d°3
- CDS16sc f(x) = 1.06E-07 x3 – 2.31E-04 x2 + 1.37E-01 x - 1.28E+01
- CDS16sx f(x) = 2.38E-08 x3 – 5.97E-05 x2 + 4.11E-02 x - 4.25
- 5sCDSc f(x) = 1.86E-07 x3 - 2.41E-04 x2 + 7.56E-02 x + 1.12
- 5sCDSx f(x) = 1.28E-07 x3 – 1.54E-04 x2 + 3.86E-02 x + 4.50
- - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
CDS16sc CDS16sx 5sCDSc 5sCDSx
R2 0.687 0.456 0.655 0.592
xs 415.2 487.7 205.9 155.5
plage 180-780 330-750 90-330 60-300
total-p 181 69 75 69
% 86 74 74 78
queue 26 20 26 18
% 12 22 26 20
tête 3 4 3 2
% 1.5 4.3 3.0 2.2
max 450;22 480;9 180;13 120;16
total51 210 93 101 89
freq 30 30 30 30
Intergen51. Les diagrammes 5s-CDS
modifier
- Lien au tableur: Intergen51. Les diagrammes 5s-CDS.
- Diagrammes: t5 et t1 pour les tRNA-CDS
- Comparaison avec les tRNA-CDS
- - Les équations des polynômes de d°3
- fct f(x) = 1.04E-05 x3 - 7.10E-03 x2 + 1.21E+00 x + 1.35E+01
- fxt f(x) = 3.16E-06 x3 - 2.46E-03 x2 + 4.87E-01 x + 9.58
- 5sCDSc f(x) = 1.86E-07 x3 - 2.41E-04 x2 + 7.56E-02 x + 1.12
- 5sCDSx f(x) = 1.28E-07 x3 – 1.54E-04 x2 + 3.86E-02 x + 4.50
- - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
fct fxt 5sCDSc 5sCDSx
R2 0.923 0.600 0.655 0.592
xs 113.5 133.1 205.9 155.5
plage 40-210 40-260 90-330 60-300
total-p 1125 788 75 69
% 58 63 74 78
queue 708 411 26 18
% 36 33 26 20
tête 98 40 3 2
% 5.0 3.2 3.0 2.2
max 110;84 100;57 180;13 120;16
total51 1945 1253 101 89
freq 10 10 30 30
5sCDSc 23sCDSc 5s16sc 23sCDSx CDS5sx CDS16sc CDS23sc 23sCDSc 5s16sc
R2 0.655 - - - - 0.687 - 188 183
xs 205.9 281 284 158 264 415.2 590 223 265
plage 90-330 90-330 90-330 90-330 90-330 210-780 210-780 237 266
total-p 75 8 7 6 4 181 5 299 267
% 74 67 64 100 100 86 100 313 317
queue 26 4 4 0 0 26 0 322 319
% 26 33 36 0 0 12 0 331 371
tête 3 0 0 0 0 3 0 336 866
% 3 0 0 0 0 1.5 0 357 1107
max 13;180 2;240 3;270 2;150 1;240 22;450 1;540 385 1125
total51 101 12 11 6 4 210 5 446 1319
freq 30 30 30 30 30 30 30 463
23sCDSx CDS5sx CDS23sc 16sCDS 16sCDSx 5s16sx
87 184 407 -3 228 161
109 228 531 2 CDS23sx 340
151 301 563 294 182 CDS5sc
151 343 719 695 16s16sc 52
188 736 1463 0 335
260 2466
Intergen51. Les diagrammes RNA-RNA
modifier
Intergen51. Les diagrammes rRNA-rRNA
modifier
- Lien au tableur: Intergen51. Les diagrammes rRNA-rRNA.
- Diagrammes: t6
- Comparaison entre les 4 rRNA-rRNA
- - Les équations des polynômes de d°3
- 16s23sc f(x) = 1.17E-06 x3 – 1.42E-03 x2 + 4.93E-01 x - 3.98E+01
- 16stRNAc f(x) = 1.74E-06 x3 – 1.29E-03 x2 + 2.14E-01 x + 6.21
- tRNA23sc f(x) = 8.08E-07 x3 – 8.80E-04 x2 + 2.54E-01 x - 8.69
- 23s5sc f(x) = 1.74E-05 x3 – 1.00E-02 x2 + 1.55E-00 x - 3.11E+01
- - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
16s23s 16stRNA tRNA23s 23s5sc
R2 0.680 0.474 0.562 0.684
xs 252.2 105.4 198.7 107.9
plage 160-360 80-140 100-320 60-180
total-p 137 112 151 242
% 91 72 87 85
queue 11 35 16 27
% 7.3 23 9.2 9.4
tête 2 8 6 9
% 1.3 5.1 3.5 3.1
max 21;280 32;100 25;280 58;140
total51 150 155 173 286
freq 20 20 20 20
Intergen51. Les diagrammes tRNA-rRNA
modifier
Intergen51. Les diagrammes tRNA-tRNA
modifier
Comparaison entre 5stRNA et les 3 types de tRNA-tRNA
modifier
type c S40 % R2 diag total reste x+ restes 5stRNA hors hors contig in
hors 815 65 0.901 260 1254 17 17 155 261 439 138 6*161
contig 669 92 0.900 120 731 6 0 170 269 452 158
in 72 51 0.454 120 140 6 0 175 278 479 265
5stRNA 91 59 0.593 120 155 8 1 4*257 297 504 311
287 306 532 1472
341 539 2351
373 634
373 718
1172
- Les intercalaires tRNA-tRNA hors blocs
hors gama alpha cvi ade ant bacilli clostri afn ase 3actino archeo bact cyano tener scc
20 20.3 12.5 36.4 6.9 58.6 68.4 70.3 81.5 51.0 22.4 12.2 8.3 79.3 73.3 20.0
40 31.2 27.3 45.5 16.7 20.7 21.1 16.8 7.4 12.2 36.2 12.2 56.7 0 6.7 70.0
60 24.6 18.2 13.6 16.7 6.9 3.0 5.0 7.4 8.2 22.4 8.2 18.3 6.9 0 10.0
80 6.3 6.8 4.5 16.7 6.9 0.8 3.0 0 4.1 5.2 24.5 0 3.4 20.0 0
100 5.1 4.5 0 0 6.9 1.5 1.0 0 6.1 3.4 18.4 5.0 6.9 0 0
120 6.0 4.5 0 0 0 2.3 0 3.7 4.1 0 12.2 0 0 0 0
140 1.7 5.7 0 8.3 0 0 0 0 0 1.7 2.0 0 0 0 0
160 1.0 3.4 0 8.3 0 0.8 1.5 0 8.2 0 0 3.3 3.4 0 0
180 0.2 4.5 0 0 0 0 0 0 0 1.7 4.1 0 0 0 0
200 1.2 1.1 0 0 0 0 0.5 0 2.0 0 0 1.7 0 0 0
220 1.2 8.0 0 0 0 0 0 0 0 3.4 0 1.7 0 0 0
240 0 0 0 0 0 0.8 0.5 0 0 1.7 2.0 1.7 0 0 0
260 0.2 1.1 0 8.3 0 0.8 0.5 0 2.0 1.7 0 0 0 0 0
restes 1.0 2.3 0 8.3 0 0.8 1.0 0 2.0 0 4.1 3.3 0 0 0
total 414 88 44 12 29 133 202 27 49 58 49 60 29 15 10
repete 47.8 55.4 53.3 0 11.1 11.4 12.0 11.1 13.3 45 25.7 77.8 40 0 0
sequence 21.7 0 26.7 0 11.1 2.9 22.0 11.1 0 6 11.4 0 0 0 0
éclaté - - - - 0 5.7 0 0 0 - - - 0 0 -
sans 30.4 44.6 20.0 100.0 77.8 80.0 66.0 77.8 86.7 48 62.9 22.2 60 100 100
clusters 115 65 15 6 9 35 50 9 15 31 35 27 5 8 4
5 - - - - 10.3 23.9 29.7 29.6 34.7 - - - 41.4 13.3 -
10 - - - - 13.8 24.6 23.3 33.3 2.0 - - - 34.5 33.3 -
15 - - - - 17.2 12.3 6.9 11.1 8.2 - - - 3.4 20.0 -
20 - - - - 17.2 5.1 10.4 7.4 6.1 - - - 0 6.7 -
- Les intercalaires tRNA-tRNA contigus aux blocs
contig bacilli clostri tener
20 77.4 85.3 70.0
40 13.4 8.7 5.0
60 4.9 2.7 20.0
80 1.0 0.7 5.0
100 1.0 2.0 0
120 1.0 0.3 0
140 0.8 0 0
160 0.3 0 0
180 0 0 0
200 0 0 0
220 0 0 0
240 0 0 0
260 0 0 0
restes 0.3 0.3 0
total 389 300 20
repete 0 3.2 0
sequence 0 9.7 0
éclaté 21.6 16.1 0
sans 78.4 71.0 100
clusters 37 31 2
5 26.2 24.0 20.0
10 23.9 41.0 30.0
15 15.7 15.3 15.0
20 11.6 5.0 5.0
type c S40 % R2 diag total reste x+
5stRNA 91 59 0.593 120 155 8 1
tRNA5s 15 65 0.302 17 23 8
******
restes
tRNA5s tRNA16s 23stRNA 16s5s 5s23s 5s5s
149 459 476 néant 230 748
149 1063 89
336
777
1112
1360
- Comparaison avec les rRNA-rRNA analogues
- - Les équations des polynômes de d°3
- 16stRNAc f(x) = 1.74E-06 x3 – 1.29E-03 x2 + 2.14E-01 x + 6.21
- tRNA16sc f(x) = 1.20E-06 x3 – 8.01E-04 x2 + 1.54E-01 x – 6.62E+00
- tRNA23sc f(x) = 8.08E-07 x3 – 8.80E-04 x2 + 2.54E-01 x - 8.69
- 23stRNAc f(x) = -1.26E-05 x3 + 2.37E-03 x2 – 5.95E-02 x + 5.71E-01
- - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
tRNA16sc 16stRNAc 23stRNAc tRNA23sc
R2 0.532 0.474 0.681 0.562
xs 140.5 105.4 111.2 198.7
plage 80-220 80-140 60-140 100-320
total-p 16 112 23 151
% 80 72 92 87
queue 4 35 1 16
% 20 23 4 9.2
tête 0 8 1 6
% 0 5.1 4 3.5
max 4;120 32;100 8;120 25;280
total51 20 155 25 173
freq 20 20 20 20
- Comparaison de 5s16s et 16s5s: voir Les CDS-rRNA rares. bcts abrégé pour bacteroidites cyanobacterie tenericutes spirochete
- - Note. le xs sans R2 est la moyenne de la plage et bcts abrégé pour bacteroidites cyanobacterie tenericutes spirochete
5sCDSc 5s16sc 16s5sc effect 16s5sc 5s16sc 5s16sx
R2 0.655 - - 7 79 6cle 1cbc 183 bacilli 340 archeo
xs 205.9 284 198 1 102 ppm 265 bcts 161 clostridia
plage 90-330 90-330 90-330 1 117 ppm 266 bcts
total-p 75 7 21 1 144 cle 267 bcts
% 74 64 100 1 146 cle 317 gama
queue 26 4 0 3 261 hmo 319 gama
% 26 36 0 2 262 hmo 371 gama
tête 3 0 0 1 336 hmo 866 actino
% 3 0 0 4 337 hmo 1107 clostridia
max 13;180 3;270 7;90 1125 clostridia
total51 101 11 21 1319 gama
freq 30 30 30