- Note : Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.
Méthode de prélèvementModifier
- Modèle de calculs avec mja NCBI [61] et eco NCBI [62], des intercalaires entre CDS, c+ c- x+ x-, et entre autres gènes.
*Modèle de calcul avec mja après suppression des commentaires dans NCBI
repeat_region 378..2126
gene complement(2216..3343)
CDS complement(2216..3343)
gene complement(3340..4071)
CDS complement(3340..4071)
gene <4252..4566
CDS <4252..4566
gene 4911..5381
CDS 4911..5381
après mise en forme j'obtiens
repeat_region 378..2126 intercalaire ax+ = 2216 - 2126 - 1 = 89 pbs intercalaire type autre-cds discontinu
comp CDS 2216..3343 intercalaire c- = 3340 - 3343 - 1 = -4 pbs intercalaire type cds-cds négatif continu
comp CDS 3340..4071 intercalaire x+ = 4252 - 4071 - 1 = 182 pbs intercalaire type cds-cds positif discontinu
CDS 4252..4566 intercalaire c+ = 4911 - 4566 - 1 = 346 pbs intercalaire type cds-cds positif continu
CDS 4911..5381
* Modèle de calcul avec eco présentant 2 pseudo gènes où la ligne "gene" n'est pas suivie de la ligne "CDS"
comp gene 238257..238736
comp CDS 238257..238736
comp gene 238746..239084 /pseudo
gene 239190..239378 /pseudo
comp gene 239419..240189
comp CDS 239419..240189
- Traitement par lots
- - Sauvegarder le NCBI sans ses commentaires
- Afficher le NCBI et relever taille et date
- Copier dans un txt puis dans un calc temporaire pour faciliter les sélections début ou fin.
- Sélectionner la 1ère cellule puis select ctrl+Maj+fin et trier croissant. Le curseur est à la fin. Rechercher (ctrl+H) " tRNA " précédent.
- Descendre le curseur d'une cellule puis select ctrl+Maj+fin et supprimer.
- Se positionner au début ctrl+début et rechercher (ctrl+H) "CDS" suivant sans les cotes.
- Monter le curseur d'une cellule et puis le mettre loin à droite et effacer le début, ctrl+Maj+début.
- Le curseur est au début rechercher CDS suivant puis sélectionner ctrl+Maj+fin et coller au début de la feuille en H9.
- Le fichier est alors sauvegardé dans un txt en remplaçant la tabulation par le caractère de séparation § (ctrl+H, remplacer \t par §). Au moment de la récupération ne doit exister qu'un seul caractère de séparation, ici le §. J'ai sauvegardé plusieurs génomes dans un même lien de wikipédia comme suit :
- - Formatage en 4 colonnes : complement gène adresse1 adresse2
- Retour au tableur. Rechercher "join(", résoudre ses adresses en adresses uniques et sauvegarder le join sur la même ligne.
- Sans sélection remplacer CDS gene rRNA tRNA en ajoutant (;)
- Rechercher tRNA; suivant, vérifier s’il n’y a pas d’autres gènes entre "CDS;" et "gene;" et les suffixer avec ";", comme ncRNA misc regulatory...
- Supprimer la ligne où le gène est ‘source’ puis tri croissant sur la colonne gène à partir de la ligne au-dessus de "source".
- Sélectionner tout ctrl+Maj+fin, copier dans txt puis dans le calc temporaire: à ce moment j'ai 3 colonnes, une contenant le nom du gène, CDS tRNA ..., à côté la colonne des adresses et à côté la note de join sauvegardée au 1er alinéa. Sauvegarder la note join dans le commentaire de la cellule correspondante de la colonne des gènes. Supprimer la note.
- Pour la discontinuité "complement-non complement", ajouter une colonne à gauche contenant comp pour les adresses avec "complement".
- Enlever les blancs dans le fichier, ctrl+H et remplacer " " par rien.
- Sélectionner la colonne contenant les adresses, ctrl+H et enlever les caractères ( <)> et les caractères alphabétiques avec l'expression régulière [:alpha:].
- Remplacer les 2 points des adresses .. en ; en copiant la colonne dans txt et ctrl H . Il ne doit y avoir qu'un seul caractère de séparation qui est le ;.
- Puis copier le tout en 2 colonnes dans calc en écrasant la colonne des adresses modifiée.
- - Traitement des pseudo gènes
- Sur la colonne à gauche de comp, numéroter en séquence gene puis CDS puis le reste : à la 1ère occurrence écrire 1 puis, à la 2ème, écrire la formule, cellule de la 1ère occurrence + 1. Couper la formule et select la plage, coller et couper coller format.
- Trier d’abord sur la colonne 1 des numéros, puis trier sur 1ère et 2ème adresse. À ce moment gene et CDS sont dans ce sens pour la même adresse.
- Dans certains cas la ligne gene n'est pas suivie par sa ligne CDS. À droite de la colonne 2ème adresse je crée une colonne de formule, "1èrme e adresse de la ligne suivante - (moins) celle de la ligne de la formule". Pour un couple "gene CDS" qui se suivent la différence est nulle. Pour un couple "CDS gene" ou "gene gene" qui se suivent la différence n'est pas nulle. Ensuite je fais la même chose sur la colonne suivante mais pour les 2èrmes adresses. Couper les 1ères cellules des 2 dernières colonnes puis select ctrl+H+fin à partir de ces cellules coupées, coller et couper coller format.
- En triant sur les 2 dernières colonnes à droite, toutes les lignes "gene" avec 0 et 0 dans les 2 dernières colonnes sont à supprimer.
- Supprimer les 2 colonnes des différences ainsi que la 1ère colonne de numérotation.
- - Calcul des intercalaires
- Trier le reste sur 1ère et 2ème adresse. Calculer les intercalaires avec la formule, 1ère adresse de la ligne suivante moins 2èrme adresse de la ligne moins 1. Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
- Rechercher et colorer les CDS de la colonne des gènes, "ctrl+H CDS". Les gènes différents de CDS apparaissent en clair.
- - Marquage des intercalaires types
- Marquage des discontinus : Soit G9 la cellule de la colonne comp, G, et de ligne 9, que je vais tester dans une cellule L9 dont la colonne est libre.
- + Initialiser la cellule L9 avec la fonction =SI(G9=G10,1,0). Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
- + Sélectionner la colonne résultat et supprimer les 1 avec ctrl+H, remplacer 1 par rien. La colonne des discontinus doit être en 1er et l'écraser par la colonne des * (autres gènes ci-dessous) en ignorant les cellules vides (choix dans ctrl+v).
- Marquage des gènes autres que CDS:
- + On peut marquer les gènes différents de CDS dans la cellule M9 avec la fonction =SI en comparant le contenu de la cellule H9 à la cellule contenant, $CDS$: =SI(($CDS$=H9) et (H9=H10),0,2). Avec cette formule un CDS suivi d'un autre gène a pour résultat un 2 qui correspondra plus loin au deb (pour début du pavé clair).
- + Faire sur la colonne adjacente N9, la formule =SI(($CDS$=H9) et (H9=H8),0,3). Avec cette formule un CDS précédé d'un gène différent de CDS a pour résultat un 3 qui correspondra plus loin à fin (pour fin du pavé clair).
- Cadrage des types "autres gènes" par une colonne deb-fin:
- + Dans la cellule F9 tester les cellules H9 et M9, =SI(($CDS$=H9) et (M9=2),7,0). Un résultat 7 correspond au résultat 2 de la colonne L.
- + Dans la cellule E9 tester les cellules M9 et N9, =SI((M9=0) et (N9=3),9,0). Un résultat 9 correspond au résultat 3 de la colonne N.
- + Supprimer les 0 des colonnes E et F, couper coller la colonne E sur F en ignorant les cellules vides et remplacer 7 par deb et 9 par fin.
- Compléter la colonne des intercalaires types: Compléter la colonne L pour les types d'intercalaires x+ x- c+ c- et * pour discontinus positifs négatifs, continus positifs négatifs et autres intercalaires. Pour cela supprimer les 0 de la colonnes M et effacer la colonne N. Remplacer les 2 dans la colonne M par * et couper coller M sur L en ignorant les cellules vides.
- - Calcul de la fréquence des intercalaires:
- Le tri : En triant dans l'ordre croissant, la colonne de marquage puis la colonne des intercalaires, apparaissent les discontinus négatifs suivis des discontinus positifs. Je colorie, pour repérer les erreurs lors des contrôles, les x- en vert et les x+ en cyan. Pour les x- je remplace les 0 par des 1. Ainsi après les mêmes tris j'obtiens les 0 qui sont des x+ colorés en cyan, les x- colorés en vert, les * en clair, les c- que je colorie en jaune sans caractère sur la colonne de marquage et les c+ que je laisse en clair en clair, sans caractère sur la colonne de marquage.
- Les fréquences : sur ces plages j'applique la fonction "fréquence" de calc pour créer les diagrammes 400 et les diagrammes 40.
- - Traitement des "autres gènes":
- deb-fin : Plusieurs "autres gènes" peuvent être en une séquence longue comme pour les tRNA. Ces pavés sont encadrés la colonne deb-fin.
- Sur la totalité du génome, trier les colonnes F G H adresse1 adresse2 intercalaire type, en 1er sur la colonne deb-fin (F) et en 2ème la colonne CDS (H),
- Copier les lignes avec deb et fin en supprimant les intercalaires (K) des lignes "fin", et les sauvegarder plus loin.
- Copier les lignes en clair qui se trouvent à la fin du génome et les coller sous les lignes du pavé deb-fin sauvegardé. Trier ce pavé sur adresse 1 puis 2.
- Les tableaux deb-fin sont publiés dans les chapitres "autres intercalaires" de chaque génome.
Intergen51. Décompte des autres intercalairesModifier
- Image: taas
- Regroupement des intercalaires autres que CDS-CDS. Voir le tableur de amed autres intercalaires aas.
- Formatage du tableur (voir l'image ci-dessus pour le formatage et les calculs): La colonne des gènes est colorée comme suite,
- - tRNA en jaune
- - rRNA en orange
- - CDS en cyane
- - gene en bleu (voir eco)
- - les gènes non RNA sont en clair (blanc): ncRNA misc regulatory repeat_region ....
- Les intercalaires tRNA-CDS. Les regroupements des intercalaires continus (c) et des discontinus (x) séparément sont faits en six colonnes avec la fonction SI() de calc au format suivant
- deb fin
- tRNA
- deb c deb x fin c fin x deb-c deb-x
- - où deb fin sont recherchés sur la 1ère colonne et tRNA sur la 2ème colonne
- - où l'intercalaire continu "deb c" est reporté avec AT3 de la colonne des intercalaires. La colonne des deb fin est AO, la colonne des tRNAs est AQ et la colonne des comps (discontinuités) est AP. La formule appliquée est SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3=AP4),AT3,).
- - où l'intercalaire discontinu "deb x" est calculé avec la formule analogue SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3<>AP4),AT3,).
- - où l'intercalaire continu "fin c" est calculé avec la formule analogue SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP4=AP3),AT3,)
- - où l'intercalaire discontinu "fin x" est calculé avec la formule analogue SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP4<>AP3),AT3,).
- - deb-c et deb-x ont le label deb à l'intérieur d'un paquet "deb ...fin" sans le label fin correspondant. Leurs formules se trouvent à la fin de la série suivante qui regroupe les 6 formules
- deb c SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3=AP4),AT3,)
- deb x SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3<>AP4),AT3,)
- fin c SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP3=AP4),AT3,)
- fin x SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP3<>AP4),AT3,)
- deb-c SI(($AX$1=AO4) ET ($AX$2=AQ3) ET (AP3=AP4),AT3,)
- deb-x SI(($AX$1=AO4) ET ($AX$2=AQ3) ET (AP3<>AP4),AT3,)
- Les intercalaires contenant les rRNA et les intercalaires tRNA-tRNA: Peu nombreux mais très variés ils sont relevés manuellement.
Intergen51. Formatage des autres intercalairesModifier
Lien tableur: Voir le tableur pour les données intercalaires de amed.
- Légende:
- - Les décomptes sont faits pour chaque génome à partir de son tableau autres intercalaires aas, voir le chapitre précédent.
- - Les résultats sont ajoutés aux intercalaires CDS-CDS dans les données intercalaires de chaque génome.
- - Le tableau ci-dessous représente l'exemple de amed avec ses autres intercalaires plus le formatage des intercalaires CDS-CDS supérieurs à 400 pdbs pour les positifs (400-600 et sup 600).
- - De même les CDS-CDS inférieurs à -50 sont ajoutés à part dans 2 colonnes partiellement vides, CDS-CDS inf 50.
- - A la suite de inf 50, j'ai ajouté le décompte des non RNA et le total de tous les intercalaires positifs, total intercalaires, et leurs taux par rapport à la longueur des l'ADN de l'élément (donné par NCBI), ADN long.
- - A part les tRNA-CDS, j'ai ajouté une colonne (aa) pour le tRNA de l'intercalaire rRNA-tRNA, et les 2 tRNAs successifs de l'intercalaire tRNA-tRNA.
- - Les intercalaires tRNA-tRNA sont de 3 types: à l'intérieur du cluster rRNA (tRNA intra ou tRNA in), contigu au cluster (tRNA contig, non présenté ici) et enfin en dehors du cluster (tRNA hors ou tRNAh).
int51.2 Amed. Exemple du format des autres intercalaires.
tRNA CDS |
rRNA CDS |
rRNA bloc |
tRNA tRNA |
tRNA tRNA |
CDS-CDS |
400-600 |
Sup 600
|
---|
intercalaire |
intercalaire |
intercalaire |
intercalaire |
intercalaire |
frequence |
effectif |
long
|
---|
c |
x |
c |
x |
c |
aa |
c |
aa |
c |
aa |
amed |
fx |
fc |
fx |
fc
|
---|
47 |
244 |
CDS 16s |
|
23s 5s |
|
tRNA tRNA |
hors bloc |
tRNA tRNA |
suite |
400 |
1233 |
2273 |
602 |
602
|
252 |
64 |
518 |
516 |
2* 120 |
|
52 |
ttc |
40 |
tta |
410 |
5 |
6 |
609 |
605
|
103 |
363 |
424 |
596 |
2* 126 |
|
3 |
aca |
35 |
tgc |
420 |
8 |
7 |
612 |
608
|
116 |
195 |
432 |
627 |
2* 123 |
|
45 |
ttc |
** |
ggc |
430 |
5 |
3 |
616 |
609
|
190 |
556 |
469 |
626 |
127 |
|
** |
aac |
30 |
tac |
440 |
6 |
6 |
645 |
613
|
881 |
203 |
599 |
481 |
124 |
|
71 |
ctg |
** |
tac |
450 |
7 |
6 |
646 |
613
|
177 |
132 |
|
516 |
122 |
|
46 |
ctg |
104 |
gga |
460 |
6 |
6 |
662 |
621
|
236 |
104 |
5s CDS |
|
16s tRNA |
|
46 |
ctg |
** |
ggg |
470 |
4 |
6 |
665 |
624
|
9 |
271 |
386 |
268 |
3* 72 |
atc |
51 |
ctg |
57 |
tgc |
480 |
4 |
2 |
669 |
624
|
166 |
126 |
275 |
99 |
2* 274 |
gaa |
** |
ctg |
** |
ggc |
490 |
1 |
1 |
674 |
631
|
235 |
121 |
164 |
|
2* 198 |
gaa |
5 |
aac |
32 |
tac |
500 |
4 |
2 |
686 |
639
|
173 |
119 |
|
|
2* 224 |
gaa |
** |
ttc |
45 |
tac |
510 |
4 |
3 |
700 |
642
|
131 |
75 |
|
|
tRNA 23s |
|
29 |
ggc |
25 |
cgt |
530 |
2 |
1 |
733 |
660
|
226 |
248 |
|
|
3* 238 |
gca |
38 |
ggc |
25 |
cgt |
540 |
6 |
4 |
740 |
668
|
301 |
133 |
|
|
252 |
gaa |
25 |
ggc |
26 |
cgt |
550 |
5 |
3 |
744 |
681
|
460 |
380 |
|
|
3* 236 |
gaa |
23 |
ggc |
98 |
cgt |
560 |
3 |
2 |
761 |
693
|
425 |
198 |
|
|
237 |
gaa |
** |
ggc |
4 |
cgt |
570 |
2 |
1 |
803 |
695
|
181 |
126 |
|
|
238 |
gaa |
28 |
gcc |
** |
agc |
580 |
2 |
2 |
887 |
703
|
83 |
142 |
|
|
5s tRNA |
|
66 |
gcc |
38 |
gga |
590 |
1 |
1 |
907 |
709
|
83 |
369 |
|
|
98 |
gac |
58 |
gcc |
** |
tac |
600 |
3 |
3 |
935 |
716
|
177 |
302 |
|
|
2* 106 |
acc |
40 |
gcc |
58 |
cca |
|
28 |
41 |
938 |
722
|
146 |
263 |
|
|
98 |
gac |
** |
gcc |
20 |
ctg |
|
|
|
1001 |
724
|
127 |
202 |
|
|
95 |
gac |
91 |
ctc |
49 |
cac |
|
|
|
1018 |
724
|
163 |
258 |
|
|
tRNA 5s |
|
** |
atgf |
** |
cgg |
|
|
|
1028 |
753
|
438 |
|
|
|
23 |
acc |
8 |
cta |
18 |
gta |
|
|
|
1275 |
760
|
151 |
|
|
|
tRNA tRNA |
intra |
38 |
atgj |
34 |
aaa |
|
|
|
1406 |
781
|
772 |
|
|
|
3* 10 |
atc |
47 |
caa |
18 |
gta |
|
|
|
1663 |
794
|
170 |
|
|
|
** |
gca |
17 |
caa |
23 |
aaa |
|
|
|
|
815
|
145 |
|
|
|
|
|
35 |
atgj |
18 |
gta |
|
|
|
|
838
|
268 |
|
|
|
|
|
47 |
caa |
23 |
aaa |
|
|
|
|
840
|
350 |
|
|
|
|
|
13 |
caa |
18 |
gta |
|
|
|
|
881
|
181 |
|
|
|
|
|
** |
atgj |
34 |
aaa |
|
|
|
|
884
|
259 |
|
|
|
|
|
2 |
aac |
22 |
gta |
|
|
|
|
913
|
87 |
|
|
|
|
|
** |
gga |
46 |
aag |
|
|
|
|
936
|
114 |
|
|
CDS-CDS inf 50 |
|
123 |
cac |
22 |
gta |
|
|
|
|
940
|
318 |
|
|
intercalaire |
|
36 |
aga |
46 |
aag |
|
|
|
|
1098
|
50 |
|
|
c- |
x- |
|
** |
cca |
32 |
gta |
|
|
|
|
1211
|
230 |
|
|
-89 |
-75 |
|
36 |
gtc |
** |
aaa |
|
|
|
|
1501
|
135 |
|
|
-83 |
-71 |
|
26 |
gtc |
|
|
|
|
|
|
2076
|
113 |
|
|
-82 |
-58 |
|
15 |
gtc |
|
|
|
|
|
|
2281
|
213 |
|
|
-80 |
-57 |
|
11 |
gtc |
|
|
|
|
|
|
|
60 |
|
|
-65 |
|
|
** |
gtc |
|
|
|
|
|
|
|
52 |
|
|
-53 |
|
|
110 |
atgf |
|
|
|
|
|
|
|
171 |
|
|
total intercalaires |
|
102 |
atgf |
|
|
|
|
|
|
|
306 |
|
|
|
601,332 |
|
101 |
atgf |
|
|
|
|
|
|
|
658 |
|
|
ADN long |
4,777,154 |
|
101 |
atgf |
|
|
|
|
|
|
|
140 |
|
|
% |
12.6 |
|
103 |
atgf |
|
|
|
|
|
|
|
174 |
|
|
|
|
|
102 |
atgf |
|
|
|
|
|
|
|
233 |
|
|
non RNA |
38 |
|
102 |
atgf |
|
|
|
|
|
|
|
167 |
|
|
|
|
|
92 |
atgf |
|
|
|
|
|
|
|
153 |
|
|
|
|
|
** |
atgf |
|
|
|
|
|
|
|
174 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
344 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
Intergen51. Formatage des autres intercalaires aasModifier
- amed Le prélèvement: alpha gama
- amed données intercalaires
- amed autres intercalaires aas
- Note : c'est un ancien tableau. Le refaire avec la sauvegarde du tableur ci-dessus.
- Tableau des autres intercalaires aas : C'est un tableau détaillé des autres intercalaires que ceux des CDS-CDS auxquels j'ai ajouté les noms des tRNA tirés du tableau de la première étude axée principalement sur les clusters à RNA, parfois sans CDS, et nommé amed opérons. La correspondance entre les 2 tableaux pour le nom du tRNA est basée sur l’exacte adresse entre celle de tRNA du 1er tableau à celle du codon de l'acide aminé du second.
- Légende :
- - comp, le gène est sur le brin complement
- - deb, fin sont respectivement dans le sens des adresses croissantes, le cds avant le 1er tRNA et le cds après le dernier tRNA du bloc.
- - misc_f, pour misc_feature
- - regul, pour regulatory
- Totaux : 10 regulatory 3 ncRNA 2 misc_f 1 tmRNA : à adapter à amed
tRNA-cds tRNA-tRNA autres-cds total
c+ x+ x- c+ x+ c- c+ x+ c-
46 34 1 141 22 6 2 252 1 acdsx-
- Méthode de calculs des intercalaires autres que les CDS-CDS voir le cas de amed.
amed Les autres intercalaires.
deb fin |
comp |
gene |
adresse1 |
adresse2 |
intercalaire |
autre |
aas
|
---|
deb |
comp |
CDS |
7163 |
8359 |
516 |
* |
|
|
|
rRNA |
8876 |
10415 |
72 |
* |
1540
|
|
|
tRNA |
10488 |
10564 |
10 |
* |
atc
|
|
|
tRNA |
10575 |
10650 |
238 |
* |
gca
|
|
|
rRNA |
10889 |
13778 |
120 |
* |
2890
|
|
|
rRNA |
13899 |
14013 |
386 |
* |
115
|
fin |
|
CDS |
14400 |
14717 |
|
|
|
deb |
|
CDS |
45743 |
46576 |
187 |
* |
|
|
|
ncRNA |
46764 |
47150 |
46 |
* |
|
fin |
|
CDS |
47197 |
48777 |
|
0 |
|
deb |
|
CDS |
117188 |
117850 |
47 |
* |
|
|
|
tRNA |
117898 |
117973 |
52 |
* |
ttc
|
|
|
tRNA |
118026 |
118101 |
3 |
* |
aca
|
|
|
tRNA |
118105 |
118180 |
45 |
* |
ttc
|
|
|
tRNA |
118226 |
118301 |
252 |
* |
aac
|
fin |
|
CDS |
118554 |
119573 |
|
|
|
deb |
comp |
CDS |
170063 |
170329 |
103 |
* |
|
|
comp |
tRNA |
170433 |
170518 |
71 |
* |
ctg
|
|
comp |
tRNA |
170590 |
170675 |
46 |
* |
ctg
|
|
comp |
tRNA |
170722 |
170807 |
46 |
* |
ctg
|
|
comp |
tRNA |
170854 |
170939 |
51 |
* |
ctg
|
|
comp |
tRNA |
170991 |
171076 |
116 |
* |
ctg
|
fin |
comp |
CDS |
171193 |
172653 |
|
|
|
deb |
|
CDS |
318836 |
320692 |
190 |
* |
|
|
|
tRNA |
320883 |
320959 |
244 |
* |
atgi
|
fin |
comp |
CDS |
321204 |
323780 |
|
|
|
deb |
|
CDS |
386382 |
386732 |
518 |
* |
|
|
|
rRNA |
387251 |
388796 |
274 |
* |
1546
|
|
|
tRNA |
389071 |
389146 |
252 |
* |
gaa
|
|
|
rRNA |
389399 |
392290 |
126 |
* |
2892
|
|
|
rRNA |
392417 |
392531 |
268 |
* |
115
|
fin |
comp |
CDS |
392800 |
394413 |
|
0 |
|
deb |
|
CDS |
476261 |
476482 |
64 |
* |
|
|
comp |
tRNA |
476547 |
476622 |
5 |
* |
aac
|
|
comp |
tRNA |
476628 |
476703 |
881 |
* |
ttc
|
fin |
comp |
CDS |
477585 |
478565 |
|
|
|
deb |
|
CDS |
500269 |
500814 |
177 |
* |
|
|
|
tRNA |
500992 |
501067 |
24 |
* |
ggc
|
|
|
tRNA |
501092 |
501167 |
29 |
* |
ggc
|
|
|
tRNA |
501197 |
501272 |
38 |
* |
ggc
|
|
|
tRNA |
501311 |
501386 |
25 |
* |
ggc
|
|
|
tRNA |
501412 |
501487 |
23 |
* |
ggc
|
|
|
tRNA |
501511 |
501586 |
363 |
* |
ggc
|
fin |
comp |
CDS |
501950 |
502159 |
|
|
|
deb |
|
CDS |
505552 |
507110 |
236 |
* |
|
|
|
tRNA |
507347 |
507422 |
28 |
* |
gcc
|
|
|
tRNA |
507451 |
507526 |
66 |
* |
gcc
|
|
|
tRNA |
507593 |
507668 |
58 |
* |
gcc
|
|
|
tRNA |
507727 |
507802 |
40 |
* |
gcc
|
|
|
tRNA |
507843 |
507918 |
471 |
* |
gcc
|
|
|
regulatory |
508390 |
508473 |
148 |
* |
|
fin |
|
CDS |
508622 |
511627 |
|
0 |
|
deb |
|
CDS |
642476 |
642802 |
9 |
* |
|
|
|
tRNA |
642812 |
642896 |
91 |
* |
ctc
|
|
|
tRNA |
642988 |
643064 |
166 |
* |
atgf
|
fin |
|
CDS |
643231 |
643689 |
|
|
|
deb |
|
CDS |
772218 |
774050 |
195 |
* |
|
|
comp |
tRNA |
774246 |
774329 |
8 |
* |
cta
|
|
comp |
tRNA |
774338 |
774414 |
38 |
* |
atgj
|
|
comp |
tRNA |
774453 |
774527 |
47 |
* |
caa
|
|
comp |
tRNA |
774575 |
774649 |
17 |
* |
caa
|
|
comp |
tRNA |
774667 |
774743 |
35 |
* |
atgj
|
|
comp |
tRNA |
774779 |
774853 |
47 |
* |
caa
|
|
comp |
tRNA |
774901 |
774975 |
13 |
* |
caa
|
|
comp |
tRNA |
774989 |
775065 |
235 |
* |
atgj
|
fin |
comp |
CDS |
775301 |
776392 |
|
|
|
deb |
comp |
CDS |
779541 |
780488 |
173 |
* |
|
|
comp |
tRNA |
780662 |
780736 |
-21 |
* |
caa
|
fin |
comp |
CDS |
780716 |
781630 |
|
|
|
deb |
comp |
CDS |
1154914 |
1155384 |
131 |
* |
|
|
comp |
tRNA |
1155516 |
1155592 |
226 |
* |
ccc
|
fin |
comp |
CDS |
1155819 |
1157162 |
|
0 |
|
deb |
comp |
CDS |
1224854 |
1226290 |
301 |
* |
|
|
comp |
tRNA |
1226592 |
1226667 |
2 |
* |
aac
|
|
comp |
tRNA |
1226670 |
1226744 |
460 |
* |
gga
|
fin |
comp |
CDS |
1227205 |
1228818 |
|
|
|
deb |
comp |
CDS |
1240786 |
1241733 |
425 |
* |
|
|
comp |
tRNA |
1242159 |
1242234 |
556 |
* |
aac
|
deb |
|
CDS |
1242791 |
1244527 |
181 |
* |
|
|
|
tRNA |
1244709 |
1244796 |
83 |
* |
tcc
|
fin |
|
CDS |
1244880 |
1246145 |
|
0 |
|
deb |
comp |
CDS |
1407358 |
1408665 |
83 |
* |
|
|
comp |
tRNA |
1408749 |
1408836 |
177 |
* |
tcc
|
fin |
comp |
CDS |
1409014 |
1409631 |
|
|
|
deb |
|
CDS |
1444233 |
1444688 |
146 |
* |
|
|
|
tRNA |
1444835 |
1444922 |
127 |
* |
tcc
|
fin |
|
CDS |
1445050 |
1446834 |
|
|
|
deb |
comp |
CDS |
1461184 |
1462401 |
163 |
* |
|
|
comp |
tRNA |
1462565 |
1462640 |
438 |
* |
cac
|
fin |
comp |
CDS |
1463079 |
1464389 |
|
|
|
deb |
comp |
CDS |
1526374 |
1527606 |
151 |
* |
|
|
comp |
tRNA |
1527758 |
1527833 |
123 |
* |
cac
|
|
comp |
tRNA |
1527957 |
1528033 |
36 |
* |
aga
|
|
comp |
tRNA |
1528070 |
1528146 |
203 |
* |
cca
|
fin |
|
CDS |
1528350 |
1529207 |
|
0 |
|
deb |
comp |
CDS |
1587325 |
1589010 |
772 |
* |
|
|
comp |
tRNA |
1589783 |
1589858 |
132 |
* |
aac
|
fin |
|
CDS |
1589991 |
1592003 |
|
|
|
deb |
|
CDS |
1649438 |
1651867 |
104 |
* |
|
|
comp |
tRNA |
1651972 |
1652048 |
36 |
* |
gtc
|
|
comp |
tRNA |
1652085 |
1652161 |
26 |
* |
gtc
|
|
comp |
tRNA |
1652188 |
1652264 |
15 |
* |
gtc
|
|
comp |
tRNA |
1652280 |
1652356 |
11 |
* |
gtc
|
|
comp |
tRNA |
1652368 |
1652444 |
170 |
* |
gtc
|
fin |
comp |
CDS |
1652615 |
1653994 |
|
|
|
deb |
comp |
CDS |
1734629 |
1735525 |
28 |
* |
|
|
comp |
misc_f |
1735554 |
1735678 |
185 |
* |
|
fin |
|
CDS |
1735864 |
1736109 |
|
|
|
deb |
comp |
CDS |
1931438 |
1932934 |
145 |
* |
|
|
comp |
tRNA |
1933080 |
1933156 |
110 |
* |
atgf
|
|
comp |
tRNA |
1933267 |
1933343 |
102 |
* |
atgf
|
|
comp |
tRNA |
1933446 |
1933522 |
101 |
* |
atgf
|
|
comp |
tRNA |
1933624 |
1933700 |
101 |
* |
atgf
|
|
comp |
tRNA |
1933802 |
1933877 |
103 |
* |
atgf
|
|
comp |
tRNA |
1933981 |
1934057 |
102 |
* |
atgf
|
|
comp |
tRNA |
1934160 |
1934236 |
102 |
* |
atgf
|
|
comp |
tRNA |
1934339 |
1934415 |
92 |
* |
atgf
|
|
comp |
tRNA |
1934508 |
1934584 |
268 |
* |
atgf
|
fin |
comp |
CDS |
1934853 |
1935572 |
|
|
|
deb |
|
CDS |
1977322 |
1978332 |
353 |
* |
|
|
comp |
ncRNA |
1978686 |
1978779 |
94 |
* |
|
fin |
|
CDS |
1978874 |
1979143 |
|
0 |
|
deb |
comp |
CDS |
1980394 |
1981206 |
97 |
* |
|
|
comp |
ncRNA |
1981304 |
1981397 |
269 |
* |
|
fin |
|
CDS |
1981667 |
1981849 |
|
0 |
|
deb |
comp |
CDS |
1997119 |
1998258 |
85 |
* |
|
|
comp |
ncRNA |
1998344 |
1998440 |
102 |
* |
|
fin |
comp |
CDS |
1998543 |
1999331 |
|
|
|
deb |
|
CDS |
2154455 |
2154631 |
277 |
* |
|
|
|
ncRNA |
2154909 |
2155037 |
-9 |
* |
|
fin |
comp |
CDS |
2155029 |
2155319 |
|
0 |
|
deb |
|
CDS |
2234810 |
2235142 |
16 |
* |
|
|
|
ncRNA |
2235159 |
2235341 |
133 |
* |
|
fin |
comp |
CDS |
2235475 |
2236674 |
|
|
|
deb |
comp |
CDS |
2426470 |
2427675 |
350 |
* |
|
|
comp |
tRNA |
2428026 |
2428112 |
40 |
* |
tta
|
|
comp |
tRNA |
2428153 |
2428226 |
35 |
* |
tgc
|
|
comp |
tRNA |
2428262 |
2428337 |
181 |
* |
ggc
|
fin |
comp |
CDS |
2428519 |
2429073 |
|
|
|
deb |
comp |
CDS |
2546995 |
2547534 |
271 |
* |
|
|
|
tRNA |
2547806 |
2547882 |
259 |
* |
ccc
|
fin |
|
CDS |
2548142 |
2548282 |
|
|
|
deb |
|
CDS |
2658354 |
2659094 |
87 |
* |
|
|
|
tRNA |
2659182 |
2659257 |
114 |
* |
acg
|
fin |
|
CDS |
2659372 |
2659665 |
|
0 |
|
deb |
comp |
CDS |
2827175 |
2828170 |
-13 |
* |
|
|
comp |
regulatory |
2828158 |
2828297 |
79 |
* |
|
fin |
|
CDS |
2828377 |
2830089 |
|
|
|
deb |
comp |
CDS |
2858527 |
2859036 |
126 |
* |
|
|
|
tRNA |
2859163 |
2859247 |
30 |
* |
tac
|
|
|
tRNA |
2859278 |
2859362 |
121 |
* |
tac
|
fin |
comp |
CDS |
2859484 |
2863335 |
|
|
|
deb |
|
CDS |
2953473 |
2953961 |
121 |
* |
|
|
|
tmRNA |
2954083 |
2954442 |
177 |
* |
|
fin |
|
CDS |
2954620 |
2955903 |
|
|
|
deb |
|
CDS |
2978639 |
2979358 |
119 |
* |
|
|
comp |
tRNA |
2979478 |
2979552 |
104 |
* |
gga
|
|
comp |
tRNA |
2979657 |
2979730 |
201 |
* |
ggg
|
fin |
|
CDS |
2979932 |
2981701 |
|
|
|
deb |
|
CDS |
3023194 |
3023487 |
75 |
* |
|
|
comp |
tRNA |
3023563 |
3023636 |
57 |
* |
tgc
|
|
comp |
tRNA |
3023694 |
3023769 |
248 |
* |
ggc
|
fin |
|
CDS |
3024018 |
3027455 |
|
0 |
|
deb |
|
CDS |
3044891 |
3045361 |
133 |
* |
|
|
comp |
tRNA |
3045495 |
3045584 |
380 |
* |
tcg
|
fin |
|
CDS |
3045965 |
3046882 |
|
|
|
deb |
comp |
CDS |
3052964 |
3053617 |
105 |
* |
|
|
comp |
regulatory |
3053723 |
3053869 |
209 |
* |
|
fin |
|
CDS |
3054079 |
3054915 |
|
0 |
|
deb |
comp |
CDS |
3093394 |
3094776 |
249 |
* |
|
|
comp |
regulatory |
3095026 |
3095141 |
508 |
* |
|
fin |
|
CDS |
3095650 |
3096798 |
|
0 |
|
deb |
comp |
CDS |
3268030 |
3268398 |
318 |
* |
|
|
comp |
tRNA |
3268717 |
3268804 |
198 |
* |
tca
|
fin |
|
CDS |
3269003 |
3269752 |
|
0 |
|
deb |
comp |
CDS |
3286866 |
3287465 |
164 |
* |
|
|
|
misc_f |
3287630 |
3287752 |
38 |
* |
|
fin |
|
CDS |
3287791 |
3288963 |
|
0 |
|
deb |
|
CDS |
3290470 |
3291624 |
50 |
* |
|
|
|
tRNA |
3291675 |
3291751 |
126 |
* |
agg
|
fin |
comp |
CDS |
3291878 |
3292798 |
|
0 |
|
deb |
|
CDS |
3334670 |
3335758 |
230 |
* |
|
|
|
tRNA |
3335989 |
3336073 |
32 |
* |
tac
|
|
|
tRNA |
3336106 |
3336190 |
45 |
* |
tac
|
|
|
tRNA |
3336236 |
3336320 |
135 |
* |
tac
|
fin |
|
CDS |
3336456 |
3336731 |
|
|
|
deb |
comp |
CDS |
3382564 |
3385161 |
111 |
* |
|
|
comp |
regulatory |
3385273 |
3385359 |
203 |
* |
|
fin |
comp |
CDS |
3385563 |
3389024 |
|
|
|
deb |
comp |
CDS |
3497173 |
3497463 |
91 |
* |
|
|
|
regulatory |
3497555 |
3497645 |
99 |
* |
|
fin |
|
CDS |
3497745 |
3498725 |
|
|
|
deb |
comp |
CDS |
3505823 |
3506272 |
275 |
* |
|
|
comp |
rRNA |
3506548 |
3506662 |
123 |
* |
115
|
|
comp |
rRNA |
3506786 |
3509675 |
236 |
* |
2890
|
|
comp |
tRNA |
3509912 |
3509987 |
224 |
* |
gaa
|
|
comp |
rRNA |
3510212 |
3511756 |
596 |
* |
1545
|
fin |
|
CDS |
3512353 |
3515220 |
|
|
|
deb |
comp |
CDS |
3676304 |
3677323 |
113 |
* |
|
|
comp |
tRNA |
3677437 |
3677521 |
142 |
* |
ttg
|
fin |
|
CDS |
3677664 |
3678182 |
|
0 |
|
deb |
|
CDS |
3688045 |
3688872 |
369 |
* |
|
|
comp |
tRNA |
3689242 |
3689318 |
25 |
* |
cgt
|
|
comp |
tRNA |
3689344 |
3689420 |
25 |
* |
cgt
|
|
comp |
tRNA |
3689446 |
3689522 |
26 |
* |
cgt
|
|
comp |
tRNA |
3689549 |
3689625 |
98 |
* |
cgt
|
|
comp |
tRNA |
3689724 |
3689800 |
4 |
* |
cgt
|
|
comp |
tRNA |
3689805 |
3689897 |
213 |
* |
agc
|
fin |
comp |
CDS |
3690111 |
3690299 |
|
|
|
deb |
|
CDS |
3886846 |
3887601 |
302 |
* |
|
|
comp |
tRNA |
3887904 |
3887980 |
98 |
* |
gac
|
|
comp |
rRNA |
3888079 |
3888193 |
127 |
* |
115
|
|
comp |
rRNA |
3888321 |
3891210 |
238 |
* |
2890
|
|
comp |
tRNA |
3891449 |
3891524 |
10 |
* |
gca
|
|
comp |
tRNA |
3891535 |
3891611 |
72 |
* |
atc
|
|
comp |
rRNA |
3891684 |
3893228 |
424 |
* |
1545
|
fin |
comp |
CDS |
3893653 |
3894195 |
|
|
|
deb |
comp |
CDS |
3912946 |
3913317 |
60 |
* |
|
|
comp |
tRNA |
3913378 |
3913454 |
52 |
* |
tgg
|
deb |
comp |
CDS |
3913507 |
3914691 |
171 |
* |
|
|
comp |
tRNA |
3914863 |
3914937 |
38 |
* |
gga
|
|
comp |
tRNA |
3914976 |
3915060 |
263 |
* |
tac
|
fin |
|
CDS |
3915324 |
3916262 |
|
0 |
|
deb |
comp |
CDS |
3962163 |
3963533 |
306 |
* |
|
|
comp |
tRNA |
3963840 |
3963916 |
202 |
* |
tgg
|
fin |
|
CDS |
3964119 |
3964703 |
|
|
|
deb |
comp |
CDS |
4024345 |
4026816 |
658 |
* |
|
|
comp |
tRNA |
4027475 |
4027551 |
140 |
* |
ccg
|
fin |
comp |
CDS |
4027692 |
4028417 |
|
|
|
deb |
|
CDS |
4109413 |
4111986 |
99 |
* |
|
|
comp |
rRNA |
4112086 |
4112200 |
123 |
* |
115
|
|
comp |
rRNA |
4112324 |
4115213 |
238 |
* |
2890
|
|
comp |
tRNA |
4115452 |
4115527 |
198 |
* |
gaa
|
|
comp |
rRNA |
4115726 |
4117269 |
627 |
* |
1544
|
fin |
|
CDS |
4117897 |
4118388 |
|
0 |
|
deb |
comp |
CDS |
4119290 |
4121155 |
51 |
* |
|
|
comp |
regulatory |
4121207 |
4121385 |
207 |
* |
|
fin |
|
CDS |
4121593 |
4122102 |
|
|
|
deb |
comp |
CDS |
4149775 |
4150278 |
174 |
* |
|
|
comp |
tRNA |
4150453 |
4150529 |
58 |
* |
cca
|
|
comp |
tRNA |
4150588 |
4150673 |
20 |
* |
ctg
|
|
comp |
tRNA |
4150694 |
4150769 |
49 |
* |
cac
|
|
comp |
tRNA |
4150819 |
4150895 |
258 |
* |
cgg
|
fin |
|
CDS |
4151154 |
4151744 |
|
|
|
deb |
|
CDS |
4226547 |
4227725 |
432 |
* |
|
|
|
rRNA |
4228158 |
4229702 |
198 |
* |
1545
|
|
|
tRNA |
4229901 |
4229976 |
236 |
* |
gaa
|
|
|
rRNA |
4230213 |
4233102 |
126 |
* |
2890
|
|
|
rRNA |
4233229 |
4233343 |
106 |
* |
115
|
|
|
tRNA |
4233450 |
4233525 |
23 |
* |
acc
|
|
|
rRNA |
4233549 |
4233663 |
164 |
* |
115
|
fin |
|
CDS |
4233828 |
4234793 |
|
|
|
deb |
comp |
CDS |
4354145 |
4355686 |
626 |
* |
|
|
|
rRNA |
4356313 |
4357857 |
274 |
* |
1545
|
|
|
tRNA |
4358132 |
4358207 |
237 |
* |
gaa
|
|
|
rRNA |
4358445 |
4361342 |
124 |
* |
2898
|
|
|
rRNA |
4361467 |
4361581 |
106 |
* |
115
|
|
|
tRNA |
4361688 |
4361763 |
233 |
* |
acc
|
fin |
|
CDS |
4361997 |
4363241 |
|
|
|
deb |
|
CDS |
4434674 |
4435198 |
469 |
* |
|
|
|
rRNA |
4435668 |
4437211 |
225 |
* |
1544
|
|
|
tRNA |
4437437 |
4437512 |
236 |
* |
gaa
|
|
|
rRNA |
4437749 |
4440638 |
122 |
* |
2890
|
|
|
rRNA |
4440761 |
4440875 |
98 |
* |
115
|
|
|
tRNA |
4440974 |
4441050 |
167 |
* |
gac
|
fin |
|
CDS |
4441218 |
4442054 |
|
0 |
|
deb |
comp |
CDS |
4481974 |
4482513 |
481 |
* |
|
|
|
rRNA |
4482995 |
4484539 |
547 |
* |
1545
|
|
|
misc_f |
4485087 |
4486108 |
236 |
* |
|
|
comp |
tRNA |
4486345 |
4486419 |
224 |
* |
gaa
|
|
comp |
rRNA |
4486644 |
4488189 |
559 |
* |
1546
|
fin |
comp |
CDS |
4488749 |
4489795 |
|
|
|
deb |
comp |
CDS |
4560642 |
4561715 |
153 |
* |
|
|
comp |
tRNA |
4561869 |
4561944 |
18 |
* |
gta
|
|
comp |
tRNA |
4561963 |
4562038 |
34 |
* |
aaa
|
|
comp |
tRNA |
4562073 |
4562148 |
18 |
* |
gta
|
|
comp |
tRNA |
4562167 |
4562242 |
23 |
* |
aaa
|
|
comp |
tRNA |
4562266 |
4562341 |
18 |
* |
gta
|
|
comp |
tRNA |
4562360 |
4562435 |
23 |
* |
aaa
|
|
comp |
tRNA |
4562459 |
4562534 |
18 |
* |
gta
|
|
comp |
tRNA |
4562553 |
4562628 |
34 |
* |
aaa
|
|
comp |
tRNA |
4562663 |
4562738 |
22 |
* |
gta
|
|
comp |
tRNA |
4562761 |
4562836 |
46 |
* |
aag
|
|
comp |
tRNA |
4562883 |
4562958 |
22 |
* |
gta
|
|
comp |
tRNA |
4562981 |
4563056 |
46 |
* |
aag
|
|
comp |
tRNA |
4563103 |
4563178 |
32 |
* |
gta
|
|
comp |
tRNA |
4563211 |
4563286 |
174 |
* |
aaa
|
fin |
comp |
CDS |
4563461 |
4564267 |
|
|
|
deb |
|
CDS |
4626091 |
4627785 |
262 |
* |
|
|
|
regulatory |
4628048 |
4628133 |
65 |
* |
|
fin |
|
CDS |
4628199 |
4629623 |
|
|
|
deb |
comp |
CDS |
4635172 |
4636104 |
344 |
* |
|
|
comp |
tRNA |
4636449 |
4636525 |
95 |
* |
gac
|
|
comp |
rRNA |
4636621 |
4636735 |
120 |
* |
115
|
|
comp |
rRNA |
4636856 |
4639749 |
238 |
* |
2894
|
|
comp |
tRNA |
4639988 |
4640063 |
10 |
* |
gca
|
|
comp |
tRNA |
4640074 |
4640150 |
72 |
* |
atc
|
|
comp |
rRNA |
4640223 |
4641767 |
516 |
* |
115
|
fin |
|
CDS |
4642284 |
4643480 |
|
0 |
|
deb |
comp |
CDS |
4698779 |
4700680 |
360 |
* |
|
|
comp |
regulatory |
4701041 |
4701154 |
88 |
* |
|
fin |
|
CDS |
4701243 |
4702160 |
|
|
|
Intergen51. Formatage des intercalaires CDS-CDS et tRNA-CDSModifier
- Lien au tableur : amed_données_intercalaires.
- Note: tableau de amed en exemple
- Légende: Ce sont des effectifs bruts des
- - intercalaires entre un tRNA et un CDS, fxt pour les discontinus et fct pour les continus.
- - intercalaires entre 2 CDS, pour les fréquences de 10 en 10 fx discontinu et fc continu, pour les fréquences par unité fx40 et fc40, pour les fréquences par unité négative fx- et fc-.
- - total des intercalaires pour un diagramme, diagr, de 1 à 400, 1 à 40 et de -6 à -50.
- - total des intercalaires de 1 à 30: t30 et %t30 par rapport au total.
- - total des intercalaires qui reste après le diagramme: reste et %reste par rapport au total.
int51.1 amed. Formatage des intercalaires CDS-CDS et tRNA-CDS
CDS-tRNA |
CDS-CDS |
CDS-CDS |
CDS-CDS
|
---|
frequence |
effectif |
|
frequence |
effectif |
|
frequence |
effectif |
|
frequence |
effectif |
|
---|
amed |
fxt |
fct |
amed |
fx |
fc |
amed |
fx40 |
fc40 |
amed |
fx- |
fc-
|
---|
0 |
|
1 |
0 |
2 |
12 |
0 |
2 |
12 |
-1 |
0 |
91
|
10 |
|
1 |
10 |
38 |
225 |
1 |
2 |
26 |
-2 |
1 |
0
|
20 |
|
0 |
20 |
20 |
167 |
2 |
0 |
41 |
-3 |
0 |
0
|
30 |
|
0 |
30 |
23 |
110 |
3 |
4 |
34 |
-4 |
8 |
212
|
40 |
|
0 |
40 |
34 |
92 |
4 |
9 |
18 |
-5 |
0 |
0
|
50 |
|
2 |
50 |
43 |
75 |
5 |
0 |
12 |
-6 |
1 |
0
|
60 |
|
2 |
60 |
76 |
92 |
6 |
6 |
6 |
-7 |
0 |
10
|
70 |
1 |
0 |
70 |
90 |
111 |
7 |
4 |
12 |
-8 |
3 |
47
|
80 |
1 |
0 |
80 |
100 |
99 |
8 |
6 |
17 |
-9 |
1 |
0
|
90 |
|
3 |
90 |
59 |
120 |
9 |
3 |
34 |
-10 |
0 |
2
|
100 |
|
0 |
100 |
54 |
90 |
10 |
4 |
25 |
-11 |
2 |
31
|
110 |
1 |
1 |
110 |
58 |
112 |
11 |
1 |
21 |
-12 |
0 |
0
|
120 |
1 |
3 |
120 |
50 |
96 |
12 |
3 |
18 |
-13 |
2 |
6
|
130 |
3 |
1 |
130 |
35 |
81 |
13 |
2 |
20 |
-14 |
1 |
7
|
140 |
2 |
3 |
140 |
30 |
74 |
14 |
2 |
22 |
-15 |
1 |
0
|
150 |
1 |
2 |
150 |
25 |
72 |
15 |
1 |
14 |
-16 |
0 |
8
|
160 |
|
2 |
160 |
33 |
70 |
16 |
3 |
13 |
-17 |
0 |
4
|
170 |
|
4 |
170 |
29 |
32 |
17 |
2 |
20 |
-18 |
1 |
0
|
180 |
|
6 |
180 |
35 |
50 |
18 |
1 |
17 |
-19 |
1 |
1
|
190 |
|
3 |
190 |
25 |
44 |
19 |
2 |
6 |
-20 |
1 |
7
|
200 |
2 |
0 |
200 |
37 |
53 |
20 |
3 |
16 |
-21 |
1 |
0
|
210 |
3 |
0 |
210 |
39 |
48 |
21 |
3 |
11 |
-22 |
2 |
1
|
220 |
|
1 |
220 |
25 |
34 |
22 |
0 |
8 |
-23 |
0 |
1
|
230 |
|
2 |
230 |
30 |
26 |
23 |
1 |
16 |
-24 |
0 |
0
|
240 |
|
3 |
240 |
26 |
30 |
24 |
3 |
10 |
-25 |
1 |
2
|
250 |
2 |
0 |
250 |
20 |
26 |
25 |
3 |
13 |
-26 |
0 |
1
|
260 |
1 |
2 |
260 |
21 |
25 |
26 |
1 |
7 |
-27 |
0 |
0
|
270 |
1 |
1 |
270 |
22 |
36 |
27 |
4 |
10 |
-28 |
0 |
0
|
280 |
1 |
0 |
280 |
25 |
28 |
28 |
2 |
11 |
-29 |
1 |
1
|
290 |
|
0 |
290 |
13 |
24 |
29 |
2 |
15 |
-30 |
0 |
0
|
300 |
|
0 |
300 |
8 |
14 |
30 |
4 |
9 |
-31 |
0 |
1
|
310 |
1 |
2 |
310 |
19 |
17 |
31 |
3 |
9 |
-32 |
0 |
0
|
320 |
|
1 |
320 |
12 |
14 |
32 |
3 |
11 |
-33 |
2 |
0
|
330 |
|
0 |
330 |
8 |
15 |
33 |
4 |
11 |
-34 |
0 |
2
|
340 |
|
0 |
340 |
9 |
8 |
34 |
1 |
9 |
-35 |
2 |
2
|
350 |
|
2 |
350 |
13 |
13 |
35 |
1 |
12 |
-36 |
1 |
0
|
360 |
|
0 |
360 |
15 |
8 |
36 |
1 |
5 |
-37 |
0 |
0
|
370 |
2 |
0 |
370 |
7 |
5 |
37 |
5 |
4 |
-38 |
1 |
0
|
380 |
1 |
0 |
380 |
8 |
7 |
38 |
7 |
13 |
-39 |
0 |
0
|
390 |
|
0 |
390 |
7 |
9 |
39 |
7 |
10 |
-40 |
0 |
0
|
400 |
|
0 |
400 |
10 |
9 |
40 |
2 |
8 |
-41 |
0 |
0
|
reste |
1 |
6 |
reste |
110 |
109 |
reste |
1226 |
1776 |
-42 |
0 |
0
|
total |
25 |
54 |
total |
1343 |
2382 |
total |
1343 |
2382 |
-43 |
0 |
0
|
%reste |
4.0 |
11.1 |
%reste |
8.2 |
4.6 |
diagr |
115 |
594 |
-44 |
0 |
1
|
t30 |
0 |
1 |
t30 |
81 |
502 |
|
|
|
-45 |
0 |
0
|
%t30 |
0 |
1.9 |
%t30 |
6.0 |
21.1 |
|
|
|
-46 |
3 |
0
|
diagr |
24 |
47 |
diagr |
1231 |
2261 |
|
|
|
-47 |
0 |
0
|
|
|
|
|
|
|
|
|
|
-48 |
0 |
0
|
|
Récapitulatif des effectifs |
|
|
|
-49 |
0 |
0
|
|
>0 |
<0 |
zéro |
total |
* |
|
|
|
-50 |
1 |
0
|
x |
1341 |
42 |
2 |
1385 |
|
|
|
|
reste |
4 |
6
|
c |
2370 |
444 |
12 |
2826 |
|
|
|
|
total |
42 |
444
|
|
|
|
|
4211 |
239 |
|
|
|
%reste |
9.5 |
1.4
|
|
|
|
|
total |
4450 |
|
|
|
diagr |
29 |
135
|
Les intercalaires tRNA-cdsModifier
Les intercalaires en continu-discontinuModifier
comparaison continu-discontinuModifier
- Lien tableur: comparaison continu-discontinu
- Légende:
- - Tableau tRNA-cds01, les intercalaires tRNA-cds positifs : Ils sont comptabilisés pour chaque génome dans intercalaires tRNA, par exemple abra. Les intercalaires inférieurs à 201 sont reportés dans les colonnes deb, fin (début et fin d'une transition continue cds-tRNA, complement ou non) et les colonnes deb'-fin' (changement de sens entre cds et tRNAs, direct-complement ou complement-direct). La colonne total est la somme de tous les intercalaires, les >200 aussi.
- - Tableau tRNA-cds01, les intercalaires cds-cds négatifs, l'ensemble: 3 colonnes sont extraites du tableau des fréquences cds-cds (exemple abra, cds le total des intercalaires cds-cds, <0 (continu + discontinu) le total des négatifs et r32 correspondant au reste du label fréquence-1. Deux colonnes sont des rapports extraits du tableau des détails tRNA-cds02, comp'% (discontinu sur les négatifs) et min% (200*différence/somme, en valeur absolue, de min-min').
- - Tableau tRNA-cds02, détail des cds-cds négatifs: Les effectifs sont tirés du tableur au paragraphe intercalaires négatifs de chaque génome exemple abra. Pour les continus con et les discontinus comp' j'ai mis 3 colonnes total, le minimum (min' pour comp') et le reste des effectifs après la fréquence (-50), r50. Pour les continus seulement, car con1 des comp' est toujours nul, j'ai ajouté 2 colonnes, les effectifs de la fréquence (-1), con1, et ceux de la fréquence (-4), con4.
- Note : erreur sur eco, intercalaire 233 (voir eco intercalaires tRNA). corrigé ici.
- MAJ du 23.2.22: les 2 colonnes ensemble sont maj d'après le tableau positif-négatif. Restent les autres colonnes de négatifs à faire avec les maj de tous les négatifs.
tRNAs-cds0. Comparaison continu-discontinu des intercalaires des tRNA-cds positifs et des cds-cds négatifs.
tRNAs-cds01. Détail des tRNA-cds et l'ensemble des cds-cds négatifs.
|
détail |
tRNA-cds positifs |
ensemble |
cds-cds négatifs
|
---|
gen |
deb |
fin |
deb’ |
fin’ |
total |
cds |
<0 |
r32 |
r32% |
comp’% |
min%
|
---|
abra |
7 |
12 |
5 |
4 |
41 |
1 667 |
417 |
20 |
4,8 |
1,4 |
117
| ade |
20 |
16 |
7 |
9 |
69 |
4 464 |
815 |
40 |
4,9 |
11,9 |
6
| afn |
20 |
17 |
2 |
5 |
53 |
2 038 |
307 |
21 |
6,8 |
1,3 |
31
| ant |
11 |
12 |
4 |
1 |
34 |
3 095 |
762 |
17 |
2,2 |
10,9 |
11
| ase |
18 |
16 |
12 |
12 |
101 |
8 197 |
1 652 |
128 |
7,7 |
19,3 |
1
| blo |
15 |
15 |
5 |
6 |
78 |
1 772 |
228 |
8 |
3,5 |
7,0 |
17
| bsu |
3 |
5 |
7 |
5 |
28 |
4 213 |
608 |
52 |
8,7 |
4,9 |
182
| cbei |
9 |
5 |
4 |
1 |
47 |
5 622 |
400 |
24 |
6,0 |
2,8 |
59
| cbn |
12 |
12 |
2 |
2 |
40 |
2 491 |
176 |
6 |
3,4 |
4,5 |
54
| cvi |
22 |
20 |
7 |
9 |
78 |
4 282 |
756 |
26 |
3,4 |
8,2 |
5
| eco |
10 |
11 |
5 |
7 |
65 |
4 024 |
738 |
55 |
7,5 |
12,3 |
107
| mba |
9 |
8 |
7 |
4 |
90 |
3 943 |
329 |
26 |
7,9 |
5,5 |
23
| mja |
6 |
15 |
8 |
1 |
43 |
1 729 |
219 |
17 |
7,8 |
24,2 |
29
| myr |
18 |
15 |
12 |
10 |
79 |
3 555 |
302 |
12 |
4,0 |
6,6 |
37
| pmg |
16 |
17 |
13 |
8 |
67 |
1 800 |
253 |
12 |
4,7 |
36,0 |
3
| pmq |
8 |
11 |
2 |
5 |
42 |
7 223 |
795 |
52 |
6,5 |
4,3 |
45
| pub |
13 |
14 |
11 |
11 |
50 |
1 307 |
473 |
14 |
3,0 |
19,0 |
41
| rru |
15 |
18 |
10 |
11 |
83 |
3 786 |
683 |
32 |
4,7 |
10,1 |
12
| rtb |
9 |
12 |
0 |
2 |
56 |
793 |
102 |
7 |
6,9 |
2,9 |
35
| scc |
13 |
8 |
11 |
5 |
67 |
1 805 |
347 |
14 |
4,0 |
7,8 |
47
| spl |
9 |
9 |
4 |
3 |
62 |
4 213 |
426 |
10 |
2,3 |
2,8 |
61
| total |
263 |
268 |
138 |
121 |
1 273 |
72 019 |
10 788 |
593 |
5,5 |
10,6 |
| |
tRNAs-cds02. Détail des cds-cds négatifs.
|
con |
cds-cds négatifs continus |
comp’ |
cds-cds négatifs discontinus
|
---|
gen |
total |
min |
con1 |
con4 |
c1/c4 |
r50 |
r50% |
total |
min’ |
r50 |
r50%
|
---|
abra |
411 |
-92 |
68 |
142 |
0,48 |
13 |
3,2 |
6 |
-24 |
0 |
| ade |
718 |
-109 |
70 |
540 |
0,13 |
10 |
1,4 |
97 |
-116 |
14 |
14,4
| afn |
303 |
-113 |
38 |
129 |
0,29 |
9 |
3,0 |
4 |
-83 |
1 |
25,0
| ant |
679 |
-71 |
164 |
221 |
0,74 |
6 |
0,9 |
83 |
-79 |
1 |
1,2
| ase |
1333 |
-119 |
168 |
892 |
0,19 |
32 |
2,4 |
319 |
-120 |
49 |
15,4
| blo |
212 |
-86 |
52 |
109 |
0,48 |
2 |
0,9 |
16 |
-102 |
2 |
12,5
| bsu |
578 |
-7 616 |
72 |
233 |
0,31 |
17 |
2,9 |
30 |
-361 |
7 |
23,3
| cbei |
389 |
-110 |
71 |
82 |
0,87 |
4 |
1,0 |
11 |
-60 |
1 |
9,1
| cbn |
168 |
-47 |
34 |
28 |
1,21 |
0 |
|
8 |
-27 |
0 |
| cvi |
694 |
-97 |
118 |
377 |
0,31 |
4 |
0,6 |
62 |
-102 |
6 |
9,7
| eco |
647 |
-2 400 |
163 |
261 |
0,62 |
22 |
3,4 |
91 |
-723 |
11 |
12,1
| mba |
311 |
-59 |
33 |
119 |
0,28 |
7 |
2,3 |
18 |
-74 |
2 |
11,1
| mja |
166 |
-83 |
25 |
52 |
0,48 |
7 |
4,2 |
53 |
-62 |
0 |
| myr |
282 |
-47 |
71 |
60 |
1,18 |
0 |
|
20 |
-68 |
1 |
5,0
| pmg |
162 |
-65 |
36 |
72 |
0,50 |
2 |
1,2 |
91 |
-67 |
2 |
2,2
| pmq |
761 |
-119 |
80 |
387 |
0,21 |
17 |
2,2 |
34 |
-75 |
4 |
11,8
| pub |
383 |
-65 |
152 |
81 |
1,88 |
3 |
0,8 |
90 |
-43 |
0 |
| rru |
614 |
-137 |
81 |
396 |
0,20 |
13 |
2,1 |
69 |
-122 |
7 |
10,1
| rtb |
99 |
-50 |
10 |
33 |
0,30 |
0 |
|
3 |
-35 |
0 |
| scc |
320 |
-74 |
39 |
156 |
0,25 |
6 |
1,9 |
27 |
-120 |
1 |
3,7
| spl |
414 |
-98 |
126 |
136 |
0,93 |
5 |
1,2 |
12 |
-52 |
1 |
8,3
| total |
9 644 |
|
1 671 |
4 506 |
0,37 |
179 |
1,9 |
1 144 |
|
110 |
9,6
| |
Notes, comparaison continu-discontinuModifier
- Les intercalaires tRNA-cds: tableau tRNA-cds01
- - Pour les intercalaires positifs les totaux deb et fin sont à égalité de même que les deb' et les fin' (notation des intercalaires tRNA, par exemple abra). Cependant les deb-fin sont 2 fois plus nombreux que les deb'-fin' car les plages des adresses direct ou complement sont très étendues, sous-tendues par l'architecture globale du chromosome et la discontinuité ne concerne que le passage d'une plage à l'autre. Dans les intercalaires négatifs, qui sont rares, ce sont les discontinus qui prennent l'avantage comme si la discontinuité ajoutée à la difficulté de réparation due aux appariements des tRNAs provoquait le chevauchement, il y a 2 continus contre 6 discontinus négatifs (voir 1er petit tableau parmi ceux qui suivent). C'est ce résultat partiel qui m’a poussé à étudier les intercalaires cds-cds négatifs.
- - Les intercalaires tRNA-cds négatifs, 8/1273 soit 0.6%, sont rares alors que les négatifs représentent environ 15% (10 788/72 023) des intercalaires cds-cds. Je les ai comparés à la rareté des tRNA-cds nuls: il semblerait que ceux-ci soient aussi rares, 4/1273 soit 0.3% (voir le 2ème petit tableau parmi ceux qui suivent). Mais les nuls sont aussi très faibles chez les cds-cds. Le décompte des nuls des 21 génomes avec cds donne 510 nuls pour 72 023 intercalaires cds-cds, soit 0,7% (voir "génome" les fréquences: exemple abra) et la comparaison des nuls/négatifs des cds-cds pour 8 génomes donne 210/24482 soit 0.9%, et en plus le rapport comp'/con égale à 39/171 soit 0.23 est du même ordre de grandeur et même 2 fois plus élevé que celui des cds-cds négatifs de 0.11 = 346/3035 (Les effectifs des nuls sont obtenus en même temps que les relevés des négatifs, mais seulement pour ces 8 génomes. Les effectifs des négatifs sont extraits du tableau tRNA-cds02).
Fin cds01
tRNA-cds intercalaires négatifs
gen deb fin deb’ fin’ total
mba - - -12 - 1
spl - - -23 - 1
myr - - -38 - 1
pmg -30 - - - 1
ase - - - -12 1
blo -17 - -39 -8 3
tRNA-cds intercalaires nuls
mba - 1 - - 1
pmg - - 1 - 1
pub - - 2 - 2
total - 1 3 - 4
cds-cds intercalaires nuls/négatifs
nuls - - <0 - -
gen con comp’ con comp’ cds
myr 14 4 282 20 3 555
pmg 34 12 162 91 1 800
pmq 26 5 761 34 7 223
pub 58 13 383 90 1 307
rru 11 2 614 69 3 786
rtb 4 1 99 3 793
scc 7 1 320 27 1 805
spl 17 1 414 12 4 213
total 171 39 3035 346 24 482
- Les intercalaires cds-cds négatifs: tableau tRNA-cds01 partie de droite pour les caractéristiques de l'ensemble des négatifs et tableau tRNA-cds02 pour les détails.
- Les intercalaires négatifs tRNAs-cds sont très rares par rapport aux cds-cds négatifs
- - Suite à la constatation de la quasi absence des intercalaires négatifs chez les tRNA-cds (note du début) j'ai entamé l'étude détaillée des cds-cds, positifs-négatifs, continus-discontinus. J'ai regroupé le tout dans le tableau récapitulatif des taux discontinu/continu, dans le tableau par classe génomique et dans le tableau des cds-cds positifs-négatifs.
- + Les intercalaires cds-cds négatifs S-: Le taux Sx-% des discontinus négatifs varie beaucoup d'un génome à l'autre et suit le classement par génome basé notamment sur le taux de négativité, S-%. Cependant la corrélation n'est pas totale puisque abra a le taux parmi les plus faibles, 1.4%, alors qu'il a un taux élevé de négativité de 25%; de même pour afn de la classe moyenne (II) a respectivement 1.3% et 15%. La classe I regroupe donc 4 forts en Sx-% et 1 génome très faible, la classe II est un mélange de 4 forts de 3 moyens et de 2 faibles et la classe III 2 faibles et 5 moyens. La classe III est l'opposée de la classe I puisqu'elle regroupe aussi les plus faibles taux S-%. Au total les Sx- sont 10 fois plus faibles que les Sc- varient fortement avec un écart supérieur à 50% par rapport à la moyenne.
- + Les intercalaires cds-cds positifs S+: Le taux Sx+% par contre est très homogène avec un écart de seulement de 10% par rapport à la moyenne. Au total les Sx+ ne sont que 3 fois plus faibles que les continus Sc+.
- + Les intercalaires tRNA-cds positifs R+: Ils se comportent exactement comme les S+, le taux Rx+% est homogène avec un écart de 20% par rapport à la moyenne et il y a 3 fois plus de continus que de discontinus. Cependant leur moyenne de 37% est supérieure de 20% à la moyenne des Sx+% de 31%.
- - Les tRNAs-cds négatifs pour 43 génomes restent très rares, 0.7%, mais le rapport c- / x- tend vers l'unité, 9/10. Si les cds-cds négatifs sont beaucoup plus abondants que les tRNA-cds négatifs, 15% contre 0.7%, ce sont surtout les Sc- qui les représentent. En ramenant au total des S, les Sx- ne représentent que 1144/72023 soit 1.6% et en ramenant au total des R, les Rx- représentent 10/2688 soit 0.4% et donc les Sx- sont peu fréquents mais sont 4 fois plus abondants que les Rx- dans leur catégories respectives.
- - Les intercalaires tRNA-tRNA discontinus positifs x+ (1% pour 50 génomes et 1745 intercalaires) sont aussi rares que les tRNA-cds négatifs et les x- sont quasi inexistants, 1 seul cas et d'une seule paire de base. En plus sur 18 intercalaires discontinus relevés 5 sont tellement grands (supérieurs à 400 pbs) qu'ils résulteraient plutôt d'un remaniement du chromosome que d'une propriété des blocs à tRNAs seuls, 9 entre 130 et 290 pbs et 4 entre 50 et 90 pbs. Voir le tableur du même lien.
- - Les intercalaires discontinus dans les blocs à rRNAs sont inexistants pour 50 génomes et 1984 intercalaires.
- - Les intercalaires positifs de 1 à 40 pbs:
- + La comparaison des tRNA-cds aux cds-cds (tRNA-cds1), avec intervalle de confiance, m'a montré que les 1ers ont un comportement propre aux tRNA et surtout que la fréquence attendue des "petit" était inférieure à la borne inférieure de l'intervalle. Cela veut dire que les petits intervalles sont moins fréquents que les grands, relativement aux cds-cds. Ceci m'a poussé à comparer les moyennes des cds-cds et des tRNA-cds dans le sous tableau tRNA-cds2 (même lien). Et effectivement les moyennes des tRNA-cds sont toujours et nettement supérieures à celles des cds-cds (colonne diff). De même les grands intercalaires (grd%) sont encore plus grands que la moyenne cds-cds et les petits intercalaires (pet%) plus petits (14 génomes) qu'elle, ou égaux (4) et pour 3 génomes légèrement supérieurs (bsu spl scc).
- + Ce résultat va dans le même sens que la faible fréquence des tRNA-cds négatifs et donc de l'orientation des blocs à tRNAs seuls, sans rRNA. Aussi j'ai comparé les fréquences des petits intercalaires positifs cds-cds (S) et tRNA-cds (R) de 1 à 40 pbs. Les R sont au moins 3 fois plus faibles que les S (colonne taux) pour 13 génomes et 7 ont si peu de R (0 1 2) que leur taux doit être supérieur à 3. Un seul génome pub a un taux proche de l'unité, mais son taux approche 3 quand je compare les 10 plus petits intercalaires. J'ai calculé aussi le taux des R40 discontinus R40x% sur le total R40, il est du même ordre de grandeur que celui des Sx+% et Rx+% calculés sur la totalité des intercalaires, 26% contre respectivement 31 et 37 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser.
- - En conclusion:
- Les intercalaires tRNA-tRNA, à l’intérieur des blocs à tRNA, avec rRNA ou non, sont toujours continus. Ils peuvent être discontinus dans les blocs sans rRNA, jusqu'à 1%, sous la forme positive Rx+ seule et sont souvent très longs. Ceci suggèrent qu'ils sont plutôt le résultat des remaniements du chromosome que du processus de la formation du bloc.
- Les intercalaires tRNA-cds, en contact avec les gènes protéiques, orientent les blocs à tRNAs seuls. L'orientation n'est pas définie par la disposition des tRNA dans le bloc comme le font les rRNAs dans les blocs les contenant, mais par la difficulté (faible fréquence) à réaliser des intercalaires courts d'un côté et la facilité à en réaliser des longs de l'autre côté (forte fréquence). La différence avec les blocs à rRNA, comme je le montrerai plus loin, c'est que le côté long varie peu en longueur pour ceux-ci alors qu'il est très variable pour les blocs sans rRNA.
- Comparaison entre les intercalaires cds-cds négatifs continus et discontinus:
- - Comparaison avec les positifs: quand on voit les minima des négatifs on a l'impression que leur étendue est très grande, mais en fait les négatifs ont des intercalaires inférieures à 32 pbs dans 95% des cas alors que les positifs ne dépassent pas les 27% dans la plage 1-40 pbs. Voir ici les comparaisons positifs-négatifs dans le 1er sous-tableau. Les négatifs supérieurs à 140 pbs ne représentent que 0.2% du total, 21/10788, et ne concernent que 2 génomes dans mon étude de 21, bsu et eco. Voir en fin de chapitre la liste des intercalaires négatifs supérieurs à 140 pbs.
- - Comparaison entre continus et discontinus: Maintenant, quand on voit les minima des négatifs entre continus et discontinus (voir la comparaison dans les colonnes min et min' dans le 2ème sous-tableau et leurs taux dans le 1er sous-tableau ainsi que leur liste en fin de chapitre), on a l'impression qu'ils sont similaires, 9 de plus de 360 pbs chez les continus et 5 chez les discontinus. Et même les négatifs seraient plus fréquents puisque le rapport c-/x- est de 2 alors qu'il est de 10 pour le total des négatifs. Or des recouvrements longs pour les discontinus me posaient problème: à l'instar d'un tRNA où son complément n'est pas un tRNA à cause de la dissymétrie des tRNAs, je pensais que le complément d'un cds ne pouvait être que rarement un cds et que s'il y avait recouvrement il ne pourrait être que court. C'est ce qui expliquerait par ailleurs la rareté des discontinus.
- - Aussi j'ai étudié les recouvrements réels chez les continus et les discontinus. Ce qui en ressort c'est que les intercalaires longs ont un recouvrement total et les courts ont un recouvrement partiel. Et ceci que les intercalaires soient continus ou non. Et il y a ainsi 2 intercalaires discontinus à recouvrement total long, 297 et 486 pbs, et un 3ème discontinu partiel de 210 pbs. Sur 6 discontinus les autres ont un recouvrement inférieur à 75 pbs. Le taux des recouvrements longs pour les discontinus parait donc très élevé, 33 à 50%. Mais sur les 10788 de négatifs ils sont extrêmement rares 2 à 3 pour 10 000 intercalaires. On pourrait suggérer que ce sont des accidents dus aux remaniements du chromosome mais l'étude des fréquences de tous les négatifs qui suit montre que le processus sous-tendu par les intercalaires continus s'apparente au processus de traduction et de transcription basé sur une périodicité de 3 bases ou triplet qui défini les aas, et que le processus sous-tendus par les intercalaires discontinus s'apparente au processus de réparation qui ne concerne que les propriétés physiques de l'ADN double brin mais qui néanmoins fait apparaître une périodicité de 3 paires de bases différente de celle ces continus.
- Les fréquences des intercalaires négatifs cds-cds, c- et x-
- - Les c- reproduisent dans l'ADN le processus traductionnel des triplets mais décalés.
- - Les x- mettent en évidence 2 processus de réparation, un qui reproduit partiellement le processus traductionnel des triplets auquel se superpose le 2ème par des triplets décalés
- Les intercalaires cds-cds négatifs inférieurs à -140
Les intercalaires cds-cds négatifs inférieurs à -140 pbs: continu, le chevauchement se fait sur le même brin et comp' pour discontinu, le chevauchement se fait sur 2 brins.
continu continu comp’
eco bsu eco
-2400 -7616 -723
-2130 -500 -530
-1295 -492 -527
-897 -164 -436
-729 -154 -210
-448 -143 -
-242 - bsu
-212 - -361
-153 - -
Rareté des tRNA-cds négatifs et petits positifsModifier
- Lien tableur: Rareté des tRNA-cds négatifs et petits positifs.
- Légende:
- Les tRNA-cds négatifs: Les décomptes et la dénomination du tRNA sont faits à partir des "génome"-opérons quand ils ont des cds sinon à partir de "génome"-autres-intercalaires. Aux 21 génomes étudiés avec les discontinuités (comp') s'ajoute 22 autres génomes avec un total de 11 intercalaires négatifs. Ces derniers sont en gras et le total de tRNA-cds négatifs, 1407 pbs, est reporté dans le tableur (lien ci-dessus). Le taux des négatifs passe donc à 19 pour un total de 2688 intercalaires (1407 plus ceux des 21 génomes, 1281), soit 0.7%, 2 fois plus faible que les discontinus positifs entre tRNA dans les blocs sans rRNA.
- - Note: le rapport c-/x- maintenant est proche de l'unité, 9c- / 10x- pour 43 génomes. Voir les 1ères estimations avec les 21 génomes.Ce rapport et la rareté des tRNA-cds négatif suggèrent que le processus est aléatoire avec une probabilité de 0.5.
- - tga*, cette adresse n'apparaît pas dans spl opérons du 30.6.19 mais apparaît dans fréquences de spl du 24.9.20 dont est issu spl-autres-intercalaires.
- - blo*, dans blo opérons il n'y a pas de cds. Voir dans blo autres intercalaires qui est du 15.10.20 (voir blo-fréquences) alors que blo-opérons est du 30.6.19.
- Les tRNA-cds positifs: les génomes gen pointent sur les intercalaires des tRNA-cds des 21 étudiés pour les discontinuités.
- - S40% voir les intercalaires cds-cds 1-40 colonne 1-40% du 1er tableau, pourcentage des Sx+ sur le total, (100*Sx+ / S+).
- - total, total des tRNA-cds du génome reporté dans l'encadré au-dessus de son tableau.
- - R40 est le total des intercalaires positifs de 1 à 40 pbs des 2 parties du tableau de chaque génome (gen): continu pour Rc+ et comp' ou discontinu pour Rx+. Le pourcentage du total des Rx+, Rx+%, égale à (100*Rx+ / R+), est le même que celui des Sx+% et Rx+% calculés sur le total, soit 100*33/129 = 25,6 contre respectivement 31 et 36 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser. En effet quand je compare les moyennes (tableau tRNA-cds2) des intercalaires positifs des cds-cds à celles des tRNA-cds ces dernières sont toujours et nettement plus élevées que les 1ères. Et quand j'oriente les blocs de tRNA sans rRNA les grands sont donc normalement tous plus élevés que cds-cds mais pour les petits 7 génomes à égalité ou presque (spl et bsu), 7 sont nettement plus petits ( différence supérieure à 40%) 7 moyennement petits (différence de 16 à 40%).
- - R40%, pourcentage des 1-40 par rapport au total des tRNA-cds; taux, S40% / R40%.
- - Note:
- + les taux de cbn et bsu sont calculés avec R40=1. Quand j'enlève pub le taux du total passe à 3.6 au lieu de 2.9 et le pourcentage à 7.5 pour un cumulé de 1213 et un R40 total de 91.
- + Ce tableau est à comparer aux moyennes des tRNA-cds.
génomes. Rareté des tRNA-cds négatifs et des petits positifs
génomes. Les tRNA-cds négatifs
genome |
adresse |
tRNA |
inter
|
---|
Intercalaire continu nc
| vha chrII |
1842556 |
ctc |
-36
| amed |
779541 |
caa |
-21
| oan |
1945985 |
aag |
-38
| oan |
34057 |
gcc |
-40
| ppm plasm |
7953 |
gac |
-24
| hmo |
2497882 |
gtg |
-10
| mfi |
314088 |
caa |
-1
| pmg |
1600898 |
gta |
-30
| blo* |
207388 |
tgg |
-17
| Intercalaire discontinu xc comp’
| rpm |
1941413 |
agc |
-30
| oan |
1639492 |
atgj |
-44
| aua |
1350534 |
cgt |
-30
| npu |
3439846 |
gca |
-19
| mba |
1315521 |
cgc |
-12
| spl |
552630 |
tga* |
-23
| myr |
1926118 |
tta |
-38
| ase |
1249593 |
aag |
-12
| blo* |
440078 |
aac |
-39
| blo* |
1424907 |
gag |
-8
| total |
|
19 |
| |
génomes. Les poisitifs de 1 à 40
gen |
S40% |
total |
R40 |
R40% |
taux |
Rc+ |
Rx+
|
---|
abra |
37,3 |
41 |
2 |
4,9 |
7,6 |
2 |
| ade |
32,6 |
69 |
8 |
11,6 |
2,8 |
7 |
1
| afn |
35,8 |
53 |
4 |
7,5 |
4,7 |
4 |
| ant |
45,1 |
34 |
5 |
14,7 |
3,1 |
3 |
2
| ase |
23,9 |
100 |
14 |
14,0 |
1,7 |
11 |
3
| blo |
19,1 |
75 |
1 |
1,3 |
14,4 |
1 |
| bsu |
34,6 |
28 |
0 |
0 |
9,7 |
|
| cbei |
19,0 |
47 |
3 |
6,4 |
3,0 |
1 |
2
| cbn |
29,3 |
40 |
0 |
0 |
11,7 |
|
| cvi |
26,9 |
78 |
8 |
10,3 |
2,6 |
8 |
| eco |
29,1 |
65 |
4 |
6,2 |
4,7 |
1 |
3
| mba |
13,3 |
88 |
4 |
4,5 |
2,9 |
2 |
2
| mja |
39,4 |
43 |
5 |
11,6 |
3,4 |
5 |
| myr |
30,8 |
78 |
7 |
9,0 |
3,4 |
5 |
2
| pmg |
42,9 |
65 |
11 |
16,9 |
2,5 |
8 |
3
| pmq |
19,1 |
42 |
1 |
2,4 |
8,0 |
1 |
| pub |
59,6 |
48 |
27 |
56,3 |
1,1 |
18 |
9
| rru |
26,1 |
83 |
3 |
3,6 |
7,2 |
1 |
2
| rtb |
20,3 |
56 |
6 |
10,7 |
1,9 |
6 |
| scc |
31,0 |
67 |
4 |
6,0 |
5,2 |
2 |
2
| spl |
20,0 |
61 |
1 |
1,6 |
12,2 |
|
1
| total |
27,1 |
1261 |
118 |
9,4 |
2,9 |
86 |
32
| |
Les cds-cds positif-négatifModifier
- Lien tableur: Les cds-cds positif-négatif
- Légende:
- Les intercalaires cds-cds positifs de 1 à 40: Les liens des génomes gen pointent sur les fréquences des intercalaires cds-cds.
- - <0%: intercalaires négatifs / total des intercalaires cds-cds, extrait du sous-tableau génomes3. De même total est extrait du sous-tableau génomes2.
- - <1 reste: sont extraits du tableau des fréquences de chaque génome (lien dans la colonne gen de gauche) et concernent la colonne frequence1. <1 est la somme des fréquences (-1) et (0), et reste est à la fin de la colonne. Leur somme est soustraite du total pour donner le total des intercalaires positifs (>0).
- - >0: total des intercalaires positifs, égale à total - <1.
- - 1-40 et 1-40%: 1-40, le total des intercalaires positifs de 1 à 40 est égale à >0 - reste et son taux, 1-40%, à 1-40 / >0.
- - 1-32%: taux des négatifs de -1 à -32, extrait du tableau tRNA-cds02, après avoir retranché la colonne reste32% de 100%.
- - Note: Tous les taux calculés pour chaque génome (lien à la colonne gen) sont faits par rapport au total des intercalaires cds-cds. Dans le tableau tRNA-cds02 reste32% est calculé par rapport au total des négatifs seuls. Pour ne pas refaire tous les calculs des intercalaires positifs de 1 à 32 la comparaison de 1-40% à 1-32% me paraît pertinente puisque leur différence est très forte, que la différence des effectifs est très faible (40 contre 32) et que leurs calculs sont faits de la même façon, par rapports à leur totaux.
- Les intercalaires continu-discontinu: voir ici la méthode de ces décomptes.
- - S R a pour intercalaires cds-cds, tRNA-cds, autres
- - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S.
- - total, total de tous les gènes
- - nc, intercalaires entre 2 gènes non marqués CDS
- - lien a, vers autres intercalaires, lien S vers les décomptes sous forme de nombres séparés par des points virgules à remplacer lors de la copie vers le tableur.
- tRNA-cds positifs: mêmes notations que précédemment. Les liens des génomes gen pointent sur les intercalaires tRNA-cds. Les génomes avec * (ase*) ont des R- contenus dans les R+ pour retrouver les totaux de tRNA-cds01 précédents.
- - attention correction pour eco, 37 28 et non 37 27. corrigée ici.
génomes. Les intercalaires cds-cds, comparaison positif négatif.
gen1. Les intercalaires cds-cds positifs de 1 à 40
gen |
<0 % |
<1 |
reste |
total |
1-40 |
>0 |
1-40% |
1-32%
|
---|
abra |
25 |
430 |
776 |
1667 |
461 |
1237 |
37 |
95
| ade |
18 |
844 |
2440 |
4464 |
1180 |
3620 |
33 |
95
| afn |
15 |
318 |
1104 |
2038 |
616 |
1720 |
36 |
93
| ant |
25 |
827 |
1246 |
3095 |
1022 |
2268 |
45 |
98
| ase |
20 |
1687 |
4956 |
8197 |
1554 |
6510 |
24 |
92
| blo |
13 |
231 |
1246 |
1772 |
295 |
1541 |
19 |
97
| bsu |
14 |
635 |
2341 |
4213 |
1237 |
3578 |
35 |
91
| cbei |
7 |
419 |
4214 |
5622 |
989 |
5203 |
19 |
94
| cbn |
7 |
187 |
1628 |
2491 |
676 |
2304 |
29 |
97
| cvi |
18 |
771 |
2566 |
4282 |
945 |
3511 |
27 |
97
| eco |
18 |
767 |
2310 |
4024 |
947 |
3257 |
29 |
93
| mba |
8 |
351 |
3113 |
3943 |
479 |
3592 |
13 |
92
| mja |
13 |
240 |
902 |
1729 |
587 |
1489 |
39 |
92
| myr |
9 |
320 |
2239 |
3555 |
996 |
3235 |
31 |
96
| pmg |
14 |
298 |
857 |
1800 |
645 |
1502 |
43 |
95
| pmq |
11 |
826 |
5173 |
7223 |
1224 |
6397 |
19 |
94
| pub |
36 |
544 |
308 |
1307 |
455 |
763 |
60 |
97
| rru |
18 |
696 |
2285 |
3786 |
805 |
3090 |
26 |
95
| rtb |
13 |
107 |
547 |
793 |
139 |
686 |
20 |
93
| scc |
19 |
355 |
1001 |
1805 |
449 |
1450 |
31 |
96
| spl |
10 |
444 |
3017 |
4213 |
752 |
3769 |
20 |
98
| total |
|
11297 |
|
72019 |
16453 |
60722 |
27 |
94.5
| écart |
|
|
|
|
|
|
27±7 |
95±3
| |
gen2. Les intercalaires cds-cds, continu - discontinu
lien a |
total |
nc |
ac |
ax |
lien S |
Sc- |
Sx- |
Sx-% |
Sc+ |
Sx+ |
Sx+% |
S-% |
total S
|
---|
abra |
1795 |
37 |
78 |
13 |
abra |
409 |
8 |
1.9 |
979 |
271 |
22 |
25 |
1667
| ade |
4569 |
22 |
57 |
26 |
ade |
713 |
102 |
12.5 |
2339 |
1310 |
36 |
18 |
4464
| afn |
2192 |
44 |
88 |
22 |
afn |
303 |
4 |
1.3 |
1385 |
346 |
20 |
15 |
2038
| ant |
3190 |
47 |
37 |
11 |
ant |
679 |
83 |
10.9 |
1702 |
631 |
27 |
25 |
3095
| ase |
8380 |
65 |
69 |
49 |
ase |
1300 |
352 |
21.3 |
3866 |
2679 |
41 |
20 |
8197
| blo |
1900 |
24 |
71 |
33 |
blo |
210 |
18 |
7.9 |
1045 |
499 |
32 |
13 |
1772
| bsu |
4537 |
99 |
205 |
20 |
bsu |
573 |
35 |
5.8 |
2515 |
1090 |
30 |
14 |
4213
| cbei |
5814 |
106 |
68 |
18 |
cbei |
390 |
10 |
2.5 |
4010 |
1212 |
23 |
7 |
5622
| cbn |
2638 |
87 |
45 |
15 |
cbn |
167 |
9 |
5.1 |
1773 |
542 |
23 |
7 |
2491
| cvi |
4487 |
79 |
85 |
41 |
cvi |
687 |
69 |
9.1 |
2424 |
1102 |
31 |
18 |
4282
| eco |
4700 |
65 |
580 |
31 |
eco |
644 |
94 |
12.7 |
2211 |
1075 |
33 |
18 |
4024
| mba |
4071 |
22 |
54 |
52 |
mba |
307 |
22 |
6.7 |
2381 |
1233 |
34 |
8 |
3943
| mja |
1828 |
21 |
41 |
37 |
mja |
163 |
56 |
25.6 |
1071 |
439 |
29 |
13 |
1729
| myr |
3754 |
87 |
69 |
43 |
myr |
282 |
20 |
6.6 |
2274 |
979 |
30 |
8 |
3555
| pmg |
1884 |
v5 |
45 |
34 |
pmg |
158 |
95 |
37.5 |
950 |
597 |
39 |
14 |
1800
| pmq |
7479 |
185 |
51 |
20 |
pmq |
753 |
42 |
5.3 |
4543 |
1885 |
29 |
11 |
7223
| pub |
1386 |
7 |
44 |
28 |
pub |
381 |
92 |
19.5 |
599 |
235 |
28 |
36 |
1307
| rru |
3946 |
23 |
79 |
58 |
rru |
614 |
69 |
10.1 |
2140 |
963 |
31 |
18 |
3786
| rtb |
868 |
5 |
51 |
19 |
rtb |
98 |
4 |
3.9 |
506 |
185 |
27 |
13 |
793
| scc |
1909 |
20 |
47 |
37 |
scc |
319 |
28 |
8.1 |
1001 |
457 |
31 |
19 |
1805
| spl |
4466 |
141 |
70 |
42 |
spl |
414 |
12 |
2.8 |
2486 |
1301 |
34 |
10 |
4213
| total |
75793 |
1191 |
1934 |
649 |
|
9564 |
1224 |
11.3 |
42200 |
19031 |
31 |
15 |
72019
| écart |
|
|
|
|
|
|
|
10±9 |
|
|
30±5 |
16±7 |
| |
|
Récapitulatif des taux discontinu/continuModifier
- Lien tableur: Récapitulatif des taux discontinu/continu.
- Légende: >0, intercalaires positifs zéro compris. <0, intercalaires négatifs
- - S R a nc pour intercalaires cds-cds, tRNA-cds, autres cds et non cds.
- - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S
- - Liens: S RS t1, Scx- RS t2, Scx+ S+ t2, nc,acx a t2, Rcx R+ t3 et R-. (t1 t2 t3 pour les sous-tableaux des liens).
- - Voir les tRNA-cds négatifs, Rcx-, dans Notes.
- Note: Les autres intercalaires contiennent ceux des tRNA-tRNA qui ne produisent pas de discontinuités. En enlevant ces intercalaires, environ 500 (spl 133, bsu 60, pmq 138, cbn 22, cbei 140) j'arrive à un rapport ax% de 463/1500 soit 31%, celui de Sx+%. En plus eco contient 129 pseudo-gènes comptés dans autres intercalaires et qui se comportent comme les cds S+. Donc sans eco et les tRNAs le reste doit avoir un rapport ax% semblable à celui des Sx%.
Récapitulatif continu - discontinu
>0 |
<0 |
total |
taux <0
|
---|
tRNA-cds |
tRNA-cds |
|
|
---|
Rc+ |
Rx+ |
Rx+ % |
Rc- |
Rx- |
Rx- % |
|
R- %
|
808 |
465 |
36,5 |
2 |
6 |
75 |
1 281 |
0,6
|
cds-cds |
cds-cds |
|
|
---|
Sc+ |
Sx+ |
Sx+ % |
Sc- |
Sx- |
Sx- % |
|
S- %
|
42 200 |
19 031 |
31,08 |
9 564 |
1 224 |
11,3 |
72 019 |
15,0
|
nc |
ac |
ax |
ax% |
a% |
intercal |
|
Sx%
|
1 191 |
1 934 |
649 |
25,1 |
3,4 |
75 793 |
|
28,1
|
Les taux de discontinus par classe génomiqueModifier
génomes. Les taux de discontinus par classe génomique
gen |
Sx-% |
Sx+% |
S-% |
Rx+% |
ax%
|
---|
I |
|
|
|
|
|
abra |
1,4 |
22 |
25 |
24 |
6
|
ant |
10,9 |
27 |
25 |
15 |
8
|
mja |
24,2 |
30 |
13 |
42 |
36
|
pmg |
36,0 |
39 |
14 |
39 |
41
|
pub |
19,0 |
29 |
36 |
44 |
45
|
II |
|
|
|
|
|
ade |
11,9 |
36 |
18 |
32 |
13
|
afn |
1,3 |
20 |
15 |
19 |
11
|
ase |
19,3 |
42 |
20 |
41 |
11
|
bsu |
4,9 |
30 |
14 |
57 |
16
|
cbn |
4,5 |
23 |
7 |
25 |
5
|
cvi |
8,2 |
32 |
18 |
33 |
18
|
eco |
12,3 |
33 |
18 |
43 |
35
|
rru |
10,1 |
31 |
18 |
41 |
33
|
spl |
2,8 |
34 |
10 |
37 |
11
|
III |
|
|
|
|
|
blo |
7,0 |
32 |
13 |
33 |
18
|
cbei |
2,8 |
23 |
7 |
26 |
6
|
mba |
5,5 |
34 |
8 |
47 |
28
|
myr |
6,6 |
30 |
8 |
39 |
9
|
pmq |
4,3 |
29 |
11 |
36 |
4
|
rtb |
2,9 |
27 |
13 |
29 |
25
|
scc |
7,8 |
32 |
19 |
48 |
18
|
total |
10,6 |
31 |
15 |
37 |
19
|
écart |
10±6 |
31±4 |
15±5 |
37±7 |
19±10
|
Les fréquences des intercalaires négatifs cds-cdsModifier
Les fréquences des intercalaires négatifs cds-cds. TableauModifier
- Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Voir aussi les détails à la suite du tableau dans le tableur.
- Légende: inter, intercalaire; comp', pour discontinu.
- - nc, nombre de continus; nc%, proportion par rapport au total des continus; pc%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des continus.
- - xc, nombre de discontinus; xc%, proportion par rapport au total des discontinus; px%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des discontinus.
- - Le 1er pas de 3 intercalaires comprend les fréquences, inter, 6 7 8. Le rapport des continus est alors pc%=(4 + 139)/945=0.15. Pour les discontinus px%=(35+19)/51=1.06.
- - diff différence entre la fréquence 6 et 7.
cds-cds. Les fréquences des intercalaires négatifs cds-cds
|
continu |
comp’
|
---|
inter |
nc |
nc% |
pc% |
nx |
nx% |
px% |
diff
|
---|
-1 |
1671 |
17.5 |
|
0 |
0 |
|
|
-2 |
4 |
0.0 |
|
40 |
3.3 |
|
|
-3 |
5 |
0.1 |
|
0 |
0 |
|
|
-4 |
4476 |
46.8 |
0.38 |
410 |
33.5 |
0.10 |
|
-5 |
9 |
0.1 |
|
3 |
0.2 |
|
|
-6 |
4 |
0.0 |
|
35 |
2.9 |
|
16
|
-7 |
139 |
1.5 |
|
19 |
1.6 |
|
|
-8 |
945 |
9.9 |
0.15 |
51 |
4.2 |
1.06 |
|
-9 |
3 |
0.0 |
|
25 |
2.0 |
|
14
|
-10 |
93 |
1.0 |
|
11 |
0.9 |
|
|
-11 |
498 |
5.2 |
0.19 |
52 |
4.3 |
0.69 |
|
-12 |
2 |
0.0 |
|
23 |
1.9 |
|
8
|
-13 |
94 |
1.0 |
|
15 |
1.2 |
|
|
-14 |
329 |
3.4 |
0.29 |
45 |
3.7 |
0.84 |
|
-15 |
1 |
0.0 |
|
25 |
2.0 |
|
12
|
-16 |
58 |
0.6 |
|
13 |
1.1 |
|
|
-17 |
235 |
2.5 |
0.25 |
42 |
3.4 |
0.90 |
|
-18 |
5 |
0.1 |
|
13 |
1.1 |
|
1
|
-19 |
43 |
0.4 |
|
12 |
1.0 |
|
|
-20 |
162 |
1.7 |
0.30 |
24 |
2.0 |
1.04 |
|
-21 |
0 |
0 |
|
11 |
0.9 |
|
3
|
-22 |
22 |
0.2 |
|
8 |
0.7 |
|
|
-23 |
107 |
1.1 |
0.21 |
20 |
1.6 |
0.95 |
|
-24 |
1 |
0.0 |
|
19 |
1.6 |
|
8
|
-25 |
34 |
0.4 |
|
11 |
0.9 |
|
|
-26 |
101 |
1.1 |
0.35 |
21 |
1.7 |
1.43 |
|
-27 |
2 |
0.0 |
|
6 |
0.5 |
|
-2
|
-28 |
19 |
0.2 |
|
8 |
0.7 |
|
|
-29 |
61 |
0.6 |
0.34 |
10 |
0.8 |
1.40 |
|
-30 |
0 |
0 |
|
5 |
0.4 |
|
-3
|
-31 |
16 |
0.2 |
|
8 |
0.7 |
|
|
-32 |
45 |
0.5 |
0.36 |
18 |
1.5 |
0.72 |
|
-33 |
0 |
0 |
|
3 |
0.2 |
|
-4
|
-34 |
15 |
0.2 |
|
7 |
0.6 |
|
|
-35 |
35 |
0.4 |
0.43 |
19 |
1.6 |
0.53 |
|
-36 |
0 |
0 |
|
3 |
0.2 |
|
0
|
-37 |
9 |
0.1 |
|
3 |
0.2 |
|
|
-38 |
31 |
0.3 |
0.29 |
12 |
1.0 |
0.50 |
|
-39 |
0 |
0 |
|
3 |
0.2 |
|
-4
|
-40 |
5 |
0.1 |
|
7 |
0.6 |
|
|
-41 |
34 |
0.4 |
0.15 |
8 |
0.7 |
1.25 |
|
-42 |
0 |
0 |
|
4 |
0.3 |
|
-2
|
-43 |
16 |
0.2 |
|
6 |
0.5 |
|
|
-44 |
24 |
0.3 |
0.67 |
4 |
0.3 |
2.50 |
|
-45 |
0 |
0 |
|
2 |
0.2 |
|
-1
|
-46 |
5 |
0.1 |
|
3 |
0.2 |
|
|
-47 |
11 |
0.1 |
0.45 |
4 |
0.3 |
1.25 |
|
-48 |
0 |
0 |
|
2 |
0.2 |
|
-2
|
-49 |
11 |
0.1 |
|
4 |
0.3 |
|
|
-50 |
9 |
0.1 |
1.22 |
6 |
0.5 |
1.00 |
|
reste |
169 |
1.8 |
|
120 |
9.8 |
|
|
total |
9558 |
100.0 |
|
1223 |
100.0 |
|
|
- Totaux: voir les restes des cds-cds négatifs (14.8.21).
14.8.21 c50 creste ctotal x50 xreste x80 xtotal
6 mod3 18 2 20 179 14 16 209
7 mod3 579 65 644 135 12 19 166
8 mod3 2627 87 2714 336 19 34 389
autres - 15 15 - 6 - 6
1 à 5 6165 453
total 9558 1223
- Notes:
- - Exception pour les discontinus: si les continus ont des pas avec les 2 1ères fréquences toujours très faibles par rapport à la 3ème fréquence, chez les discontinus les 2 1ères sont toujours plus faibles que la 3ème mais leur somme peut être supérieure à elle, ce qui donne des px% supérieurs à l'unité et un seul cas (fréquence 44) où la 3ème n'est pas la plus grande. Le dernier pas des continus, 48 49 50, 49 et 50 sont égaux.
- - Les fréquences 1 2 3 4 5: Les 2 lots continu et comp' ont en commun les fréquences 3 4 5, avec la proportion la plus élevée de la fréquence 4 (47% en continu et 34% en discontinu), les fréquences 3 et 5 sont quasiment nuls. Par contre les 2 lots se différencient nettement pour les fréquences 1 et 2: la 1 des continus a la 2ème proportion la plus élevée et rivalise avec le 1er pas (17% contre 10%) et la fréquence 2 est quasiment nulle et portée par un seul génome, bsu (effectif de 4 en gras); la 1 des discontinus est nulle, par contre la fréquence 2 rivalise avec le 1er pas avec un effectif de 40 contre 47.
- - Les restes après la fréquence 50: D'après la 1ère note la progression des continus est plus rapide que celle des comp' ce qui fait que les restes sont 5 fois plus élevés chez les comp' 9,6% contre 1.9% pour les continu. Mais la progression s'annule presque au-delà de la fréquence 100, voir le tableau des caractéristiques globales de ces 2 lots (tRNA-cds02 les colonnes des minima).
- - Chez les discontinus une seconde périodicité apparaît avec les -8 (modulo 3): les 3 1ères sont constantes entre 44 et 48 puis 39, suivent 3 autres de 17 à 22 puis 10, suivent 3 autres de 12 à 17 puis 8 et enfin la queue qui diminue lentement avec des 3 et 4, dépassant rarement 7 (voir la suite dans -80).
- - Les courbes de progression de chaque fréquence modulo 3 sont des exponentielles.
- périodicité supérieure des discontinus, modulo 9.
-6 35 25 23 -7 19 11 15 -8 51 52 45 -8 51 52 45 42
-15 25 13 11 -16 13 12 8 -17 42 24 20 -20 24 20 21 10
-24 19 6 5 -25 11 8 8 -26 21 10 18 -32 18 19 12
-33 3 3 3 -34 7 3 7 -35 19 12 8 -41 8 4 4
-42 4 2 2 -43 6 3 4 -44 4 4 6 -50 6 3 5
-51 5 1 2 -52 1 2 5 -53 4 5 7 -59 7 3 6
-60 1 1 1 -61 2 1 4 -62 3 6 3 -68 3 1 3
-69 2 2 1 -70 1 1 0 -71 1 3 0 -77 0 2 ?
-78 0 ? ? -79 2 ? ? -80 2 ? ? -86 -
Les fréquences des intercalaires négatifs cds-cds. DiagrammesModifier
- Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Diagrammes. Voir aussi les détails à la suite du tableau dans le tableur.
- Légende:
- - droite exp p4 coefficient de détermination R2 de la courbe de tendance, respectivement, d'une droite, de la fonction exponentielle, du polynôme de d° 4.
- - Paramètre des courbes, -a pente b constante pour la droite; -x exposant multiplié par 1000, x' constante pour l'exponentiel; w constante du polynôme.
- - fréquence: 6 6' 6" pour les fréquences -6 modulo 3; 7 7' 7" pour -7 modulo 3; et 8 8' 8" pour -8 modulo 3. Les diagrammes sont faits avec la valeur absolue de la fréquence.
- - abscisse modulo 3, abscisse 1: abscisse des diagrammes pour modulo 3 de fréquence ci-dessus, et abscisse modulo 1 de 1 à 15 pour les fréquences jusqu'à 50 et de 1 à 25 pour les fréquences jusqu'à 80. -x1 et x'1 pour l'exponentielle en abscisse1, à comparer avec les exponentielles des génomes.
- - moyennes: pour m e m/e respectivement moyenne écart type et leur rapport des fréquences modulo 3.
- - continu 50 et discontinu 50 80, diagrammes pour les cds-cds continus jusqu'à la fréquence 50 et les cds-cds discontinus jusqu'aux fréquences 50 et 80.
- Note: Les fréquences des continus 8 et 7 progressent rapidement par rapport aux discontinus qui s'étalent sur une plus grande plage. Aussi les diagrammes sur 80 fréquences améliorent les paramètres des courbes des discontinus. En effet les R2 des droites 6" et 8" sont nettement inférieures à ceux de leurs exponentielles avec les facteurs x1 élevés quoiqu'ils aient diminués par rapport à la série -50. Par contre pour 7" les R2 des 2 courbes sont identiques ce qui milite pour une courbe de tendance linéaire quoique le facteur -x1 et le m/e soient supérieurs à ceux des génomes en discontinu.
cds-cds. Diagrammes des fréquences des intercalaires négatifs cds-cds
|
R2 |
abscisses modulo 3 |
abscisses 1 |
moyennes
|
---|
fréquence |
droite |
exp |
p4 |
-a |
b |
-x |
x’ |
w |
-x1 |
x’1 |
m |
e |
m/e
|
---|
continu 50 |
|
|
|
|
|
|
|
|
|
|
|
|
|
6 |
537 |
190 |
585 |
0,1 |
4 |
36 |
4 |
6 |
107 |
3.5 |
1.2 |
1.66 |
0.72
|
7 |
735 |
855 |
971 |
2,6 |
111 |
72 |
176 |
245 |
215 |
132 |
38.6 |
40.2 |
0.96
|
8 |
608 |
973 |
987 |
14,8 |
603 |
100 |
1389 |
2611 |
301 |
841 |
175.1 |
253.9 |
0.69
|
discontinu 50 |
|
|
|
|
|
|
|
|
|
|
|
|
|
6’ |
820 |
912 |
913 |
0.7 |
32 |
72 |
54 |
45 |
217 |
43 |
11.9 |
10.8 |
1.11
|
7’ |
806 |
779 |
835 |
0.3 |
17 |
36 |
22 |
26 |
109 |
19 |
9.0 |
4.5 |
1.99
|
8’ |
857 |
888 |
933 |
1.2 |
56 |
61 |
97 |
56 |
184 |
71 |
22.4 |
17.0 |
1.32
|
discontinu 80 |
|
|
|
|
|
|
|
|
|
|
|
|
|
6” |
667 |
834 |
931 |
0.4 |
23 |
51 |
32 |
45 |
152 |
28 |
7.8 |
9.76 |
0.80
|
7” |
806 |
769 |
887 |
0.2 |
15 |
38 |
22 |
21 |
115 |
19 |
6.2 |
5.04 |
1.22
|
8” |
739 |
874 |
949 |
0.6 |
42 |
48 |
70 |
80 |
144 |
55 |
14.8 |
16.14 |
0.92
|
Les intercalaires négatifs cds-cds, recouvrementsModifier
- Lien tableur: Les intercalaires négatifs cds-cds, recouvrements.
- Légende:
- - add1 add2 adresse du début et de fin d'un cds. Je nomme pour les opérations qui suivent add11 add12 le 1er cds de la 1ère ligne. La ligne suivante contient les adresses du cds suivant que je nomme add21 add22.
- - Les opérations:
- + intercal, intercalaire entre un cds et le suivant. Il est calculé comme add12-add21-1.
- + shift, différence entre les extrémités des 2 cds, add22-add12. Quand le shift est nul (à droite ou à gauche) il est coloré en jaune.
- + couvre, le recouvrement des 2 cds. Quand le shift est négatif (cyan) le cds est complètement recouvert et la longueur du recouvrement est égale à la longueur du 2ème cds, soit add22-add21+1, inférieure à l'intercalaire. Si le shift est positif le recouvrement est partiel et sa longueur est add12-add21+1, égale à l'intercalaire. Si le shift est nul (à droite ou à gauche) le recouvrement d'un des 2 cds est total.
- Note:
- - Donc la longueur du recouvrement ne peut pas être supérieure à l'intercalaire.
- - Tous les longs intercalaires ont un recouvrement total. Sur les 21 intercalaires de longueur supérieure à 140 pbs, 17 ont un recouvrement total dont 16 ont des intercalaires supérieurs à 212 pbs et 4 ont un recouvrement partiel avec des intercalaires inférieurs à 210 pbs. J'ai étudié plusieurs cds-cds négatifs de plus en plus courts, inférieurs à 140 pbs, que je n'ai pas représentés ici, et à part le -127 de bsu tous se sont révélés des recouvrements partiels comme certainement les 97% des intercalaires négatifs de moins de 50 pbs.
- - Les continus ont de longs recouvrements allant jusqu'à 2400 et ne descendent pas en dessous de 140. 9 sur 15 génomes ont plus de 200 pbs de recouvrement.
- - Les discontinus, à l'inverse, ne dépassent pas les 500 pbs de recouvrement et 5 sur 8 sont en dessous de 100 pbs. 3 sur 8 génomes ont plus de 200 pbs.
cds-cds0. Les intercalaires cds-cds négatifs, les recouvrements.
cds-cds01. Recouvrements chez bsu
intercal |
add1 |
add2 |
shift |
couvre
|
---|
intercalaire continu
| -7616 |
387744 |
398495 |
-7475 |
141
| |
390880 |
391020 |
|
| |
|
|
|
| -500 |
3717238 |
3717825 |
-20 |
480
| |
3717326 |
3717805 |
|
| |
|
|
|
| -492 |
2909520 |
2910011 |
735 |
492
| |
2909520 |
2910746 |
|
| |
|
|
|
| -164 |
1252815 |
1253021 |
52 |
164
| |
1252858 |
1253073 |
|
| |
|
|
|
| -154 |
2466721 |
2467953 |
209 |
154
| |
2467800 |
2468162 |
|
| |
|
|
|
| -143 |
1916663 |
1917097 |
205 |
143
| |
1916955 |
1917302 |
|
| |
|
|
|
| intercalaire discontinu
| -361 |
2601528 |
2603339 |
-64 |
297
| |
2602979 |
2603275 |
|
| |
|
|
|
| -127 |
3666841 |
3667059 |
-43 |
84
| |
3666933 |
3667016 |
|
| |
|
|
|
| -93 |
2652993 |
2653463 |
1410 |
93
| |
2653371 |
2654873 |
|
| |
|
|
|
| |
|
|
|
| |
cds-cds02. Recouvrements chez eco
intercal |
add1 |
add2 |
shift |
couvre
|
---|
intercalaire continu
| -2400 |
164730 |
167264 |
0 |
2400
| |
164865 |
167264 |
|
| -2130 |
2731600 |
2733729 |
444 |
2130
| |
2731600 |
2734173 |
|
| -1295 |
492092 |
493386 |
637 |
1295
| |
492092 |
494023 |
|
| -897 |
4577958 |
4578854 |
483 |
897
| |
4577958 |
4579337 |
|
| -729 |
1179520 |
1180359 |
0 |
729
| |
1179631 |
1180359 |
|
| -448 |
1639030 |
1639527 |
-193 |
255
| |
1639080 |
1639334 |
|
| -242 |
578107 |
578568 |
-59 |
183
| |
578327 |
578509 |
|
| -212 |
508875 |
511379 |
0 |
212
| |
511168 |
511379 |
|
| -153 |
16751 |
16903 |
57 |
153
| |
16751 |
16960 |
|
| intercalaire discontinu
| -723 |
3111128 |
3111988 |
-663 |
60
| |
3111266 |
3111325 |
|
| -530 |
3838248 |
3839171 |
-470 |
60
| |
3838642 |
3838701 |
|
| -527 |
10643 |
11356 |
-41 |
486
| |
10830 |
11315 |
|
| -436 |
3796948 |
3798207 |
-361 |
75
| |
3797772 |
3797846 |
|
| -210 |
3993739 |
3994059 |
276 |
210
| |
3993850 |
3994335 |
|
| |
Classement des génomes par les fréquences des cds-cds négatifs discontinusModifier
- Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs discontinus.
- Légende:
- - couleurs,
- + Les colonnes en jaunes: rouge pour les rapports non significatifs, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes et soulignées pour les extrêmes.
- + Le classement, ordre décroissant de x6 x7 x8: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 x7.
- - clde, ordre des génomes en 9 forts et 12 faibles par rapport à x‰. Ils sont séparés par la ligne très grasse.
- - r80, total des effectifs des fréquences négatives supérieures à 80.
- - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
- - "6 "7 "8, somme des effectifs des fréquences -6 -7 -8 modulo 3 jusqu'à -80.
- - "p pour périodique, somme des 3 modulo 3, "6 "7 "8
- - "80, somme des effectifs de ("5 "6 "7 "8)
- - cds, total des intercalaires cds-cds décomptés pour un génome, gen.
- -x5, % par rapport au total ("80 + r80).
- - x6 x7 x8, pourcentage d'un modulo 3 par rapport au total "p des 3 modulo 3, "6 "7 "8.
- - x‰, pour 1000 cds-cds, somme de "80 et r80 divisée par la colonne cds
cds-cds-x. Intercalaires négatifs discontinus. Classement
clde |
gen |
r80 |
“6 |
“7 |
“8 |
“p |
x6 |
x7 |
x8 |
x‰ |
cds |
“5 |
x5 |
“80
|
---|
1 |
pub |
0 |
17 |
3 |
25 |
45 |
38 |
7 |
56 |
70.4 |
1307 |
47 |
51 |
92
|
2 |
pmg |
0 |
16 |
9 |
30 |
55 |
29 |
16 |
55 |
48.9 |
1800 |
33 |
38 |
88
|
3 |
ase |
17 |
48 |
55 |
123 |
226 |
21 |
24 |
54 |
42.9 |
8197 |
109 |
31 |
335
|
4 |
mja |
0 |
19 |
3 |
8 |
30 |
63 |
10 |
27 |
32.4 |
1730 |
26 |
46 |
56
|
5 |
ant |
0 |
20 |
5 |
18 |
43 |
47 |
12 |
42 |
26.8 |
3095 |
40 |
48 |
83
|
6 |
eco |
10 |
15 |
6 |
18 |
39 |
38 |
15 |
46 |
23.4 |
4024 |
45 |
48 |
84
|
7 |
ade |
9 |
4 |
17 |
36 |
57 |
7 |
30 |
63 |
22.8 |
4464 |
36 |
35 |
93
|
8 |
rru |
5 |
6 |
13 |
22 |
41 |
15 |
32 |
54 |
19.5 |
3786 |
28 |
38 |
69
|
9 |
cvi |
1 |
7 |
16 |
20 |
43 |
16 |
37 |
47 |
16.1 |
4282 |
25 |
36 |
68
|
10 |
scc |
1 |
9 |
3 |
12 |
24 |
38 |
13 |
50 |
15.5 |
1805 |
3 |
11 |
27
|
11 |
blo |
2 |
1 |
4 |
8 |
13 |
8 |
31 |
62 |
10.2 |
1772 |
3 |
17 |
16
|
12 |
bsu |
4 |
5 |
7 |
5 |
17 |
29 |
41 |
29 |
8.3 |
4215 |
14 |
40 |
31
|
13 |
myr |
0 |
5 |
1 |
5 |
11 |
45 |
9 |
45 |
5.6 |
3555 |
9 |
45 |
20
|
14 |
pmq |
1 |
8 |
5 |
14 |
27 |
30 |
19 |
52 |
5.8 |
7223 |
14 |
33 |
41
|
15 |
mba |
0 |
3 |
3 |
10 |
16 |
19 |
19 |
63 |
5.6 |
3943 |
6 |
27 |
22
|
16 |
rtb |
0 |
0 |
0 |
3 |
3 |
0 |
0 |
100 |
5.0 |
793 |
1 |
25 |
4
|
17 |
abra |
0 |
3 |
0 |
3 |
6 |
50 |
0 |
50 |
4.8 |
1667 |
2 |
25 |
8
|
18 |
cbn |
0 |
5 |
0 |
4 |
9 |
56 |
0 |
44 |
3.6 |
2491 |
0 |
0 |
9
|
19 |
spl |
0 |
1 |
1 |
3 |
5 |
20 |
20 |
60 |
2.8 |
4213 |
7 |
58 |
12
|
20 |
cbei |
0 |
2 |
2 |
3 |
7 |
29 |
29 |
43 |
2.0 |
5622 |
4 |
36 |
11
|
21 |
afn |
1 |
1 |
1 |
0 |
2 |
50 |
50 |
0 |
2.0 |
2039 |
1 |
25 |
3
|
|
total |
51 |
195 |
154 |
370 |
719 |
27 |
21 |
51 |
17.0 |
72023 |
453 |
37 |
1172
|
- Note: Le tableau est construit à partir du tableau détaillé dans le tableur ainsi que les restes des cds-cds négatifs (14.8.21).
- - Classement: Le classement est fait suivant l'ordre décroissant de x6 x7 x8. Il y a ainsi 3 catégories: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 avec x7 quelconque. Chaque catégorie est divisée en x‰ fort, faible et rouge ou incetain. Ainsi le classement indique la couleur, l'ordre, l'effectif de la sous-catégorie et la fourchette du taux de x6.
- - Les forts x‰: Le taux de négatifs discontinus x‰ dépasse pour 8/9 le taux du total, 17.0 et le 9ème fait 16.1‰; 4 taux sont les plus élevés des 21, dépassant les 30‰. Le total de cds ne les impacte pas, il y a 5 grands cds pour 4 petits (inférieurs à 3100). Le taux des fréquences 1-5 varie peu et est très élevé, entre 31 et 51%. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds.
- bleu ordre x6 x8, deux, 47-64: mja 32‰ 1730 ant 27‰ 3095
- v.clair ordre x8 x6 x7, trois, 29-38: pub 70‰ 1 307 pmg 49‰ 1 800 eco 23‰ 4 024
- v.foncé ordre x8 x7 x6, quatre, 7-21: ase 43‰ 8 197 ade 23‰ 4 464 rru 19‰ 3 786 cvi 16‰ 4 282
- - Les faibles x‰: Le taux de négatifs discontinus x‰ ne dépasse pas 7‰ pour 10/12 d'entre eux; blo fait 10‰ et seul scc égale celui du fort cvi; j'ai gardé scc parmi les faibles à cause du faible taux des fréquences 1-5. Le total de cds ne les impacte pas, il y a 6 grands cds pour 6 petits (inférieurs à 2 500). Le taux des fréquences 1-5 varie beaucoup, est impacté par le total de cds; les 6 taux 1-5 les plus petits ont un cds inférieur à 2500; tandis que 5 grands ont un cds supérieur à 3555 et rtb est ambigu du à sa faiblesse en cds. Le taux des "6 par rapport au total des "p n'est impacté ni par le total cds ni par le taux des 1-5. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par le taux des 1-5 en %.
- v.clair ordre x8 x6 x7, trois, 30-45: scc 15‰ 1 805-11 myr 6‰ 3 555-45 pmq 6‰ 7 223-33
- v.foncé ordre x8 x7 x6, cinq, 8-29: blo 10‰ 1 772-17 mba 6‰ 3 943-27 spl 3‰ 4 213-58 cbei 2‰ 5 622-36 bsu 8‰ 4 215-40
- - Les rouges ou incertains, en x‰: Les effectifs sont très faibles d'où les ? pour zéro. Leurs cds ne dépassent pas 2500. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par l'effectif des 1-5.
- bleu ordre x6 x8, trois, 50-56: afn 2‰ 2 039-1 abra 5‰ 1 667-2 cbn 4‰ 2 491-?
- v.clair ordre x8 x6 x7, un ?, 0: rtb 5‰ 793-1
- Coefficient de détermination, moyenne et corrélation des taux des périodiques par rapport au total des cds-cds. Les colonnes ‰. (pour 10 000) sont à faire d'après le tableau ci-joint extrait des discontinus et des continus, x6‰. pour "6/cds des discontinus et c7‰. pour "7/cds pour les continus par exemple. Ainsi le coefficient de détermination R2 (ici multiplié par 1000 et correspond à la progression croissante de 1 à 21 des taux) est nettement à l'avantage d'une exponentielle chez les discontinus avec une différence minimale de 106 points pour x7‰. et plus de 200 points pour les 4 autres; la fonction exponentielle est très prononcée avec une constante de l'exposant a, b*exp(-ax), proche de 0.2. Les variances très élevées des taux vont dans le même sens avec des rapports moyenne/écartype, m/e, inférieurs à l'unité. Chez les continus l'avantage vers la linéarité est très prononcé en comparaison avec les discontinus: R2 linéaire supérieur à celui de l'exponentielle pour c7‰. et c5‰. avec le coefficient a 4 fois inférieur pour c7‰. et 2 fois inférieur pour c5‰.; pour c8‰. et c‰. très grande ressemblance avec x8‰. et x‰. pour le R2 mais les coefficients a sont analogues à ceux de c7‰. et c5‰. militant plutôt pour la linéarité car plus a tend vers zéro plus l'exponentielle tend vers 1+ax [63]; enfin les très faibles variances des taux, m/e entre 1.7 et 3.9 vont dans le même sens. On retrouve ces comportements de l'exponentielle avec les fréquences des intercalaires où -x1 et x'1 correspondent à -a et b avec les mêmes abscisses que les génomes après tri (suite de 1 à 15 ou 25). Cependant le classement des continus en fonction de c‰, pour 1000, (voir cds-cds-cx) avait montré au moins 4 groupes dont un plateau et 2 pentes de progression élevées, une de 7 et l'autre de 37 (voir note) et apparemment cette hétérogénéité est supportée par les c5‰ (pas de classe avec un intrus) et c8‰ (une seule avec blo comme intrus) mais pas par c7‰ (les 4 classes ont au moins un intrus, dans l'ordre, cbei mja (ade eco) abra ). Enfin les fortes corrélations entre 2 colonnes de taux des discontinus et celles très faibles entre les taux des continus confirment respectivement leur parentés à la fonction exponentielle et à la fonction linéaire.
14.8.21 discontinu continu
x6‰. x7‰. x8‰. x5‰. x‰. c7‰. c8‰. c5‰. c‰.
moyenne 32.4 18.2 52.8 69.5 178.3 84.2 427.9 859.9 1398.9
écart 37.6 18.2 53.8 86.6 181.3 22.4 248.2 422.8 592.4
m/e 0.9 1.0 1.0 0.8 1.0 3,9 1,7 2,0 2,4
R2 progrès
droite 753 850 758 687 783 978 793 967 888
exponentiel 980 956 961 969 986 975 941 957 967
a 0.195 0.183 0.165 0.202 0.171 0.043 0.081 0.089 0.065
b 1.98 1.44 5.37 3.75 16.4 50 153 283 629
corrélation, pour coefficient de détermination de 2 colonnes.
5-6 5-7 5-8 6-7 6-8 7-8 5-7 5-8 7-8
788 244 728 154 569 555 37 176 177
Classement des génomes par les fréquences des cds-cds négatifs continusModifier
- Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs continus.
- Légende: voir le tableau des détails dans le tableur ainsi que les restes des cds-cds négatifs.
- Les continus
- - couleurs des continus, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, gras pour très faibles et soulignées pour les extrêmes.
- - c5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs continus.
- - c‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
- - cont, total des continus négatifs
- - r50, reste des continus après la fréquence -50.
- - "6 "7 "8, somme des effectifs continus des fréquences -6 -7 -8 modulo 3 jusqu'à -50.
- - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
- - "p, somme de "6 "7 "8
- - c7 en % somme des effectifs continus de la fréquence -7 modulo3 jusqu'à -50, sur la somme des mêmes sommes -6 -7 -8 modulo 3.
- - c1/c4, en %, rapport de la fréquence -1 sur la fréquence -4 des négatifs continus, tiré du tableau comparaison continu-discontinu
- Les discontinus voir leur chapitre
- - c‰ c5‰ c7‰ c8‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
- - x5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs discontinus.
- - x‰, pour 1000 cds-cds, total des intercalaires négatifs discontinus divisé par cds (total des cds-cds). Pour x5 et x‰ les couleurs sont celles des continus avec le rouge pour les effectifs peu significatifs.
- - x6 en %, somme des effectifs des discontinus de la fréquence -6 modulo 3 jusqu'à -80, sur la somme des mêmes sommes -6 -7 -8 modulo 3. Les couleurs des 3 classes de discontinus basés sur x6, sont dans l'ordre décroissant, bleu (x6 x8 x7), vert clair (x8 x6 x7) et vert foncé (x8 x7 x6).
cds-cds. Intercalaires négatifs. Classements
cds-cds-c. Intercalaires négatifs continus. Classement
gen |
r50 |
cont |
“6 |
“7 |
“8 |
“p |
c8 |
c7 |
“5 |
c5 |
c‰ |
cds
|
---|
cbn |
0 |
167 |
|
23 |
82 |
105 |
78 |
21.9 |
62 |
37 |
67 |
2 491
| cbei |
4 |
389 |
|
32 |
200 |
232 |
86 |
13.8 |
153 |
39 |
69 |
5 622
| mba |
6 |
307 |
7 |
34 |
108 |
149 |
77 |
22.8 |
152 |
50 |
78 |
3 943
| myr |
0 |
282 |
|
22 |
127 |
149 |
85 |
14.8 |
133 |
47 |
79 |
3 555
| pmg |
2 |
158 |
|
10 |
41 |
51 |
80 |
19.6 |
105 |
66 |
88 |
1 800
| mja |
6 |
163 |
|
17 |
62 |
79 |
79 |
21.5 |
78 |
48 |
94 |
1 730
| spl |
5 |
414 |
|
30 |
117 |
147 |
80 |
20.4 |
262 |
63 |
98 |
4 213
| pmq |
16 |
753 |
1 |
44 |
226 |
271 |
84 |
16.2 |
466 |
62 |
104 |
7 223
| blo |
2 |
210 |
1 |
10 |
36 |
47 |
79 |
21.3 |
161 |
77 |
119 |
1 772
| rtb |
0 |
98 |
|
9 |
46 |
55 |
84 |
16.4 |
43 |
44 |
124 |
793
| bsu |
17 |
573 |
|
42 |
209 |
251 |
83 |
16.7 |
305 |
53 |
136 |
4 215
| afn |
9 |
303 |
2 |
20 |
105 |
127 |
84 |
15.7 |
167 |
55 |
149 |
2 039
| ase |
28 |
1300 |
3 |
70 |
145 |
218 |
68 |
32.1 |
1054 |
81 |
158.6 |
8 197
| ade |
9 |
713 |
|
25 |
72 |
97 |
74 |
25.8 |
607 |
85 |
159.7 |
4 464
| eco |
22 |
644 |
|
47 |
152 |
199 |
76 |
23.6 |
423 |
66 |
160.0 |
4 024
| cvi |
4 |
687 |
|
38 |
152 |
190 |
80 |
20.0 |
493 |
72 |
160.4 |
4 282
| rru |
11 |
609 |
|
26 |
97 |
123 |
79 |
21.1 |
475 |
78 |
160.9 |
3 786
| scc |
6 |
319 |
1 |
22 |
95 |
118 |
81 |
18.6 |
195 |
61 |
177 |
1 805
| ant |
6 |
679 |
1 |
33 |
252 |
286 |
89 |
11.5 |
387 |
57 |
219 |
3 095
| abra |
13 |
409 |
|
11 |
174 |
185 |
94 |
5.9 |
211 |
52 |
245 |
1 667
| pub |
3 |
381 |
2 |
14 |
129 |
145 |
90 |
9.7 |
233 |
61 |
292 |
1 307
| total |
169 |
9558 |
18 |
579 |
2627 |
3224 |
82 |
18.0 |
6165 |
64 |
134 |
72 023
| |
cds-cds-cx. Intercalaires négatifs. Classement
gen |
c5‰ |
c7‰ |
c8‰ |
c‰ |
c1/c4 |
cds |
x6 |
x5 |
x‰
|
---|
cbn |
25 |
9.2 |
33 |
67 |
121 |
2 491 |
56 |
0 |
3.6
| cbei |
27 |
5.7 |
36 |
69 |
87 |
5 622 |
29 |
36 |
2.0
| mba |
39 |
8.6 |
27 |
78 |
28 |
3555 |
19 |
27 |
5.6
| myr |
37 |
6.2 |
36 |
79 |
118 |
3943 |
45 |
45 |
5.6
| pmg |
58 |
5.6 |
23 |
88 |
52 |
1 800 |
29 |
38 |
48.9
| mja |
45 |
9.8 |
36 |
94 |
49 |
1 730 |
63 |
46 |
32.4
| spl |
62 |
7.1 |
28 |
98 |
93 |
4213 |
20 |
58 |
2.8
| pmq |
65 |
6.1 |
31 |
104 |
21 |
7 223 |
30 |
33 |
5.8
| blo |
91 |
5.6 |
20 |
119 |
48 |
1 772 |
8 |
17 |
10.2
| rtb |
54 |
11.3 |
58 |
124 |
30 |
793 |
0 |
25 |
5.0
| bsu |
72 |
10.0 |
50 |
136 |
31 |
4215 |
29 |
40 |
8.3
| afn |
82 |
9.8 |
51 |
149 |
29 |
2 039 |
50 |
25 |
2.0
| ase |
129 |
8.5 |
18 |
158.6 |
19 |
8 197 |
21 |
31 |
42.9
| ade |
136 |
5.6 |
16 |
159.7 |
13 |
4464 |
7 |
35 |
22.8
| eco |
105 |
11.7 |
38 |
160.0 |
63 |
4024 |
38 |
48 |
23.4
| cvi |
115 |
8.9 |
35 |
160.4 |
31 |
3786 |
16 |
36 |
16.1
| rru |
125 |
6.9 |
26 |
160.9 |
21 |
4282 |
15 |
38 |
19.5
| scc |
108 |
12.2 |
53 |
177 |
25 |
1 805 |
38 |
11 |
15.5
| ant |
125 |
10.7 |
81 |
219 |
74 |
3095 |
47 |
48 |
26.8
| abra |
127 |
6.6 |
104 |
245 |
48 |
1 667 |
50 |
25 |
4.8
| pub |
178 |
10.7 |
99 |
292 |
190 |
1 307 |
38 |
51 |
70.4
| total |
86 |
8.0 |
36 |
134 |
37 |
72023 |
27 |
37 |
17.0
| |
- Note: voir la note des discontinus seuls. Ici les couleurs ont été harmonisées pour le tri et pour comparer rapidement 2 génomes: jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, en gras pour très faibles et soulignées pour les extrêmes.
- - Les négatifs continus se distinguent des discontinus par 3 points essentiels:
- Le taux des intercalaires, voir le petit tableau en bas de cette note.
- - c‰: La courbe de détermination des négatifs continus triés est une droite à forte pente de 9. Elle a un palier à pente nul de 5 génomes avec un taux de 160 ‰. Ce palier sépare une queue de 12 génomes avec une droite de pente 7 (R2 99), d'une tête de 4 génomes de pente 37 (R2 97). Les cds ne semblent pas impacter ce taux, la queue a 6 faibles cds contre 6 forts, le palier est un palier aussi pour 4 cds moyens et le 5ème fort extrême, la tête de la courbe a un cds moyen pour 3 faibles. Les c5 impactent différemment les 3 parties, les 4 1ers c‰ de la queue semblent être corrélés positivement aux c5 alors que la tête est corrélée négativement, le palier est aussi un palier c5 et les 8 génomes restant ne semblent pas être corrélés entre eux.
- - x‰: La courbe de détermination des négatifs discontinus triés est une exponentielle nette et régulière. J'ai détaillé ses fréquences dans le chapitre précédent. La fonction exponentielle dénote la difficulté physique d’établir la discontinuité entre 2 cds, on passe d'un état vibratoire à l'autre en les chevauchant. Les intercalaires négatifs continus répondent, eux, à une logique fonctionnelle, le chevauchement ne peut pas être à l'identique (0 modulo 3) sinon on tombe dans les domaines protéiques communs à plusieurs gènes et qui ont un rôle fonctionnel; le chevauchement doit être décalé (-1 -2 modulo 3) et c'est pour cela qu'on n'a que rarement des -6 modulo 3 ("6).
- Les intercalaires de -1 à -5: voir le petit tableau en bas de cette note et les fréquences périodiques. Ces intercalaires ont une moyenne de 60% et 33% par rapport au total respectivement des continus et des discontinus négatifs, avec des écarts identiques faibles. Ceci s'explique par la difficulté des discontinus à s'ancrer avec une seule paire de bases, ils n'ont aucun intercalaire de ce genre, alors qu'il y en a 17% chez les continus (le rapport c1/c4 ne concerne donc que les continus et varie beaucoup d'un génome à l'autre). Par contre les discontinus ont un taux de fréquence -2 équivalent à celui de -8 comme s'ils initialisaient cette périodicité, alors que les continus malgré qu'ils soient 10 fois plus nombreux n'en présentent que 4 et pour le seul génome bsu.
- Les intercalaires périodiques - 6 -7 -8 modulo 3
- - "6 continu (voir le tableur): cas de mba avec 7 occurrences 1 pour 9 27 et 5 pour 18. Au total les continus ont 26 occurrences jusqu'à -50 et 5 sur les 179 restants avec eco (66 75) ase (51 57) et mba (51) pour les occurrences inférieures à 140. Pour les discontinus, les 6 modulo 3 apparaissent régulièrement, ainsi pour ase il y a 7 au-delà de -80 jusqu'à une occurrence de -120 soit 40 aas! De même pour eco 2 occurrences après -80, 102 129 avant les plus grands; de même bsu a une occurrence à 93, mais ade qui a 9 au-delà de -80 n'en a pas. Jusqu'à -50 il y a 171 discontinus et 13 de -51 à -80.
- - Les rapports entre les périodiques "6 "7 "8: Chez les continus ils sont complémentaires puisque "6 est quasi nul (26 contre 171 chez les discontinus). Ils sont très homogènes (m/e de 3.2 et 14 respectivement et un R2 de 91) avec une pente de progression de 0.89 contre 2.15 et 2.70 pour les discontinus. Ces pentes fortes et leur faible homogénéité (m/e 1.7 1.4 2.6 pour "6 "7 "8 respectivement et un R2 des "8 de 79) rapprochent les discontinus des courbes exponentielles en pourcentage du total.
- - Les pourcentages par rapport au total des cds: Dans cette comparaison on retrouve l'homogénéité des continus avec un m/e entre 1.7 et 3.9 et l'hétérogénéité des discontinus avec un m/e inférieur à 1.0. Par contre les courbes de tendance de progression des discontinus sont nettement exponentielles (R2 de la droite très inférieur à celui de l'exponentielle sauf pour x7‰) alors que celles des continus sont nettement linéaires (R2 de la droite supérieur ou presque égale à celui de l'exponentielle). Cette tendance à l'exponentielle explique la corrélation forte, comparaison entre 2 à 2 colonnes, chez les discontinus (80 76 58 54 27 15) et très faible chez les continus (5 15 18) où la corrélation entre ces derniers est réduite à leurs différences de pente. Il ne faut confondre l'exponentielle des fréquences qui est fonction de la longueur des recouvrements valable pour les continus et les discontinus, des tendances des génomes qui reflètent chez les continus la facilité à établir le recouvrement et sa difficulté chez les discontinus.
- - Le classement des continus voir en bas du chapitre: Les classes sont ordonnées sur le taux par rapport au total c‰. Il est suivi de /pas pour l'écart entre 2 taux successifs, ça correspond à la pente que j'ai signalé au paragraphe ci-dessus c‰. On remarque le palier de 5 génomes avec un /pas de 1. Il y a ainsi 5 classes dont 4 sont quasiment des paliers et la dernière avec une pente très forte. Les colonnes c5 et c7 présentent une plage avec éventuellement une exception après la virgule. Cette exception ne s'écarte réellement de l'homogénéité que dans 2 cas sur 5 pour c5 dans les classes 3 (43-55,76) et 5 (6-12,18). Cette écart est du à l'hétérogénéité du c1/c4. La colonne cds montre clairement que les cds n'impactent pas l'homogénéité d'une classe tant l'écart dans une classe est très grand. Le classement des 21 génomes en continu et discontinu (2ème tableau) montre la différence entre les 2 types de négatifs: dans chaque classe de continus il y a au moins 2 classes de discontinus sur les 3, v.clair v.foncé et bleu. Le palier de 5 en continus a 4 v.foncés et 1 v.clair, ce qui confirme sa grande homogénéité en plus de ses 4 cds.
- - Les caractéristiques communes aux continu-discontinu: Voir le récapitulatif en fin de chapitre.
- + Ces 2 types d'intercalaires ont en commun la périodicité modulo 3 des occurrences -6 -7 -8, les occurrences uniques -3 -4 -5 et les taux de ces occurrences cumulées pour -8 (respectivement continu discontinu 28 32 %), pour -4 (respectivement continu discontinu 47 34 %) et enfin -3 et -5 qui sont quasiment nulles.
- + Ils diffèrent par les taux des occurrences cumulées des -6 d'un facteur 50 (respectivement continu discontinu 0.3 17 %), des occurrences cumulées -7 d'un facteur 2 (respectivement continu discontinu 6.8 13 %), des occurrences -1 (respectivement continu discontinu 17 0 %) et des occurrences -2 (respectivement continu discontinu 0 3.5 %) et enfin ils diffèrent par les totaux des effectifs d'un facteur 10 (respectivement continu discontinu 9644 1144).
- + Une caractéristique commune entre les 2 types d'intercalaires apparaît après une analyse approfondie de la corrélation entre -7 et -8: Le taux moyen en % des continus, c7, ("7)/("7+"8) et celui des discontinus, x7, ("7)/("6+"7+"8) sont équivalents 18.6% contre 19.2%. Certes les c7 sont plus beaucoup plus homogènes (m/e de 3.2) que les x7 (m/e de 1.4) mais ceci est du au fait que les taux individuels en (‰.) par rapport au total des cds des c7 ont une progression linéaire alors que les x7 ont une progression exponentielle. Et la corrélation entre les taux individuels x7-x8 est forte avec un coefficient de détermination de 0.54. C'est comme si, quelque soit la longueur de l'intercalaire, le taux "7/"8 était toujours le même. Ce rapport commun aux 2 types d'intercalaires renforce l'idée que la périodicité commune aux deux est un processus lié aux propriétés physiques de l'ADN et non aux fonctionnalités des 2 cds. Les corrélations fortes chez les discontinus, 5-6 (0.80) 5-8 (0.76) 6-8 (0.58) vont aussi dans ce sens grâce aux coefficients de détermination de leurs courbes exponentielles de progression listés dans le même tableau. Chez les continus les corrélations sont très faibles parce que leurs moyennes sont très homogènes ou autrement dit leurs taux sont presque constants. Ce qui va toujours dans le même sens de la propriété physique de l'ADN pour 2 processus différents, un linéaire pour les continus et l'autre exponentiel pour les discontinus.
- Les taux entre périodiques: Les calculs sont faits à partir du tableau des continus. Comme c7 et c8 sont complémentaires ils ont même ecartype, même pente et même R2. Avec une moyenne de 81.5 (100-18.5) c8 obtient donc un m/e de 14.
14.8.21 c5 c7 c‰ x5 x6 x7 x8 x‰
moyenne 59,7 18,6 140,9 34,0 30,8 19,6 49,6 17,8
ecart 13,4 5,9 59,5 14,0 17,2 13,9 18,5 18,1
m/e 4,4 3,2 2,4 2,4 1,8 1,4 2,7 1,0
a 2,16 0,88 9 2,17 2,74 2,19 2,55 x0,17
b 35,9 8,82 40,91 10,17 0,62 -4,47 21,46 1,64
r2 98 91 89 92 98 96 74 99
pal 5 pal 5 expo
- Les classes des continus,14.8.21
classe c‰ /pas c5 c7 cds
cbn cbei mba myr: 67-79 /3 37-50 14-23 2 491 - 5 622
pmg mja spl pmq: 88-104 /4 62-66,48 16-21 1 730 - 7 223
blo rtb bsu afn: 119-149 /7 44-55,77 16-21 793 - 4 215
eco ade rru cvi ase: 159-161 /1 72-85,66 20-26,32 3 786 - 8 197
scc ant abra pub: 177-292 /29 52-61 6-12,19 1 307 - 3 095
- Récapitulatif continus discontinus du 14.8.21: Les compilations sont tirées des -50 des continus, des -80 des discontinus et les occurrences négatives supérieures à 130 dans les restes. Période: "6 "7 "8 pour les -6 -7 -8 modulo 3; 1,2 pour -1 -2; 4 pour -4; et 3,5 pour -3 et -5; reste pour les occurrences négatives supérieures à 130.
période cont % discont %
6 20 0.21 209 17.09
7 644 6.74 166 13.57
8 2714 28.4 389 31.8
reste 15 0.16 6 0.49
1 1671 17.5 0 0
2 4 0.04 40 3.27
3,5 14 0.15 3 0.25
4 4476 46.8 410 33.5
total 9558 100 1223 100
Les fréquences des intercalaires positifs cds-cdsModifier
Les fréquences des intercalaires positifs cds-cds. Diagrammes 400Modifier
- Lien tableur: Les fréquences des intercalaires positifs cds-cds. Diagrammes 400.
- Légende: Ces tableaux sont suivis par les corrélations et fréquences faibles, cds-cds.31 et cds-cds.32.
- - gen: pour génome. Le 1er tableau cds-cds.11 pointe sur le génome au chapitre "gen intercalaires positifs S+". Au lien du tableur de ce dernier se trouvent les effectifs, dont eff eff3 teff de ces diagrammes 400. Le total eff représente le total de la fréquence 1 à 400 (cds-cds.11 et 21), eff3 de 31 à 400 (cds-cds.12 et 22) et de 51 à 400 pour bsu (colonne f3, tF51) et teff le total du génome, positifs, zéros et négatifs compris. Le total teff est la somme des 2 colonnes x et c du tableau cds-cds.32 sous la rubrique teff. Le x+ correspond aux diagrammes des discontinus et le c+ aux continus. La colonne "gen de cds-cds.11" pointe sur la fiche du génome pour ses diagrammes. La colonne "gen de cds-cds.12" pointe sur ses diagrammes. Sur les diagrammes sont indiqués eff et eff3.
- - Pour la construction des diagrammes et leurs symboles, -7 -5 R2 flex R2’ f3, pour les corrélations du tableau cds-cds.31 et les fréquences faibles du tableau cds-cds.32, voir la légende de cvi.
- - m50x: Les polynômes Sx+ présentent soit un maximum (max) soit un minimum (min) à l'abscisse 50 (ou bien proches de 50,40 60) soit ni l'un ni l'autre et ils paraissent réguliers.
- - m50c: comme m50x mais ce sont tous des minima.
- - f3: c'est la forme de la courbe du polynôme. Quand le coefficient de la variable x3 est négatif (colonne -7) la courbe a la forme d'un S majuscule, d'abord concave ensuite convexe. Quand ce coefficient est positif la forme est un tilde (t), convexe puis concave. Si la forme f3 est nette avec un R2' élevé, elle est suivie de F pour fort, de m si R2' est moyen et de f si R2' est faible.
- - clx+: c'est le classement des génomes à partir du tableau cds-cds.11, d'abord avec R2' puis f3. Dans la classe a les génomes ont un minimum et de forme S. Dans la classe b les génomes sont réguliers et de forme tilde. Dans la classe c les génomes ont un mmaximum et de forme tilde sauf pour bsu dont la forme Sf (R2' 18) très faible peut être confondue avec un tilde. Ce classement est reporté tel quel dans les autres tableaux.
cds-cds-d. Diagrammes 400 des intercalaires cds-cds.
cds-cds.11 Intercalaires positifs discontinus. Fréquences Sx+ 1-400
|
|
Polynome de d°3 |
|
|
|
|
---|
gen |
m50x |
-7 |
-5 |
R2 |
flex x+ |
R2’ |
eff |
f3 |
clx+
|
---|
rru |
min 50 |
-13 |
90 |
818 |
231 |
20 |
874 |
Sf |
6 b1
| rtb |
max 80 |
45 |
-332 |
496 |
246 |
191 |
118 |
tF |
14 c3
| pub |
min 20 |
-58 |
495 |
853 |
284 |
249 |
218 |
SF |
1 a1
| cvi |
max 70 |
29 |
-174 |
611 |
200 |
30 |
1008 |
tf |
8 b2
| ade |
min 50 |
-20 |
145 |
782 |
242 |
39 |
1229 |
Sf |
5 b1
| ant |
min 50 |
-25 |
209 |
680 |
279 |
70 |
601 |
Sm |
4 a2
| eco |
max 50 |
22 |
-151 |
532 |
230 |
43 |
1003 |
tm |
11 c2
| spl |
max 80 |
47 |
-333 |
611 |
236 |
336 |
1071 |
tF |
16 c5
| bsu |
max 40 |
-6.4 |
69 |
458 |
359 |
18 |
1028 |
Sf |
9 c1
| pmq |
régulier |
31 |
-283 |
878 |
304 |
813 |
1614 |
tF |
19 d2
| cbn |
max 50 |
16 |
-109 |
454 |
227 |
27 |
489 |
tf |
10 c1
| cbei |
régulier |
32 |
-258 |
712 |
269 |
708 |
946 |
tF |
18 d2
| afn |
max 4-14 |
29 |
-227 |
486 |
261 |
183 |
328 |
tF |
15 c4
| ase |
max 70 |
19 |
-108 |
872 |
189 |
25 |
2398 |
tf |
7 b2
| blo |
régulier |
33 |
-233 |
728 |
235 |
138 |
448 |
tF |
21 d3
| mja |
min 50 |
-16 |
150 |
660 |
313 |
78 |
406 |
Sm |
3 a2
| mba |
régulier |
4.9 |
-71 |
350 |
483 |
348 |
705 |
tF |
17 d1
| myr |
max 70 |
33 |
-213 |
708 |
215 |
68 |
828 |
tm |
12 c2
| pmg |
min 40 |
-67 |
515 |
607 |
256 |
179 |
559 |
SF |
2 a1
| abra |
max 50 |
53 |
-314 |
734 |
197 |
96 |
256 |
tF |
13 c3
| scc |
régulier |
30 |
-200 |
690 |
222 |
71 |
416 |
tm |
20 d3
| |
cds-cds.21 Intercalaires positifs continus. Fréquences Sc+ 1-400
|
|
Polynome de d°3 |
|
|
|
---|
gen |
m50c |
-7 |
-5 |
R2 |
flex c+ |
R2’ |
eff |
clx+
|
---|
rru |
50 |
-34 |
275 |
878 |
270 |
139 |
2056 |
6 b1
| rtb |
50 |
-36 |
279 |
569 |
258 |
82 Sm |
402 |
14 c3
| pub |
50 |
-236 |
1732 |
559 |
245 |
338 |
537 |
1 a1
| cvi |
50 |
-44 |
372 |
852 |
282 |
203 |
2320 |
8 b2
| ade |
50 |
-61 |
489 |
843 |
267 |
232 |
2242 |
5 b1
| ant |
40 |
-135 |
1021 |
664 |
252 |
306 |
1616 |
4 a2
| eco |
50 |
-74 |
565 |
805 |
255 |
265 |
2130 |
11 c2
| spl |
50 |
-47 |
363 |
806 |
257 |
192 |
2215 |
16 c5
| bsu |
50 |
-41 |
352 |
790 |
286 |
173 |
2444 |
9 c1
| pmq |
70 |
-29 |
229 |
946 |
263 |
140 |
4164 |
19 d2
| cbn |
50 |
-50 |
394 |
855 |
263 |
203 |
1701 |
10 c1
| cbei |
50 |
-46 |
338 |
779 |
245 |
213 |
3399 |
18 d2
| afn |
50 |
-95 |
712 |
722 |
250 |
297 |
1323 |
15 c4
| ase |
50 |
-43 |
352 |
910 |
273 |
216 |
3558 |
7 b2
| blo |
40 |
-5.7 |
69 |
868 |
404 |
41 Sf |
993 |
21 d3
| mja |
50 |
-94 |
719 |
856 |
255 |
319 |
1047 |
3 a2
| mba |
50 |
-50 |
359 |
823 |
239 |
287 |
1651 |
17 d1
| myr |
50 |
-94 |
717 |
742 |
254 |
290 |
2081 |
12 c2
| pmg |
60 |
-107 |
844 |
869 |
263 |
368 |
895 |
2 a1
| abra |
60 |
-99 |
750 |
702 |
253 |
277 |
934 |
13 c3
| scc |
60 |
-86 |
660 |
830 |
256 |
331 |
961 |
20 d3
| |
cds-cds.12 Intercalaires positifs discontinus. Fréquences Sx+ 31-400
|
|
Polynome de d°3 |
|
|
|
|
---|
gen |
teff |
-7 |
-5 |
R2 |
flex x+ |
R2’ |
eff3 |
f3 |
clx+
|
---|
rru |
3786 |
12 |
-97 |
833 |
269 |
36 |
726 |
tf |
6 b1
| rtb |
793 |
|
|
|
|
|
|
|
14 c3
| pub |
1307 |
-49 |
437 |
918 |
297 |
256 |
149 |
SF |
1 a1
| cvi |
4282 |
|
|
|
|
|
|
|
8 b2
| ade |
4464 |
32 |
-228 |
874 |
238 |
67 |
958 |
tm |
5 b1
| ant |
3095 |
60 |
-400 |
785 |
222 |
112 |
432 |
tF |
4 a2
| eco |
4024 |
|
|
|
|
|
|
|
11 c2
| spl |
4213 |
|
|
|
|
|
|
|
16 c5
| bsu |
4216 |
48 |
-359 |
861 |
249 |
167 |
645 |
tF 51 |
9 c1
| pmq |
7223 |
|
|
|
|
|
|
|
19 d2
| cbn |
2493 |
|
|
|
|
|
|
|
10 c1
| cbei |
5623 |
|
|
|
|
|
|
|
18 d2
| afn |
2039 |
|
|
|
|
|
|
|
15 c4
| ase |
8197 |
|
|
|
|
|
|
|
7 b2
| blo |
1773 |
|
|
|
|
|
|
|
21 d3
| mja |
1729 |
47 |
-300 |
711 |
213 |
88 |
309 |
tF |
3 a2
| mba |
3943 |
|
|
|
|
|
|
|
17 d1
| myr |
3555 |
|
|
|
|
|
|
|
12 c2
| pmg |
1800 |
23 |
-124 |
774 |
180 |
48 |
377 |
tm |
2 a1
| abra |
1667 |
|
|
|
|
|
|
|
13 c3
| scc |
1805 |
|
|
|
|
|
|
|
20 d3
| |
cds-cds.22 Intercalaires positifs continus. Fréquences Sc+ 31-400
|
|
Polynome de d°3 |
|
|
|
---|
gen |
f3 |
-7 |
-5 |
R2 |
flex c+ |
R2’ |
eff3 |
clx+
|
---|
rru |
tm |
13 |
-61 |
957 |
156 |
41 |
1509 |
6 b1
| rtb |
tF |
70 |
-478 |
788 |
228 |
190 |
284 |
14 c3
| pub |
SF |
-48 |
403 |
945 |
280 |
365 |
200 |
1 a1
| cvi |
tF |
5.3 |
22 |
915 |
-138 |
107 |
1621 |
8 b2
| ade |
tF |
2.5 |
38 |
957 |
-507 |
103 |
1490 |
5 b1
| ant |
tF |
4.8 |
28 |
888 |
-194 |
142 |
833 |
4 a2
| eco |
tm |
7.6 |
-18 |
934 |
79 |
61 |
1389 |
11 c2
| spl |
tf |
10.3 |
-50 |
915 |
162 |
30 |
1618 |
16 c5
| bsu |
tF |
12 |
-27 |
954 |
75 |
104 |
1424 |
9 c1
| pmq |
Sm |
-13 |
112 |
937 |
287 |
51 |
3257 |
19 d2
| cbn |
tm |
8.8 |
-32 |
932 |
121 |
41 |
1171 |
10 c1
| cbei |
Sf |
-13 |
15 |
935 |
38 |
8 |
2571 |
18 d2
| afn |
tm |
9.5 |
-42 |
904 |
147 |
45 |
791 |
15 c4
| ase |
SF |
-18 |
182 |
976 |
337 |
149 |
2619 |
7 b2
| blo |
tf |
28 |
-174 |
897 |
207 |
36 |
786 |
21 d3
| mja |
SF |
-6.2 |
87 |
964 |
468 |
105 |
623 |
3 a2
| mba |
SF |
-6.7 |
100 |
789 |
495 |
209 |
2156 |
17 d1
| myr |
tF |
7.8 |
-12 |
897 |
51 |
86 |
1265 |
12 c2
| pmg |
SF |
-35 |
327 |
973 |
311 |
286 |
510 |
2 a1
| abra |
tF |
21 |
-104 |
912 |
165 |
85 |
548 |
13 c3
| scc |
SF |
-17 |
162 |
949 |
318 |
162 |
622 |
20 d3
| |
- Diagrammes 400 note: Cette note analyse le tableau des diagrammes 400 et son annexe des corrélations et faibles fréquences.
- Classement: J’ai classé les 21 génomes suivant la pente des fréquences faibles des x+ de 1 à 30 pbs et suivant la forme de leurs diagrammes après la fréquence 30. J'ai obenu 4 groupes a b c d.
- Le groupe a: La pente des fréquences faibles est fortement négative et aboutit au minimum local d'abscisse 40 50. Il n'y a pas de maximum local supérieur à celui des faibles fréquences au-delà de ce minmum. La forme des 4 polynomes de d°3 sont tous de forme S, de force supérieure à 70, égale à la différence R2', R2 polynome moins R2 droite. Ce sont les génomes pub pmg mja ant. Les 2 1ers sont de forme S forte et les autres de forme S moyenne. Les génomes mja et ant ont un maximum à la fréquence 10 avec les taux respectifs de 121 et 136 ‰ et le maximum local à la fréquence 90 avec respectivement 69 et 58 ‰. Leur taux total des 1-30 ‰ sont respectivement 239 et 281 ‰ bien plus faibles que ceux de pub et pmg avec 317 et 326.
- Le groupe b: Ce sont dans l'ordre ade rru ase cvi. Ils présentent tous un minimum local vers 40-50 après une forte pente négatve comme le groupe a. Je les présentent ici comme mja et ant, fréquence du maximum des faibles suivie de son taux puis fréquence du maximum local au-delà du minimum des faibles suivie de son taux puis total du taux des faibles (1-30‰) puis la forme S ou tilde du diagramme suivi de sa force:
- - groupe a2, mja 10-121 90-69 239 Sm78, ant 10-136 90-58 281 Sm70.
- - groupe b1, ade 20-85 80-48 221 Sf39, rru 30-58 110-43 169 Sf20.
- - groupe b2, ase 10-59 70-57 135 tf25, cvi 10-62 70-91 112 tf30.
- + Note: dans la colonne m50x j'ai mis un minimum pour les b1 qui correspond au local 40-50 et un maximum pour les b2 qui ont aussi un minimum local à 40-50 mais leur maximum à 70 dépasse ou égalise celui des faibles. Ensuite les b2 changent de forme en passant du Sf des b1 au tf. Les formes faibles peuvent être rassemblées parce que très proches les unes des autres, il suffit d'un petit changement dans les effectifs pour passer de l'une à l'autre.
- Le groupe c: Ils sont caractérisés par un taux 1-30 ‰ très faible, inférieur à 71 ou par une pente positive des faibles, comme bsu et abra, quand le taux est élevé respectivement, 140 et 94 ‰. A ces taux très bas des fréquences faibles sont associés des pyramides à 3 ou 4 fréquences supérieures ou égales à 40 avec des taux maximum. Le groupe c est classé par la forme du diagramme dans l'ordre croissant Sf tf tm tF et non par la différence R2' entre le R2 du polynome et le R2 de la droite. R2' n'est pas adéquat pour ordonner la totalité des 21 génomes car il ne peut distinguer entre une forme S et une forme t, il ne représente que la force de la forme. Ainsi les ruptures naturelles apparaissent quand on change de forme, entre rru Sf et ase tf, entre cvi tf et bsu Sf et entre pmq tF et scc tm. Dans ce dernier cas la rupture est due au changement du classement de scc et blo (en gras) basé sur le taux élevé des fréquences faibles, 1-30 ‰, au lieu d'être nul comme pour les autres de la classe d. J'interprête scc et blo comme ayant leur pyramide à la fréquence 20, cad que les fréquences 10 et 30 ont des taux élevés aussi, ce qui les rend aussi réguliers comme mba cbei pmq. J'ai provoqué volontairement une seule rupture, celle entre rtb et afn, qui sont tous les 2 tF, mais afn se distingue par 2 pyramides au lieu d'une seule.
- - groupe c1, bsu cbn. Pyramide à 40 et 50. Taux 1-30 ‰ fort pour bsu à 140 mais avec une pente des 1-30 positive, taux faible pour cbn à 65 ‰. Le R2' est très faible, respectivement 18 Sf et 27 tf.
- - groupe c2, eco myr. Pyramide à 50 et 70. Taux 1-30 ‰ faibles 63 et 71 ‰. Le R2' est moyen, tm, respectivement 43 et 68.
- - groupe c3, abra rtb. Pyramide à 50 et 80. Taux 1-30 ‰ fort pour abra à 94 mais avec une pente des 1-30 positive, taux faible pour rtb à 51 ‰. Le R2' est fort, tF, respectivement 96 et 191.
- - c4 afn. Caractérisé par 2 pyramides à 40 et 140 au taux de 64 ‰ alternant avec 2 trous à 70 et 180 avec des taux très faibles, respectivement 15 et 6 ‰. Taux 1-30 ‰ faible 46 et R2' fort tF de 193.
- - c5 spl. Caractérisé par une pyramide à 80 et une forme régulière comme le groupe d puisque le passage de la fréquence 30 à 80 se fait doucement au contraire de tous les autres génomes du groupe c. Taux 1-30 ‰ faible 37 et un R2' le plus fort du groupe, tF, de 336 juste avant le 348 de mba du groupe d régulier, ce qui confirme sa régularité.
- Le groupe d: se caractérise par une abscence de pyramide et une progression lente de la fréquence 10 à la fréquence du maximum.
- - d1 mba. Il se caractérise par des déterminants du polynome et de la droite très faibles, 350 et 2, d'où le R2' de 348. Ceci est du au reste très élevé des effectifs au-delà de 400, 527 contre 705 pour 1-400. Le diagramme de 1 à 600 donne des valeurs plus conséquentes, respectivement, 465 156 309, avec un reste de 295 contre 937 pour 1-600. Ce dernier diagramme améliore le point d'inflexion qui devient normal avec un effectif de 354 pour 4823 sur 1-400. Le génome associe une forme tilde forte de 309, qui dénote sa régularité, tout en ayant un R2 très faible de 465 qui dénote une grande variabilité au contraire de cbei, qui a aussi un reste élevé au-delà de la fréquence 400, mais un R2' de 708 et un R2 de 712 sur 1-400 et 783 sur 1-600. Taux 1-30 ‰ faible de 45 seulement.
- - groupe d2, cbei pmq. Ils vont de pair, clostridia bacilli, comme pour le groupe c1 de cbn bsu, mêmes clades. Ces 2 paires se distinguent par leurs effectifs doubles en d2 par rapport à c1, respectivement, 946 1614 contre 489 1028. Alors que les c1 ont une pyramide chacun, les d2 n'en ont pas et sont réguliers avec des R2 élevés 712 878 contre 454 458. De même pour R2' qui passent de tF 708 813 à tf 27 pour cbn et Sf 18 pour bsu. Mais les taux 1-30 ‰ sont tous faibles sauf pour bsu qui a une pente positive, respectivement, 26 32 et 65 140.
- - groupe d3, scc blo. J'ai regroupé ces 2 génomes avec le groupe d à cause de leur régularité mais leurs taux 1-30 ‰ sont forts 118 89, non pas à cause d'une pente positive comme bsu et abra, mais parce que blo a une pyramide à 10 et scc à 30. C'est ce qui donne l'impression de régularité avec un R2 moyen, 690 728, malgré un R2' faible pour scc, tm 71 et fort pour blo, tF 138.
- mnemo
- - forme: Classement par la forme de la courbe, à la place du classement génomique par la pente a37 de la droite. L'utilisation du polynôme de d°3 sert à repérer un renflement après le minimum local des diagrammes c+ 1-400. J'obtiens alors les diagrammes c+ 31-400 que je peux comparer à ceux de x+ 31-400. Les diagrammes c+ 40 montrent la préférence de certaines longueurs autour de 12 pbs pour les contrôles des gènes. C'est dans les diagrammes 31-400 qu'on peut deviner qu'il y a d'autres séquences privilégiées pour d'autres types de contrôle, cela se présente par des pointes au niveau des renflements mais ne désigne pas une fréquence déterminée parce que les abscisses sont des plages de 10 fréquences.
- + détailler chaque classe et comparer les classes.
- - formes du tableau 22, c+31-400: Les c+1-400 sont toutes S, sur ce tableau 8 conservent cette forme, mja pmg pub scc mba pmq ase et cbei avec un R2' de 8, les 13 autres génomes sont de forme tilde. Le taux des x+ sont nettement améliorés dans les diagrammes 31-400 par rapport à celui des 1-400. Et avec la forme tilde chez 13/21 de 31-400, ceci montre que c+ apporte aussi des renflements comme les x+.
- - Le classement effectué lors de l'étude des pentes a37 et fait sur les 3 critères suivants:
- + in%, %positifs/total ADN
- + moy, moyenne des fréquences sur 0-200
- + rap, rapport des totaux des fréquences 10-370/0-100
- + a donné l'équivalent des classes a b c d des formes x+1-400, suivant l'ordre du critère moy: à la classe inférieure de a37, pub pmg ant mja correspond la classe a, pub pmg ant mja; à la classe supérieure de a37, myr rtb spl - cbei mba blo pmq, correspondent les classes c - d, myr rtb spl - mba cbei pmq blo; à la classe intermédiaire de a37, rru ase cvi ade - eco bsu cbn afn - scc, correspondent, respectivement, la classe b ade rru ase cvi, la classe c bsu cbn eco afn et la classe d avec scc.
- - bornes: pourquoi la plage de 1 à 400, alors que j'ai étudié 1 à 600 pour les courbes puissances, 1 à 370 pour le classement génomique? Au delà de 400 le profile ne change pas et 400 est la plupart du temps un intercalaire cds-rRNA23.
- - statistiques: Les diagrammes 400 ne cherchent pas à définir une statistique mais juste à nommer et comparer 2 génomes avec le signe du coefficient de x3 (forme S ou tilde), R2' obtenu en faisant la différence de R2 du polynôme avec celui de la droite et enfin le point d'inflexion du polynôme. Les diagrammes d'un génome reflète une organisation de l'ADN qui devrait restée la même de génération en génération. Ceci est à confirmer en analysant plusieurs séquençages puisque j’ai pu constater avec bsu et lmo que les intercalaires entre gènes de tRNA varient beaucoup entre les 2 génomes alors que les clusters des gènes rRNA et tRNA ont la même configuration.
- - corrélations: Une forte corrélation c+/x+ indique que le changement de brin pour constituer le complément ne modifie la longueur des intercalaires, une corrélation nulle qu'il y a beaucoup de modifications et une corrélation fortement négative que le processus de changement de brin prélève un intercalaire cds-cds en continu et le met en discontinu.
- - Conséquences pour les clusters rRNA-tRNA, intercalaires tRNA-cds et cds-rRNA23
- - au départ les cumuls des intercalaires tRNA-cds par génome, et recherche de cds intra cluster rRNA-tRNA.
- - comparaison entre 2 génomes semblables: rru ade rtb cvi pub seul cvi ase ade pmg ant ade eco cbn spl myr bsu eco pmq cbei cbn cvi cbei afn afn rtb ase pmg blo abra mja pmg mba cbei myr abra pmg pub abra pmg scc ase.
Les fréquences des intercalaires positifs cds-cds. Corrélations 400 et faibles fréquencesModifier
- Lien tableur: Les fréquences des intercalaires positifs cds-cds. Corrélations 400 et faibles fréquences.
- Légende: ces tableaux sont la suite de ceux des diagrammes 400, cds-cds.11 12 21 22.
- - gen: pour génome. Le 1er tableau cds-cds.31 pointe sur le génome au chapitre "gen intercalaires positifs S+". Au lien du tableur de ce dernier se trouvent les effectifs, dont eff eff3 teff de ces diagrammes 400. Le total eff représente le total de la fréquence 1 à 400 (cds-cds.11 et 21), eff3 de 31 à 400 (cds-cds.12 et 22) et de 51 à 400 pour bsu (colonne f3, tF51) et teff le total du génome, positifs, zéros et négatifs compris. Le total teff est la somme des 2 colonnes x et c du tableau cds-cds.32 sous la rubrique teff. Le x+ correspond aux diagrammes des discontinus et le c+ aux continus. La colonne "gen de cds-cds.11" pointe sur la fiche du génome pour ses diagrammes. La colonne "gen de cds-cds.32" pointe sur son diagramme 40 de la fréquence 1 à 40, voir le tableau synthétique des diagrammes 40 des cds-cds positifs continus.
- - pour les corrélations du tableau cds-cds.31 et les fréquences faibles du tableau cds-cds.32, voir la légende de cvi.
- - clx+: c'est le classement des génomes à partir du tableau cds-cds.11, d'abord avec R2' puis f3. Dans la classe a les génomes ont un minimum et de forme S. Dans la classe b les génomes sont réguliers et de forme tilde. Dans la classe c les génomes ont un mmaximum et de forme tilde sauf pour bsu dont la forme Sf (R2' 18) très faible peut être confondue avec un tilde. Ce classement est reporté tel quel dans les autres tableaux.
- Calculs des corrélations: Le coefficient de corrélation est fait avec LibreOffice calc sur les colonnes fx fc des effectifs du lien du génome, de la ligne 50 à ligne n ce qui va de la fréquence 41 à n, avec n égale 200 250 400 600. Les colonnes effectifs ici correspondent à la ligne diagr de fx et fc. Les références à ce tableau utilisent surtout la colonne 250.
- - J’ai fait les corrélations pour les 21 génomes entre c+/x+ 41-400, 41-250 et 41-200. Avec 41-400 les corrélations peuvent être très fortes car elles font intervenir la queue de la courbe où les effectifs sont faibles et la distance par rapport à la discontinuité direct/complement est si grande que le mécanisme de formation a peu d’influence. Avec 41-200 le nombre de points de comparaison, de 16, est faible. Aussi j’utilise les corrélations entre c+/x+ 41-250 avec 21 lignes de comparaison. Il y a ainsi 13 génomes faiblement corrélés ou carrément anti corrélés avec un coefficient inférieur à 0.611 et 8 fortement corrélés avec un coefficient supérieur à 0.758.
cds-cds-c. Diagrammes 400 des intercalaires cds-cds. Corrélations et faibles fréquences.
cds-cds.31 Intercalaires positifs. Diagrammes 400. Corrélations x+/c+.
|
eff |
Corrélations |
|
|
---|
gen |
x+ |
c+ |
41-250 |
41-200 |
diff |
1-250 |
mini |
clx+
|
---|
rru |
874 |
2056 |
611 |
193 |
418 |
792 |
min40 |
6 b1
| rtb |
118 |
402 |
148 |
-105 |
253 |
-165 |
min30 |
14 c3
| pub |
218 |
537 |
883 |
857 |
26 |
852 |
min20 |
1 a1
| cvi |
1008 |
2320 |
891 |
858 |
33 |
549 |
min30 |
8 b2
| ade |
1229 |
2242 |
758 |
624 |
134 |
897 |
min50 |
5 b1
| ant |
601 |
1616 |
538 |
271 |
267 |
886 |
min40 |
4 a2
| eco |
1003 |
2130 |
440 |
296 |
144 |
-64 |
min20 |
11 c2
| spl |
1071 |
2215 |
784 |
735 |
49 |
-202 |
min10 |
16 c5
| bsu |
1028 |
2444 |
282 |
8 |
274 |
257 |
min10 |
9 c1
| pmq |
1614 |
4164 |
-651 |
-832 |
181 |
-825 |
min10 |
19 d2
| cbn |
489 |
1701 |
508 |
548 |
-40 |
-112 |
min20 |
10 c1
| cbei |
946 |
3399 |
-377 |
-510 |
133 |
-646 |
min10 |
18 d2
| afn |
328 |
1323 |
101 |
-26 |
127 |
-407 |
min10 |
15 c4
| ase |
2398 |
3558 |
940 |
922 |
18 |
725 |
min40 |
7 b2
| blo |
448 |
993 |
537 |
406 |
131 |
255 |
min20 |
21 d3
| mja |
406 |
1047 |
571 |
326 |
245 |
857 |
min30 |
3 a2
| mba |
705 |
1651 |
-221 |
-330 |
109 |
-477 |
min10 |
17 d1
| myr |
828 |
2081 |
764 |
649 |
115 |
41 |
min20 |
12 c2
| pmg |
559 |
895 |
802 |
728 |
74 |
915 |
min40 |
2 a1
| abra |
256 |
934 |
797 |
716 |
81 |
59 |
min10 |
13 c3
| scc |
416 |
961 |
530 |
440 |
90 |
49 |
min10 |
20 d3
| |
cds-cds.32 Intercalaires positifs. Diagrammes 400. Faibles fréquences.
|
1-30 ‰ |
teff |
0 ‰ |
<0 ‰ |
eff40 |
corel40 |
classe
|
---|
gen |
x+ |
c+ |
x+/c+ |
x |
c |
x |
c |
x- |
c- |
x+ |
c+ |
x+/c+ |
clx+
|
---|
rru |
169 |
266 |
0.64 |
1037 |
2749 |
1 |
4 |
71 |
222 |
175 |
630 |
17 |
6 b1
| rtb |
51 |
294 |
0.17 |
189 |
604 |
5 |
7 |
21 |
162 |
8 |
131 |
-81 |
14 c3
| pub |
317 |
628 |
0.50 |
327 |
980 |
40 |
59 |
281 |
389 |
88 |
367 |
715 |
1 a1
| cvi |
112 |
301 |
0.37 |
1171 |
3111 |
4 |
3 |
59 |
221 |
130 |
815 |
582 |
8 b2
| ade |
221 |
335 |
0.66 |
1412 |
3052 |
8 |
6 |
72 |
234 |
304 |
876 |
459 |
5 b1
| ant |
281 |
485 |
0.58 |
714 |
2381 |
13 |
24 |
116 |
285 |
186 |
836 |
575 |
4 a2
| eco |
63 |
348 |
0.18 |
1169 |
2855 |
11 |
6 |
80 |
226 |
126 |
821 |
-119 |
11 c2
| spl |
37 |
270 |
0.14 |
1313 |
2900 |
1 |
6 |
9 |
143 |
69 |
683 |
-342 |
16 c5
| bsu |
140 |
333 |
0.42 |
1125 |
3091 |
2 |
8 |
31 |
186 |
302 |
936 |
-432 |
9 c1
| pmq |
32 |
218 |
0.15 |
1927 |
5296 |
3 |
5 |
22 |
140 |
68 |
1156 |
-207 |
19 d2
| cbn |
65 |
312 |
0.21 |
553 |
1940 |
2 |
5 |
17 |
86 |
56 |
620 |
-382 |
10 c1
| cbei |
26 |
244 |
0.11 |
1219 |
4404 |
0 |
4 |
9 |
88 |
35 |
954 |
272 |
18 d2
| afn |
46 |
402 |
0.11 |
350 |
1689 |
6 |
5 |
11 |
179 |
36 |
580 |
-369 |
15 c4
| ase |
135 |
264 |
0.51 |
3031 |
5166 |
7 |
3 |
116 |
252 |
389 |
1165 |
346 |
7 b2
| blo |
89 |
208 |
0.43 |
518 |
1255 |
4 |
1 |
35 |
167 |
54 |
241 |
-109 |
21 d3
| mja |
239 |
405 |
0.59 |
495 |
1234 |
20 |
9 |
113 |
132 |
113 |
474 |
502 |
3 a2
| mba |
45 |
214 |
0.21 |
1255 |
2688 |
1 |
8 |
18 |
114 |
51 |
428 |
-74 |
17 d1
| myr |
71 |
392 |
0.18 |
999 |
2556 |
5 |
5 |
20 |
110 |
97 |
899 |
-78 |
12 c2
| pmg |
326 |
430 |
0.76 |
692 |
1108 |
16 |
31 |
137 |
143 |
196 |
449 |
703 |
2 a1
| abra |
94 |
413 |
0.23 |
279 |
1388 |
4 |
9 |
29 |
295 |
41 |
420 |
-243 |
13 c3
| scc |
118 |
353 |
0.33 |
485 |
1320 |
4 |
5 |
58 |
242 |
60 |
389 |
-177 |
20 d3
| |
- Note:
- - corrélations fortes
- - ade cvi ase min40 les corrélations sont élevées et constantes ade Sf39 ase tf25 cvi tf30
- - pmg pub idem mais SF
- - myr abra spl corrélations fortes mais nulles avec 1-30 myr tm68 abra tF96 spl tF336. Donc myr est à la limite des tF parce que avant eco tm43
- - corrélations 500
- + rru ant mja S 20 70 78
- + scc blo t 71 138
- + cbn eco t 27 43
- - corrélations faibles
- + bsu afn rtb 282 148 101 Sf18 tF328 tF118
- - corrélations négatives
- + mba cbei pmq 221 377 651 tF > 348
- - Les fréquences faibles
- + Classe a: Par la construction de la classe a le rapport x+/c+ de leurs fréquences faibles est très élevé compris entre 0.50 et 0.76. Les taux des zéros suivent avec un maximum de 99 ‰ pour pub, puis 47 37 29 pour pmg ant mja
- + Classe b: Se comporte comme la classe a pour le rapport x+/c+, très élevé 0.66 0.64 0.51 pour ade rru ase, seul cvi descend à 0.37. Par contre les zéros ne suivent pas, leurs taux sont inférieurs à 14 ‰ (ade) contre 29 ‰ pour le plus bas de la classe a, et descendent jusqu'à 5 ‰ pour rru.
- + Classe c: Les x+/c+ sont tous faibles, inférieurs à 0.23 sauf pour bsu avec 0.42 mais qui s'explique par la pente positive des 1-30. Les zéros ne suivent pas, tous inférieurs à 17 ‰ (eco) et 2 sur 8 ont 7 ‰, cbn et spl.
- + Classe d: Les sous classes d1 d2 se comportent comme les c1 puisqu'ils des taux des fréquences 1-30 peu élevé comme eux. Le rapport x+/c+ est inférieur à 0.21 et les zéros ne suivent pas, moins de 9 ‰. La sous classe d3 se comporte comme la sous classe b2 avec des rapports x+/c+ équivalents, 0.43 0.33 contre 0.51 0.37 pour b2. La différence avec b2 c'est que les 1-30 constituent une pyramide alors que celles de b2 sont sur une pente négative. Pour les d3 et b2 les zéros ne suivent pas, moins de 10 ‰.
Les fréquences des intercalaires positifs cds-cds. Taux des x+ dans les diagrammes 400Modifier
- Lien tableur: Les fréquences des intercalaires positifs cds-cds. Taux des x+ dans les diagrammes 400.
- Légende: Les effectifs x+ et c+ des 1-400 (x+% 1) sont les colonnes eff des tableaux 11 et 21 des diagrammes 400. Ceux des 31-400 (x+% 31) sont les colonnes eff3 des tableaux 12 et 22. Pour les génomes n'ayant pas de 31-400 voir leur tableur au paragraphe des effectifs (derrière ligne, t30) en point sur le lien de la colonne gen du tableau 11. Les effectifs x+ et c+ des totaux (x+% t) sont extraits du tableau des positifs et négatifs.
- Note:
- - colonne t-1, différence des taux calculés sur le total et non de la fréquence 1-400. Les génomes rtb et mba ont beaucoup d'intercalaires supérieurs à 400, voir leurs fiches.
- - colonne 31-1, différence des taux calculés sur les fréquences 1-400 et 31-400: Le génome pub a la différence la plus élevée parce que le taux de x+1 est affaibli par les faibles fréquences et notamment les zéros, voir sa fiche. En 31-400 il se comporte comme pmg de la même classe a3, mais aussi comme ase et eco. Après pub ce sont les classes c2 et c3 qui sont affaiblies par les fréquences faibles, différence 31-1 de 8.2 à 9.3.
cds-cds-t.23 Diagrammes 400 des intercalaires cds-cds. Taux des x+
gen |
x+ |
c+ |
%x+ 1 |
x+ |
c+ |
%x+ 31 |
x+ |
c+ |
%x+ t |
t-1 |
31-1 |
clx+
|
---|
rru |
874 |
2056 |
30 |
726 |
1509 |
32 |
972 |
2131 |
31 |
1.5 |
2.7 |
6 b1
|
rtb |
118 |
402 |
23 |
112 |
284 |
28 |
189 |
505 |
27 |
4.5 |
5.6 |
14 c3
|
pub |
218 |
538 |
29 |
149 |
200 |
43 |
239 |
595 |
29 |
-0.2 |
13.9 |
1 a1
|
cvi |
1008 |
2320 |
30 |
895 |
1621 |
36 |
1115 |
2410 |
32 |
1.3 |
5.3 |
8 b2
|
ade |
1229 |
2242 |
35 |
958 |
1490 |
39 |
1320 |
2325 |
36 |
0.8 |
3.7 |
5 b1
|
ant |
601 |
1616 |
27 |
432 |
833 |
34 |
639 |
1694 |
27 |
0.3 |
7.0 |
4 a2
|
eco |
1003 |
2130 |
32 |
940 |
1389 |
40 |
1076 |
2210 |
33 |
0.7 |
8.3 |
11 c2
|
spl |
1071 |
2215 |
33 |
1031 |
1618 |
39 |
1304 |
2482 |
34 |
1.8 |
6.3 |
16 c5
|
bsu |
1028 |
2444 |
30 |
884 |
1629 |
35 |
1092 |
2513 |
30 |
0.7 |
5.6 |
9 c1
|
pmq |
1614 |
4164 |
28 |
1562 |
3257 |
32 |
1893 |
4535 |
29 |
1.5 |
4.5 |
19 d2
|
cbn |
489 |
1701 |
22 |
457 |
1171 |
28 |
543 |
1776 |
23 |
1.1 |
5.7 |
10 c1
|
cbei |
946 |
3399 |
22 |
921 |
2571 |
26 |
1213 |
4011 |
23 |
1.4 |
4.6 |
18 d2
|
afn |
328 |
1323 |
20 |
313 |
791 |
28 |
349 |
1386 |
20 |
0.2 |
8.5 |
15 c4
|
ase |
2398 |
3558 |
40 |
2072 |
2619 |
44 |
2726 |
3819 |
42 |
1.4 |
3.9 |
7 b2
|
blo |
448 |
993 |
31 |
408 |
786 |
34 |
502 |
1044 |
32 |
1.4 |
3.1 |
21 d3
|
mja |
406 |
1047 |
28 |
309 |
623 |
33 |
447 |
1063 |
30 |
1.7 |
5.2 |
3 a2
|
mba |
705 |
1651 |
30 |
673 |
1297 |
34 |
1237 |
2378 |
34 |
4.3 |
4.2 |
17 d1
|
myr |
828 |
2081 |
28 |
769 |
1265 |
38 |
981 |
2270 |
30 |
1.7 |
9.3 |
12 c2
|
pmg |
559 |
895 |
38 |
377 |
510 |
43 |
604 |
942 |
39 |
0.6 |
4.1 |
2 a1
|
abra |
256 |
934 |
22 |
232 |
548 |
30 |
273 |
977 |
22 |
0.3 |
8.2 |
13 c3
|
scc |
416 |
961 |
30 |
367 |
622 |
37 |
462 |
993 |
32 |
1.5 |
6.9 |
20 d3
|
Les fréquences des intercalaires cds-cds positifs continus. Diagrammes 40Modifier
- Lien tableur: Les fréquences des intercalaires cds-cds positifs continus. Diagrammes 40.
- Diagrammes: pro pro1 bac bac1 pr-bc1 total Les données.
- Légende:
- - ase: mini3, tous les modulos 3 de 6 à 33 sont des minina locaux.
- - pub: Sa courbe de tendance est comme celle du diagramme Sc+ 400, un polynôme de d° 3 avec un R2 de 899 et un coefficient de la variable x3 de -0.0039 donc de forme S.
- - Les polynômes de d° 15: sont propres aux fc40 et présentent un creux brutal à l'abscisse 7 environ, min1 et de coordonnée min, suivi d'un sommet élevé d'abscisse max1 et de coordonnée max. La pente entre ces 2 points varie peu d'un génome à l'autre avec une moyenne de 7.8 et un écart de 2.4 (m/e=3.2). Sont écartés de cette moyenne blo rtb et pub. Le génome ant présente un max très élevé, ramené à l'abscisse 10 au lieu de 9 son ordonnée baisse à 48 au lieu de 88 pour l'abscisse 9 et la pente devient moyenne comme pour les autres génomes à 11.3. L'autre versant du creux est aussi abrupt de pente pente0, avec un sommet élevé d'abscisse mx1 et de coordonnée mx.
- - type: c'est le type de courbe de tendance, pro ou pr pour proteobacteria, bac ou bc pour les bacilli et les clostridia.
- - R2: coefficient de détermination de la courbe de tendance.
cds-cds.2 Intercalaires cds-cds positifs continus. Diagrammes 40
Sc+ 40 |
Diagrammes polynôme de d° 15 |
|
Pourcentage des tranches de 7 fréquences |
Effectif des tranches de 7 fréquences |
|
gen |
R2 |
min1 |
max1 |
min |
max |
pente |
mx1 |
mx |
pente0 |
diagr |
type |
gen |
1-7 |
8-14 |
15-21 |
22-28 |
29-35 |
1-7 |
8-14 |
15-21 |
22-28 |
29-35 |
total
|
---|
rtb |
721 |
5 |
8 |
2 |
7 |
1.7 |
4 |
13 |
-10.7 |
131 |
pr1 |
rtb |
39 |
27 |
18 |
10 |
6 |
48 |
33 |
22 |
13 |
8 |
124
|
pub |
981 |
6 |
8 |
13 |
13 |
0 |
2 |
58 |
-11.0 |
367 |
pr2 |
pub |
63 |
17 |
8 |
6 |
6 |
223 |
61 |
27 |
21 |
20 |
352
|
rru |
882 |
7 |
11 |
11 |
34 |
5.8 |
4 |
43 |
-11.3 |
630 |
pro1 |
rru |
32 |
28 |
13 |
15 |
11 |
191 |
167 |
78 |
86 |
66 |
588
|
cvi |
897 |
6 |
10 |
13 |
50 |
9.3 |
1 |
58 |
-9.0 |
815 |
pro |
cvi |
30 |
30 |
17 |
11 |
11 |
230 |
232 |
133 |
80 |
86 |
761
|
ade |
929 |
5 |
9 |
19 |
51 |
8.0 |
2 |
63 |
-14.7 |
876 |
pro |
ade |
30 |
32 |
15 |
12 |
11 |
247 |
267 |
122 |
95 |
93 |
824
|
ant |
923 |
7 |
9 |
14 |
88 |
37.0 |
1 |
109 |
-15.8 |
836 |
pro |
ant |
37 |
39 |
14 |
5 |
6 |
297 |
316 |
112 |
40 |
45 |
810
|
eco |
894 |
5 |
9 |
13 |
61 |
12.0 |
2 |
54 |
-13.7 |
902 |
pro |
eco |
27 |
35 |
17 |
12 |
8 |
232 |
295 |
146 |
103 |
71 |
847
|
spl |
881 |
6 |
10 |
13 |
33 |
5.0 |
2 |
53 |
-10.0 |
683 |
pro1 |
spl |
30 |
31 |
15 |
13 |
11 |
193 |
202 |
94 |
86 |
73 |
648
|
bsu |
897 |
8 |
12 |
7 |
53 |
11.5 |
1 |
41 |
-4.9 |
935 |
bac |
bsu |
22 |
25 |
28 |
15 |
11 |
189 |
220 |
245 |
128 |
96 |
878
|
pmq |
758 |
9 |
14 |
10 |
45 |
7.0 |
1 |
52 |
-5.3 |
1155 |
bac1 |
pmq |
25 |
19 |
22 |
18 |
17 |
255 |
192 |
224 |
181 |
177 |
1029
|
cbn |
891 |
8 |
12 |
9 |
32 |
5.8 |
1 |
37 |
-4.0 |
620 |
bac1 |
cbn |
23 |
24 |
23 |
18 |
12 |
134 |
136 |
133 |
101 |
67 |
571
|
cbei |
873 |
7 |
12 |
8 |
51 |
8.6 |
1 |
55 |
-7.8 |
954 |
bac |
cbei |
22 |
27 |
25 |
15 |
11 |
194 |
242 |
220 |
138 |
101 |
895
|
afn |
829 |
7 |
12 |
5 |
46 |
8.2 |
1 |
38 |
-5.5 |
580 |
bac |
afn |
25 |
30 |
26 |
13 |
7 |
138 |
167 |
143 |
71 |
37 |
556
|
ase |
827 |
6 |
10 |
28 |
67 |
9.8 |
1 |
60 |
-6.4 |
1165 |
bac-a |
ase |
29 |
28 |
15 |
12 |
16 |
307 |
298 |
158 |
131 |
166 |
1060
|
blo |
636 |
7 |
10 |
4 |
11 |
2.3 |
2 |
15 |
-2.2 |
241 |
bc1 |
blo |
28 |
23 |
22 |
17 |
10 |
62 |
52 |
50 |
37 |
23 |
224
|
mja |
670 |
6 |
9 |
4 |
32 |
9.3 |
4 |
32 |
-14.0 |
474 |
pro-a |
mja |
23 |
31 |
22 |
13 |
10 |
104 |
143 |
102 |
61 |
45 |
455
|
mba |
732 |
7 |
10 |
4 |
19 |
5.0 |
2 |
31 |
-5.4 |
428 |
bac1-a |
mba |
32 |
22 |
20 |
13 |
12 |
124 |
87 |
79 |
50 |
48 |
388
|
myr |
922 |
7 |
12 |
23 |
46 |
4.6 |
2 |
78 |
-11.0 |
899 |
pro1-a |
myr |
42 |
25 |
16 |
11 |
7 |
355 |
213 |
133 |
93 |
61 |
855
|
pmg |
776 |
7 |
9 |
10 |
27 |
8.5 |
2 |
27 |
-3.4 |
449 |
bac-b |
pmg |
35 |
25 |
16 |
12 |
11 |
146 |
105 |
65 |
50 |
46 |
412
|
abra |
895 |
7 |
12 |
4 |
33 |
5.8 |
1 |
58 |
-9.0 |
420 |
pro1 |
abra |
41 |
30 |
14 |
10 |
6 |
165 |
119 |
56 |
39 |
24 |
403
|
scc |
855 |
6 |
9 |
4 |
20 |
5.3 |
1 |
31 |
-5.4 |
389 |
bac1-b |
scc |
31 |
30 |
18 |
13 |
8 |
113 |
110 |
66 |
46 |
29 |
364
|
Les fréquences des intercalaires cds-cds positifs discontinus. Diagrammes 40Modifier
Poly 3 - -4 -4 - -
fx40 R2 x3 x2 flex f3°
rru 253 3 -289 32 t
cvi 499 3 -108 12 t
ade 443 4 -337 28 t
ant 574 -2 167 28 S
eco 646 202 -7426 18 Cc
bsu 789 7 -231 11 S
ase 315 71 -5211 37 Cc
mja 467 -4 313 26 S
pmg 831 -10 808 27 S
cds-cds.1 Intercalaires cds-cds positifs discontinus, Diagrammes 40
gen |
poly3 |
mod3 |
tot |
diagr |
note
|
---|
rru |
253 |
5 |
12 |
175 |
|
rtb |
|
|
|
8 |
|
pub |
|
|
|
88 |
|
cvi |
499 |
8 |
11 |
130 |
|
ade |
443 |
8 |
11 |
304 |
|
ant |
574 |
1 |
9 |
186 |
|
eco |
647 |
6 |
11 |
129 |
parabole
|
spl |
|
|
|
69 |
|
bsu |
789 |
5 |
9 |
302 |
croit
|
pmq |
|
|
|
68 |
|
cbn |
|
|
|
56 |
|
cbei |
|
|
|
35 |
|
afn |
|
|
|
36 |
|
ase |
315 |
10 |
17 |
389 |
P15 611
|
blo |
|
|
|
54 |
|
mja |
467 |
4 |
12 |
113 |
|
mba |
|
|
|
51 |
|
myr |
|
|
|
97 |
|
pmg |
831 |
5 |
7 |
196 |
décroit
|
abra |
|
|
|
41 |
|
scc |
|
|
|
60 |
|
Les intercalaires tRNA-cds synthèseModifier
- L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir cheminement de ma réflexion dans la genèse des gènes de tRNA et la référence à E.Coli dans Notes.
- Une autre idée c'est que les cds-rRna-cds sont orientés, est-ce que c'est le cas des cds-tRNA-cds aussi? Il ne faut pas oublié que les tRNAs s'auto apparient ce qui crée des contraintes lors de la gestion de l'ADN: réplication transcription réparation recombinaison et insertion des éléments mobiles contenant des tRNAs.
Les intercalaires tRNA-cds, dans les cumuls des génomesModifier
- - Exemple de vha
- - Quand j'ai commencé à étudier les tRNAs (voir le cheminement ci-dessus) je listais séquentiellement juste les blocs de tRNAs avec ou sans rRNA, sans les cds bordant ces blocs.
- - Les caractéristiques des blocs à rRNAs m'ont poussé augmenter de plus en plus le nombre de génomes à étudier et du coup j'ai commencé à trouver des cds à l'intérieur de ces blocs. Mais souvent c'était de petites protéines hypothétiques. Le lien avec l'opéron d'E.coli associant une protéine et un tRNA devenait évident. La 1ère question qui s'est imposée à moi, alors, est: est-ce que les gènes protéiques ne seraient pas créées dans ces blocs lors des remaniements chromosomiques? De nombreux remaniements des blocs à rRNAs me sont apparus quand j'ai trouvé 2 génomes très proches dont l'un des 2 présente de nombreux blocs identiques avec l'autre, mais cassés et souvent les séquences de tRNAs sont conservées. Ceci me confortait dans mon hypothèse de genèse. Et les tRNAs peuvent, aussi, intervenir dans ce processus puisqu'ils peuvent créer des contraintes comme les rRNAs puisqu'ils peuvent s'auto apparier. Aussi j'ai commencé à border mes blocs de tRNAs, avec ou sans rRNAs avec 2 cds.
- - Du coup, étant donné que les blocs à rRNA sont orientés dans le sens 16s-23s-5s, qu'ils soient en direct ou en complément, j'ai pu constater rapidement que les intercalaires cds-16s étaient quasiment, tout le temps, plus grands que les intercalaires avec le cds dans 5s-aas-cds, où aas désigne l'absence ou la présence d'un ou plusieurs gènes de tRNAs.
- - Comme les blocs à tRNAs, seuls, présentaient aussi cette dissymétrie des intercalaires avec les 2 cds, les bordant, se posait aussi la question de leur orientation. Mais on ne peut pas décider de cette orientation puisqu'il n'y a pas de repère interne au bloc comme pour les blocs avec les 3 rRNAs.
- - Au début j'ai commencé à faire la moyenne de ces intercalaires et à établir leurs fréquences pour chaque génome. Puis j'ai fait de même avec les petits intercalaires en supposant que l'orientation allait du grand au petit comme pour les blocs à rRNAs. C'est ainsi que j'ai créé la colonne cds pour les 2 intercalaires confondus et la colonne cdsd des petits seulement, pour cds dirigé. A l'époque je ne prenais pas en compte les négatifs, ne distinguais pas les continus des discontinus et les tRNA-cds des rRNA-cds. Voici l'exemple de vha.
- - Quand j'ai voulu synthétiser les résultats de ces intercalaires avec les moyennes je trouvais de grandes variations entre les génomes (voir ici le récapitulatif des 51 génomes). Ces intercalaires semblaient dépendre des génomes, donc de leurs processus de gestion de l'ADN, et du coup l'orientation que je supposait n'avait plus de sens. Il fallait à tout prix comparer ces intercalaires à tout autre intercalaire et notamment les plus nombreux, les intercalaires cds-cds.
Les intercalaires tRNA-cds, récapitulatifModifier
Les méthodes de prélèvement dans NCBIModifier
Le lien du texte NCBI avec sa date est indiqué dans chaque "génome.fréquences". J'applique la méthode sur ce texte pour ne laisser qu'une ligne par gène, ce qui correspond à l'étape 8 de cette méthode. J'ai sauvegardé ces textes épurés dans les annexes Artb génomes (rtb pub abra mja pmg blo scc afn), Acbn génomes (cbn ant myr rru mba), Aspl génomes (spl cvi bsu ade eco), Apmq génomes (pmq cbei ase).
- - méthode initiale: méthode sans tenir des compléménts. Ce sont les 1ers tableaux,
- - méthode des discontinus, méthode avec les compléments. Elle est utilisée dans tous les autres tableaux ainsi que pour la comparaison cds-cds / tRNA-cds.
- - méthode pour tout intercalaire: autres, cds-cds et tRNAs-cds (+ - c x). Le tableau de la méthode. Les tableaux contenant les autres intercalaires (ac ax):
Les intercalaires cds-cdsModifier
- Classement des génomes, périodicité et recouvrement chez les négatifs.
- - Les fréquences par génome: intercalaires positifs et négatifs, continu-discontinu confondus
- Exemple rtb après traitement par la méthode initiale, jusqu'à l'étape 24. Ce tableau "genome les fréquences" contient
- + La date du NCBi se trouve à la fin de la légende,
- + Sous tableau des plages des intercalaires (leurs historiques sont dans la légende 2 du tableau des fréquences) avec leurs effectifs, pourcentages, moyennes et variances. Ce sous-tableau contient aussi la taille du chromosome en pbs (ADN) et le total et pourcentage des intercalaires cds-cds positifs, indiquant les espaces inutilisés.
- + 3 colonnes de fréquences avec leurs 3 colonnes des effectifs par fréquence. Ces fréquences m'ont permis d'apprécier leurs courbes et notamment j'ai repéré la tranche de fréquences 26-370 (fréquence5) qui caractérise par une droite le génome et non par une courbe puissance. En utilisant le tableur on peut reproduire la droite et les puissances jusqu'à la fréquence 600 (fréquence6) ou 1200 (fréquencez) suivant l'importance du génome. Une colonne de pourcentage est accolée à frequence6 qui reprend ceux du sous-tableau, et j'y ait ajouté le pourcentage des intercalaires de 1 à 100 qui est utilisé pour le classement des génomes qui suivent.
- + 2 colonnes des fréquences unité avec leurs 2 colonnes des effectifs. Fréquence-1 m'a permis de repérer la périodicité ternaire des négatifs et la fréquence1 dont j'ai cherché la périodicité mais paraît plutôt apériodique, elle me servira plus tard pour comparer ces effectifs à ceux des tRNA-cds positifs dans la même gamme.
- + 2 colonnes d'adresses avec leurs intercalaires, pour les extrêmes des positifs et des négatifs. Les négatifs comportent une colonne de discontinuité (comp). Ils m'ont permis d'aborder les recouvrements de 2 cds étudiés plus en détail dans le chapitre suivant des discontinuités. Pour compléter toutes les adresses j'ai ajouté une colonne, fréquencef, qui fait le lien entre les extrêmes positifs et les fréquences de frequencez ou frequence6.
- Les droites des diagrammes fréquence5: Pendant la construction des tableaux des fréquences de chaque génome, comme indiqué ci-dessus, j'ai fait les diagrammes frequence6 et il m'est apparu rapidement que je pouvais les diviser la courbe de tendance, proche d'une hyperbole, en 3 parties distinctes: la gamme de 0 à 30 de pente très élevée et proche de la branche de l'hyperbole, la gamme de 30 à 370 très accidentée ressemblant plutôt à une droite qu'au milieu de l'hyperbole, et enfin la gamme à partir de 370 jusqu'à 600 de pente très faible et proche de la branche de l'hyperbole. Comme cette dernière gamme peut être prolongée au-delà de 600 et même de 1200 pour certains génomes, la gamme du milieu existe pour tous les génomes, c'est une droite facile à comparer avec sa pente et pourrait contenir la plupart des séquences de contrôle et donc avoir un sens fonctionnel. Effectivement d'après le tableau des fréquences,
- + Les coefficients de détermination de ces droites sont très confortables puisque 18 sont supérieurs à 0.75 jusqu'à 0.91 et seulement 3 sont inférieurs à 0.64, 0.63 pour pub, 0.58 pour rtb et 0.46 pour mba.
- + Cinq clades à 2 génomes chacun ont souvent des pentes très proches. Le seul clade à 2 génomes avec les 2 pentes très différentes est celui des actinomycètes, ase pente 43 et blo pente 10. Trois clades ont les 2 pentes presque identiques, gamma 20 (eco spl), bacilli 29 (bsu pmq) et clostridia 15 (cbn cbei). Deux clades diffèrent légèrement pour leurs pentes, alpha rtb 3 et pub 6, archées mja 10 et mba 6.
- + Sur les 6 clades à 2 génomes un seul, gamma, a les 2 nombres de cds (n-cds) presque équivalents, les 5 autres ont des cds très dissymétriques. Ce qui pourrait laisser croire que la pente est indépendante de la taille du génome, en tout cas à l'intérieur de chaque clade.
- + Une seule discordance à ce schéma, dans le clade alpha, rru (pente 19) est très différent de pub (6) et rtb (3).
- + En considérant la totalité des 21 génomes la pente se révèle en fait proportionnelle à la taille du génome
- + Les courbes puissance
- Le classement des génomes.
- - Les fréquences par génome: intercalaires négatifs continus et discontinus, symboles Sc- Sx- .
- Caractéristiques et comparaison avec les tRNA-cds, Notes
- Les recouvrements
- La périodicité ternaire des petits intercalaires inférieurs à 80 paires de bases met en exergue l'état vibratoire des 2 cds en recouvrement.
- - Les fréquences par génome: intercalaires positifs continus et discontinus, symboles Sc+ Sx+ .
- - Récapitulation de tous les intercalaires
Les intercalaires tRNA-tRNAModifier
Intercalaires entre tRNA et rRNA en continu discontinuModifier
- Lien tableur: Intercalaires entre tRNA et rRNA en continu discontinu.
- Légende
- - c x + - % pour continu, discontinu, positif, négatif, x+/total ou nombre de génomes à x+ et c- sur le total.
- note: c-, 1 seul continu négatif, son intercalaire est d'une paire de base seulement (-1)
- - type:
- tRNA, intercalaires entre tRNAs dans un bloc sans rRNA;
- t-rRNA, intercalaires entre tRNAs à l'extérieur d'un bloc rRNA
- rRNA, intercalaires rRNA-rRNA et tRNA-rRNA d'un bloc rRNA
- aa interne, tRNA-tRNA interne d'un bloc rRNA
- 4*: Ces 4 intercalaires x+ sont dus au grand nombre de remaniements des blocs rRNA du génome cdc8. 23s' et 16s' sont des rRNA fonctionnels mais tronqués.
tRNA. Intercalaires entre tRNA et rRNA en continu discontinu
tRNA1. Les totaux de 50 génomes
type |
total |
c+ |
x+ |
c- |
x- |
x+%
|
---|
tRNA |
1745 |
1714 |
19 |
1 |
0 |
1,1
| t-rRNA |
814 |
810 |
4* |
0 |
0 |
| rRNA |
1043 |
1043 |
0 |
0 |
0 |
| aa interne |
127 |
127 |
0 |
0 |
0 |
| genomes |
50 |
50 |
13 |
|
|
26
| 4* |
cdc8 |
aaa-5s |
23s’-16s |
16s’-16s’ |
16s-5s |
| adresse |
|
4229303 |
4229975 |
4189696 |
4179150 |
| |
|
Intergen51. IntroductionModifier
- Liens aux réflexions sur la genèse des gènes tRNA:
- - Réflexion sur la genèse des gènes tRNA
- - genèse et duplication dans les 3 domaines
- - Duplications dans les clusters RNA chez les bactéries, étude de 16 génomes. L'étude de départ avec la comparaison bsu-lmo et eco-eal auxquels j'ai ajouté 12 autres regroupés par leur taux de %GC, cbc cbn cle lam spl lmo bsu vpb eal eco afn blo cvi ade sma ksk.
- - organisation de l'opéron tac-tac-tpr chez eco-eal
- - Comparaison entre les 2 types de duplication.
- - Similitude des comportements des codons dans les 3 domaines
- - tRNA-cds: recherche de l'équivalent de l'opéron tac-tac-tpr. D'où les génomes avec les cds autres que les 1ers 16 étudiés pour les duplication cités ci-dessus. Exemple de rru avec la note que j'ai copié pour tous ces nouveaux génomes:
- + Note: Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.
- - tRNA-cds dans les cumuls: voir les réflexions dans Les intercalaires tRNA-cds synthèse et les cumuls.
- - Les calculs: La faiblesse des tRNA-cds est abordée dans comparaison continu-discontinu et sa note ainsi que le chapitre sur leurs raretés. Les calculs sont faits dans tRNA-cds calcul suivi de la comparaison avec les moyennes. J'ai supprimé ces calculs puisqu'ils se fondaient sur l'hypothèse que les intercalaires CDS-CDS et tRNA-CDS étaient analogues.Ce qui n'est pas le cas puisque les courbes montrent clairement la gamme de fréquence de 1 à 30 pdbs est quasiment nulle chez les seconds et majoritaires chez les 1ers. En plus les CDS-CDS sont la somme de continus et de discontinus.
- Intercalaires entre gènes pour 51 génomes:
- - J'ai commencé à étudier les intercalaires entre gènes quand je me suis intéressé aux longs clusters de rRNA et tRNA chez bsu et lmo, 2 génomes qui reproduisaient à peu près les mêmes séquences dans leurs clusters mais dont les intercalaires courts entre gènes tRNA variaient beaucoup d'un génome à l'autre. J'attribuais ce comportement à la structure en trèfle des tRNAs dont les gènes pourraient s'auto-apparier lors des réparations, des transcriptions et de la réplication. La contrainte pour conserver le gène et éviter l'auto appariement devrait se résoudre par la modification des intercalaires entre les gènes de tRNA. Article qui introduit les opérons longs de tRNA et les opérons mixtes de tRNA et de protéines, page 17 [64].
- - Cette étude des clusters de rRNA et tRNA est la suite de ma réflexion sur les 1ères étapes de l'évolution moléculaire à l'origine de l'émergence de la vie. Le cheminement qui m'a conduit à l'étude de ces clusters est détaillé dans l'article sur la genèse des gènes de tRNA.
- - L'étude des clusters de tRNA et rRNA comprend l'étude de ces séquences, c'est ce que j'ai fait dans les fiches, mais aussi l'étude des intercalaires que j'ai fait dans les annexes. Or l'article qui m'a poussé à étudier ces clusters s'intéressait au fait qu'un opéron chez E.Coli contenait 2 tRNAs et un gène protéique. Ceci m'a poussé à étendre mes investigations sur les intercalaires, à ceux entre tRNA et CDS. Et pour apprécier les longueurs des intercalaires tRNA-CDS j'ai du les comparer à ceux entre 2 CDS.
- - J'ai rencontré de nombreuses difficultés dans les décomptes des intercalaires car au début je ne savais pas ce que je devais rechercher et donc les décomptes étaient au début manuels, puis petit à petit j'utilisais de plus en plus les traitements par lot. Et l'erreur qui m'a obligé à tout refaire, pour les décomptes que je présente dans ce chapitre, c'est que je ne distinguais pas entre les décomptes avec ou sans complément. Or la rareté des intercalaires tRNA-CDS de petites tailles et nuls ou négatifs m'a poussé à considérer la discontinuité lors du passage au complément. Et en étendant cette notion de discontinuité il s'est avéré qu'il peut y avoir modifications des intercalaires lors du changement de brin. C'est ce qui me paraît maintenant évident puisqu'il doit y avoir de nombreux processus de réparation à ce moment là.
- - Tous les gènes d'un génome ne sont pas considérés ici, notamment les gènes de contrôle, les pseudo gènes et ceux non définis par NCBI (miscellaneous). Leurs intercalaires ne représentent que 1% du total.
Intergen51. Historique des pré-étudesModifier
Intergen51. Les clusters avec les intercalaires tRNA-CDSModifier
- Ce sont 43 génomes, 8 génomes du début n'ont pas été encadrés par des CDS: vpb eal lmo lam cbc cle sma ksk. Les 8 autres du début ont été sélectionnés pour les 21 génomes à intercalaires CDS-CDS: bsu spl eco cbn cbei afn ase blo. Donc j'ai ajouté 22 génomes, en plus, encadrés avec des CDS.
- Les 51 génomes ont servis à étudier le typage des clusters à rRNA et l'étude des clusters à tRNAs seuls qui n'ont pas été inclus dans les fiches et présentent des processus de duplication différent des 1ers.
- Les 43 génomes encadrés par des CDS ont permis de repérer des cds dans les 2 types de clusters, cds candidats pour l'étude de leur création par la contrainte des clusters à RNA.
- Les 43 ont permis de mettre en évidence la faible fréquence des intercalaires tRNA-CDS nuls, négatifs et petits positifs. C'est ce qui m'a poussé à les comparer aux intercalaires CDS-CDS.
- Les génomes du début avaient permis d'étudier les remaniements des clusters sans créer de chaos: eal eco et bsu lmo
- Avec l'encadrement par CDS sont apparus des génomes avec des remaniements chaotiques: rpm abq-abs cdc-cdc8. Ce sont les annotations de bouts de rRNA, alors que la localisation des tRNAs est maintenue, qui m'ont permis d'émettre l'hypothèse de la création de gènes protéiques lors de ces remaniements provoqués par le comportement des rRNAs.
Intergen51. Les 21 génomes avec les intercalaires CDS-CDSModifier
- Cette étude des intercalaires m'a permis de mettre en évidence une périodicité chez les petits négatifs malgré le mélange continu/discontinu et de pouvoir interpréter les grands négatifs qui correspondent à des recouvrements. La périodicité sera reprise en séparant les continus des discontinus et les grands intercalaires, positifs et négatifs, qui constituent les restes des diagrammes, seront étudiés ou simplement listés dans chaque génome.
- Cette étude m'a permis aussi d'apprécier le taux des séquences non protéiques et différentes des clusters à RNA, en calculant le taux de la somme des intercalaires positifs par rapport à la longueur total du génome donné par NCBI. Pour calculer ce taux avec l'intergen51 il faudrait refaire la somme des intercalaires positifs, mais avant, je vais reprendre les taux calculés pour seulement les 21 génomes traités pour les intercalaires CDS-CDS.
- Tout le reste du formatage de chaque génome des 21 sera éliminé puisque c'est un mélange de continu et de discontinu, notamment les diagrammes.
- Les 21 génomes de cette 1ère étude d'intercalaires CDS-CDS sont: abra myr pmg scc mba mja cvi ade ant rtb rru pub pmq bsu spl eco cbn cbei afn ase blo.
Intergen51. Vue de l'ensembleModifier
Intergen51. La longueur totale des intercalaires d'un génomeModifier
- Note: 46 génomes ont entre 8.9 et 16.3% du génome en intercalaires, soit 79% des cas étudiés avec une médiane de 12.6%. Il reste 4 faibles, 3.4 6.4 8.1 8.3 et 8 forts, 5 de 22.8 à 27.7 et 3 de 17.9 à 18.8%.
Nom intercalaires génome taux en % Nom intercalaires génome taux en % Fréquence des taux
alpha clostridia
abq 356,439 3,064,393 11.6 cbc 696,513 3,892,029 17.9 taux effectif
abqp 217,409 1,901,707 11.4 cbei 1,199,672 6,485,394 18.5 6 1
abs 363,304 3,023,440 12.0 cbn 330,729 2,773,157 11.9 7 1
absp 211,208 1,766,028 12.0 cdc 636,447 4,110,554 15.5 8 0
agrc 332,177 2,823,930 11.8 cdc8 663,874 4,308,325 15.4 9 3
agrl 225,474 2,148,289 10.5 cle 615,068 4,714,237 13.0 10 3
aua 449,307 3,742,793 12.0 hmo 396,940 3,075,407 12.9 11 9
auap - psor 450,598 3,550,458 12.7 12 10
oan 364,228 2,887,297 12.6 negativicutes 13 10
oan2 199,249 1,895,911 10.5 afn 242,270 2,329,769 10.4 14 5
pub 44,276 1,308,759 3.4 actino 15 4
rpl 252,952 1,109,301 22.8 ase 1,100,127 9,239,851 11.9 16 3
rpm 461,433 3,876,289 11.9 blo 267,098 2,256,640 11.8 17 1
rru 461,427 4,352,825 10.6 ksk 1,255,749 8,783,278 14.3 18 1
rtb 264,633 1,112,957 23.8 sma 1,241,224 9,025,608 13.8 19 2
beta archeo 20 0
cvi 481,477 4,751,080 10.1 mba 1,341,425 4,837,408 27.7 21 0
ade 445,108 5,029,329 8.9 mfe 987,074 3,914,091 25.2 22 0
ant 203,179 3,192,235 6.4 mfi 403,834 2,478,074 16.3 23 1
gama mja 168,865 1,664,970 10.1 24 2
amed 601,332 4,777,154 12.6 bacilli 25 0
eal 594,081 4,701,875 12.6 ban 749,857 5,321,900 14.1 26 1
eco 501,283 4,641,652 10.8 bsu 434,723 4,215,606 10.3 27 0
ecoN 646,219 5,441,200 11.9 lam 210,907 2,078,001 10.1 28 1
spl 789,212 5,174,581 15.3 lbu 222,489 1,856,951 12.0 0
vha1 499,733 3,765,351 13.3 lmo 288,032 2,944,528 9.8 58
vha2 317,649 2,204,018 14.4 pmq 1,228,719 8,739,048 14.1
vpb1 403,530 3,297,305 12.2 ppm 791,310 5,728,392 13.8
vpb2 242,529 1,806,219 13.4 ppmp 119,608 510,118 23.4
bacteriodites cyano
fps 351,518 2,860,382 12.3 pmg 149,500 1,641,879 9.1
myr 538,974 4,155,464 13.0 npu 1,547,626 8,234,322 18.8
tenericutes spirochete
abra 151,700 1,877,792 8.1 scc 214,658 2,227,296 9.6
apal 128,786 1,554,229 8.3
Intergen51. Formatage des résultats pour 51 génomesModifier
- Lien au tableur: Intergen51. Formatage des résultats pour 51 génomes.
- Légende: Ce sont des effectifs brutes des
- - intercalaires entre un tRNA et un CDS, fxt pour les discontinus et fct pour les continus
- - intercalaires entre 2 CDS, pour les fréquences de 10 en 10 fx discontinu et fc continu, pour les fréquences par unité fx40 et fc40, pour les fréquences par unité négative fx- et fc-.
- - total des intercalaires pour un diagramme, diagr, de 1 à 400, 1 à 40 et de -6 à -50.
- - total des intercalaires de 1 à 30: t30 et %t30 par rapport au total.
- - total des intercalaires qui reste après le diagramme: reste et %reste par rapport au total.
int51.1 Total des effectifs des intercalaires de 51 génomes
CDS-tRNA |
CDS-CDS |
CDS-CDS |
CDS-CDS
|
---|
frequence |
effectif |
|
frequence |
effectif |
|
frequence |
effectif |
|
frequence |
effectif |
|
---|
|
fxt |
fct |
|
fx |
fc |
|
fx40 |
fc40 |
|
fx- |
fc-
|
---|
0 |
14 |
14 |
0 |
228 |
919 |
0 |
228 |
919 |
-1 |
4 |
4,140
|
10 |
15 |
29 |
10 |
1746 |
12728 |
1 |
173 |
1972 |
-2 |
85 |
11
|
20 |
19 |
37 |
20 |
1378 |
11017 |
2 |
157 |
2034 |
-3 |
3 |
12
|
30 |
6 |
32 |
30 |
1475 |
6338 |
3 |
248 |
1557 |
-4 |
717 |
10,938
|
40 |
38 |
47 |
40 |
1715 |
4716 |
4 |
213 |
1317 |
-5 |
5 |
19
|
50 |
25 |
50 |
50 |
1838 |
3974 |
5 |
125 |
1057 |
-6 |
59 |
6
|
60 |
32 |
54 |
60 |
1877 |
4135 |
6 |
174 |
736 |
-7 |
41 |
351
|
70 |
34 |
75 |
70 |
1855 |
4194 |
7 |
205 |
641 |
-8 |
89 |
2,362
|
80 |
42 |
76 |
80 |
1880 |
4182 |
8 |
125 |
836 |
-9 |
47 |
7
|
90 |
25 |
74 |
90 |
1723 |
3967 |
9 |
169 |
1265 |
-10 |
29 |
213
|
100 |
57 |
84 |
100 |
1734 |
3737 |
10 |
157 |
1313 |
-11 |
94 |
1,255
|
110 |
32 |
84 |
110 |
1605 |
3690 |
11 |
115 |
1404 |
-12 |
39 |
3
|
120 |
27 |
79 |
120 |
1594 |
3438 |
12 |
149 |
1577 |
-13 |
35 |
242
|
130 |
41 |
72 |
130 |
1599 |
3154 |
13 |
131 |
1218 |
-14 |
97 |
788
|
140 |
56 |
71 |
140 |
1489 |
2883 |
14 |
116 |
1282 |
-15 |
43 |
6
|
150 |
30 |
78 |
150 |
1406 |
2828 |
15 |
154 |
1126 |
-16 |
28 |
123
|
160 |
35 |
75 |
160 |
1466 |
2552 |
16 |
133 |
939 |
-17 |
68 |
537
|
170 |
27 |
64 |
170 |
1338 |
2356 |
17 |
116 |
904 |
-18 |
35 |
9
|
180 |
36 |
54 |
180 |
1211 |
2127 |
18 |
154 |
969 |
-19 |
29 |
107
|
190 |
37 |
44 |
190 |
1304 |
2031 |
19 |
181 |
785 |
-20 |
51 |
408
|
200 |
25 |
46 |
200 |
1201 |
1818 |
20 |
129 |
813 |
-21 |
17 |
2
|
210 |
43 |
45 |
210 |
1163 |
1656 |
21 |
168 |
774 |
-22 |
21 |
61
|
220 |
32 |
31 |
220 |
1074 |
1602 |
22 |
165 |
701 |
-23 |
42 |
264
|
230 |
26 |
33 |
230 |
979 |
1470 |
23 |
127 |
652 |
-24 |
28 |
5
|
240 |
28 |
32 |
240 |
914 |
1363 |
24 |
177 |
716 |
-25 |
22 |
91
|
250 |
30 |
33 |
250 |
896 |
1206 |
25 |
125 |
597 |
-26 |
43 |
246
|
260 |
30 |
25 |
260 |
847 |
1139 |
26 |
119 |
617 |
-27 |
13 |
3
|
270 |
19 |
35 |
270 |
842 |
1144 |
27 |
173 |
615 |
-28 |
21 |
54
|
280 |
14 |
25 |
280 |
741 |
984 |
28 |
155 |
546 |
-29 |
43 |
158
|
290 |
17 |
20 |
290 |
658 |
927 |
29 |
115 |
550 |
-30 |
17 |
0
|
300 |
20 |
20 |
300 |
632 |
881 |
30 |
151 |
570 |
-31 |
20 |
48
|
310 |
25 |
14 |
310 |
586 |
823 |
31 |
135 |
559 |
-32 |
39 |
125
|
320 |
17 |
21 |
320 |
595 |
703 |
32 |
122 |
518 |
-33 |
14 |
0
|
330 |
17 |
13 |
330 |
523 |
710 |
33 |
173 |
494 |
-34 |
15 |
32
|
340 |
17 |
6 |
340 |
507 |
595 |
34 |
167 |
457 |
-35 |
31 |
108
|
350 |
20 |
16 |
350 |
435 |
599 |
35 |
150 |
460 |
-36 |
9 |
0
|
360 |
14 |
15 |
360 |
447 |
567 |
36 |
165 |
481 |
-37 |
8 |
27
|
370 |
19 |
13 |
370 |
396 |
530 |
37 |
174 |
414 |
-38 |
27 |
71
|
380 |
10 |
15 |
380 |
398 |
497 |
38 |
187 |
442 |
-39 |
15 |
0
|
390 |
14 |
14 |
390 |
341 |
484 |
39 |
233 |
461 |
-40 |
14 |
21
|
400 |
6 |
13 |
400 |
334 |
429 |
40 |
209 |
430 |
-41 |
24 |
58
|
reste |
182 |
267 |
reste |
6,624 |
8,284 |
reste |
45,052 |
77,659 |
-42 |
7 |
0
|
total |
1,253 |
1,945 |
total |
51,594 |
113,377 |
total |
51,594 |
113,377 |
-43 |
10 |
31
|
%reste |
14.5 |
13.7 |
%reste |
12.8 |
7.3 |
diagr |
6,314 |
34,799 |
-44 |
14 |
47
|
t30 |
40 |
98 |
t30 |
4,599 |
30,083 |
|
|
|
-45 |
6 |
0
|
%t30 |
3.2 |
5.0 |
%t30 |
8.9 |
26.5 |
|
|
|
-46 |
15 |
14
|
diagr |
1,057 |
1,664 |
diagr |
44,742 |
104,174 |
|
|
|
-47 |
19 |
43
|
|
|
|
|
|
|
|
|
|
-48 |
12 |
0
|
|
Récapitulatif des effectifs |
|
|
|
|
|
|
-49 |
13 |
23
|
|
>0 |
<0 |
zéro |
total |
* autres |
|
|
|
-50 |
15 |
55
|
x |
51,366 |
2,456 |
228 |
54,050 |
|
|
|
|
reste |
264 |
420
|
c |
112,458 |
23,544 |
919 |
136,921 |
|
|
|
|
total |
2,456 |
23,544
|
|
|
|
|
190,971 |
9,555 |
|
|
|
%reste |
10.7 |
1.8
|
|
|
|
|
total |
200,526 |
|
|
|
diagr |
1,378 |
8,004
|
Intergen51. Les différents types d'intercalairesModifier
- Lien au tableur: Intergen51. Les différents types d'intercalaires.
- Légende:
- - S pour intercalaire CDS-CDS et R pour tRNA-CDS,
- - c pour intercalaire continu (les 2 gènes sont sur le même brin) et x pour discontinu (les 2 gènes sont sur 2 brins différents, le brin et son complément)
- - %reste = 100*reste/total, le reste étant ce qui reste du total après la fin du diagramme, gamme.
- - %t30 = 100*t30/total, t30 étant le total des fréquences 10 20 30
- - %t5 = 100*t/total, t5 étant le total des fréquences de -1 à -5 dans le diagramme des S-.
- Note:
- - total de tous les intercalaires étudiés ici, 190,971 + 9,555 + 6 = 200,532
- - taux des R-: c-/c = 100*8/1945 = 0.4 et x-/x = 100*11/1253 = 0.9.
Int51.2 Les différents types d'intercalaires entre gène de 51 génomes
Int51.21 Les différents types
intercalaires CDS-CDS |
* autres intercalaires
| continu |
S+ |
S- |
S0 |
total |
c/x |
RNA-RNA |
CDS-rRNA |
total
|
---|
c |
112,458 |
23,544 |
919 |
136,921 |
2.5 |
3,136 |
348 |
3,484
| x |
51,366 |
2,456 |
228 |
54,050 |
|
18 |
196 |
214
| t |
163,824 |
26,000 |
1,147 |
190,971 |
|
3,154 |
544 |
3,698
| % |
85.8 |
13.6 |
0.6 |
|
|
|
|
| |
Int51.22 Détail des * autres intercalaires
intercalaires tRNA-CDS |
récapitulatif des * autres intercalaires
| continu |
R+ |
R- |
R0 |
total |
c/x |
* autres |
total |
%
|
---|
c |
1,931 |
8 |
6 |
1,945 |
1.6 |
tRNA-CDS |
3,198 |
33
| x |
1,239 |
11 |
3 |
1,253 |
|
RNA-RNA |
3,154 |
33
| t |
3,170 |
19 |
9 |
3,198 |
|
CDS-rRNA |
544 |
6
| % |
99.1 |
0.6 |
0.3 |
|
|
non RNA |
2,665 |
28
| |
|
|
|
|
|
total |
9,561 |
9,555+6 aua
| |
Int51.23 Les taux remarquables
taux |
%reste |
%t30 |
%t5 |
%0
|
---|
type |
S+ |
R+ |
S- |
S+ |
R+ |
S- |
S+ |
R+
|
---|
gamme |
400 |
400 |
6-50 |
- |
- |
- |
- |
-
| c |
7.3 |
13.7 |
4.8 |
26.5 |
5.0 |
64 |
0.7 |
0.3
| x |
12.8 |
14.5 |
15.9 |
8.9 |
3.2 |
33 |
0.4 |
0.2
| |
Intergen51. Détail des intercalaires RNA-RNA et CDS-rRNAModifier
RNA-RNA c x CDS-RNA c x
23s 5s 286 CDS 16s 210 93
16s 23s 150 5s CDS 101 89
16s tRNA 155 16 CDS 6 1
tRNA 23s 173 CDS 5s 2 4
5s tRNA 155 1 23s CDS 12 6
tRNA in 140 CDS 23s 5 1
tRNA contig 731 5s 16s 11 2
tRNA hors 1254 17 16s16s 1
tRNA 16s 20 total 348 196
23s tRNA 25
tRNA 5s 23
16s 5s 21
5s 23s 1
5s 5s 2
total 3136 18
Intergen51. Les intercalaires raresModifier
- Note: Ce n'est pas la peine d'ajouter les adresses pointant sur le tableau autres intercalaires aas, je n'ai pas trouvé d’ambiguïté en cherchant sur l'intercalaire.
tRNA-CDS tRNA hors
gen x- c- zéro x zéro c gen x+ c-
oan1 -44 rtb 60
oan2 -44 1051
aua -30 rpl 49
pub 2 830
spl -23 agrl 793
ecoN 2 aua 161
vha2 -36 173
amed -21 270
ppmp -24 404
cdc 1 lbu 151
cdc8 1 hmo 293
ase -12 ase 130
blo -8, -39 -17 sma 153
sma -3 -10 ksk 151
ksk -3 -13 mfe 227
mfi -1 fps 296
mba -12 1 npu -1
mfe 1 total 17 1
myr -38 __ __ __
pmg -30 1 5s tRNA
total 11 8 3 6 cdc8 353 x+
__ __ __ __ __ 16s16s
5s5s vha1 0 c+
cvi 89 c+ 5s23s
mfi 748 c+ hmo 230 c+
Intergen51. Les intercalaires non RNAModifier
- Note: ce sont les intercalaires autres que CDS-CDS et ceux contenant un RNA. Ici leur décompte sert à vérifier le total des intercalaires. gen pour génome, l'astérisque pour le total de la colonne autres du tableau autres intercalaires aas du génome, ft pour le total des tRNA-CDS, RNA pour les intercalaires contenant un RNA. ft RNA et non RNA sont reportés dans le tableau des données intercalaires de chaque génome.
gen * ft RNA non RNA gen * ft RNA non RNA
abq 104 64 20 20 ban 173 22 142 9
abqp 65 26 27 12 bsu 324 28 106 190
abs 110 66 14 30 lam 152 43 55 54
absp 54 25 23 6 lbu 198 48 108 42
agrc 109 66 15 28 lmo 101 25 76 0
agrl 40 15 19 6 pmq 256 42 202 12
aua 117 80 13 24 ppm 190 43 139 8
auap 6 0 6 0 ppmp 62 20 40 2
oan1 105 70 15 20
oan2 46 24 12 10 cbc 88 38 50 0
pub 79 50 11 18 cbei 192 48 130 14
rpl 75 58 9 8 cbn 147 42 101 4
rpm 243 100 51 92 cdc 282 13 113 156
rru 160 83 28 49 cdc8 348 16 141 191
rtb 75 58 9 8 cle 273 69 120 84
hmo 223 54 118 51
ade 105 65 24 16 psor 226 19 158 49
ant 95 34 53 8
cvi 205 76 93 36 afn 154 57 55 42
amed 239 79 122 38 ase 183 101 74 8
eal 537 77 74 386 blo 128 82 30 16
eco 712 65 77 570 ksk 171 103 62 6
ecoN 217 104 101 12 sma 164 115 43 6
spl 253 62 159 32
vbp1 203 47 124 32 fps 114 54 46 14
vbp2 32 13 11 8 myr 199 79 96 24
vha1 190 47 115 28 npu 156 96 52 8
vha2 33 15 12 6 pmg 84 67 7 10
abra 128 41 40 47
mba 128 90 28 10 apal 96 29 27 40
mfe 122 79 28 15 scc 104 67 25 12
mfi 87 56 27 4
mja 99 43 22 34 total 9 561 3 198 3 698 2 665
Intergen51. Les diagrammes de la totaleModifier
Intergen51. Les diagrammes CDS-CDS et tRNA-CDSModifier
Intergen51. Les diagrammes CDS-CDS et tRNA-CDS positifsModifier
Courbes de tendances pour les diagrammes en pour 1000 Calculs pour f.41 et autres R2 f.1
R2 x3 x2 x c Inflexion poly3 x c
0.974 1.57E-06 -1.06E-03 1.16E-01 30.0 fx1 abscisse 201.9 120.9
0.865 -4.49E-06 3.51E-03 -9.26E-01 93.9 fc1 ordonnée 22.7 28.8
poly3/droite 22.9 27.9
0.995 7.53E-07 -4.56E-04 -1.81E-02 38.7 fx41
0.989 8.19E-07 -2.97E-04 -1.12E-01 45.2 fc41 R2 f.1 x c
Poly 3 974 865
0.988 -9.43E-02 41.9 fx41 Poly 6 979 978
0.938 -1.06E-01 40.7 fc41 Poly 9 993 985
0.924 -8.21E-02 38.5 fx1
0.656 -1.60E-01 55.8 fc1
- Note CDS-CDS positifs (tableau des 51 génomes):
- - J'ai représenté en diagrammes les 6 courbes correspondants aux effectifs des colonnes fxt fct fx fc fx40 fc40 sans la fréquence 0 du tableau présenté pour le formatage. Chaque abscisse est le total des effectifs de 10 fréquences successives (freq 10) et va de 1 à 400 pour les 4 premiers tandis que pour fx40 et fc40 elle est réduite à une seule fréquence (freq 1) et va de 1 à 40. La légende est détaillée dans les images t1 t2 de wikimédia. Les 2 derniers diagrammes de l'image t1, fx41 et fc41, vont de l'abscisse 50, qui regroupe les fréquences de 41 à 50, à l'abscisse 400. Je les ai présentés avec un polynôme de degré 6 pour montrer l'adéquation nette du diagramme fc41 avec sa courbe de tendance (R2 0.999). La courbe de tendance linéaire (R2 0.938) met en valeur sa courbure alors que celle de fx41 (R2 0.988) se confond avec son diagramme (R2 0.995). Je les ai comparés entre eux avec leurs équations de courbe de tendance de polynôme de d° 3, présentées ci-dessus avec des ordonnées en pour 1000 du total des effectifs (les données sont dans le tableur du tableau des 51 génomes).
- - La netteté de fc41 va de pair avec la netteté de fc40 comparées aux diagrammes en dents de scie de fx40 et à ceux des diagrammes fxt1 et fct1 (abscisse en unité de fréquence), non présentés mais dont les données sont dans le tableur.
- - Les calculs avec les polynômes de d° 3: les points d'inflexion de fc41 (120) et fx41 (200) montrent que fx41 est au-dessus de fc41 mais se rejoignent à la fin. L'équation de fc a le coefficient de x3 négatif alors que ceux de fct fxt fx fx41 fc41 sont tous positifs. Les fréquences en pour 1000 sont identiques, au ‰ près, de la freq10 50 à la freq10 130, entre fx et fc, avec un taux moyen de 33‰.
- - Le diagramme fx est une droite, nettement différent de ceux de fct et fxt. Ces derniers représentent un seul processus avec un seul mode d'un maximum d'abscisse 133 pour fxt et 113 pour fct à comparer aux points d'inflexion de fx41 et fc41. Leurs équations en effectifs sont:
- + f(x)= 3.16E-06*x3 - 2.46E-03*x2 + 0.487*x + 9.58, pour fxt et
- + f(x)= 1.04E-05*x3 - 7.10E-03*x2 + 1.21*x + 13.5 pour fct.
- - La variance de fct et fxt est due seulement aux génomes étudiés avec un processus commun alors que dans fx chaque génome devrait avoir son processus propre avec un mode différent. L'homogénéité de fc est le reflet d'un comportement de chaque génome qui varie peu à chaque fréquence. Alors que chaque génome, dans fx, a un mode propre à chaque fréquence.
- - L'homogénéité de fc se retrouve dans fc40 avec une adéquation nette à la courbe de tendance alors que fx40 présente un diagramme en dents de scie qui montre encore que chaque génome procède d'un processus différent. Le diagramme fc40 montre que tous les génomes ont le même processus. Et quand je compare fct1 et fxt1 (abscisse en unité de fréquence) à fx40, les dents de scie des 2 premiers ont leurs courbes de tendances des droites croissantes (voir les équations au tableur, R2 respectif de 0.347 0.239) qui sous-tendent un seul processus dont la variance est due à la variance des génomes, alors que les dents de scie de fx40 est une droite horizontale (R2 0.001) combinant la variance des processus et des génomes.
- - Le processus sous-tendant fc étant tout à fait différent de celui de fct les fréquences de fct ne peuvent être déduites statistiquement de celles de fc. On ne peut pas comparer 2 choses incomparables.
- - Le diagramme de fc40 laisse penser qu'il y a un mode prépondérant à la fréquence 12, cela correspondrait aux séquences de contrôle cis des gènes protéiques.
- - Le diagramme fct est régulier et présente des motifs avec un semblant de symétrie (R2 0.923) contrairement au chaos de fxt (R2 0.600). Les 3 diagrammes fc40 fc fct montrent la caractéristique régulière des intercalaires continus, bien que sous-tendus par 2 processus différents, comparée au chaos des intercalaires discontinus de fxt, fx40 et de probablement de fx comme je l'ai mentionné ci-dessus.
Intergen51. Classement des courbes CDS-CDS positifs discontinus.Modifier
- Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs discontinus..
- Légende:
- - Les classes sont séparées par une bordure bleue fine. Elles sont ordonnées sur x=0, intersection de la courbe avec l'axe oy.
- - Les clades sont séparés par une ligne à blanc
- - Courbures, représentées par la courbure calculée multipliée par 1000. En cyan les valeurs extrêmes.
- + courb1 est la courbure au sommet des courbes fx1 (fréquences regroupées par 10, freq10, de 1 à 400 pbs), d'abscisse soma et d'ordonnée somo. Quand fx1 est une hyperbole, constante négative de x3, la courbure courb1 n'est pas renseignée.
- + courb4 est celle des courbes fx41 de 41 à 400 pbs. Quand fx41 est une hyperbole, constante négative de x3, elle est remplacée par une courbe de constante positive. Ce paramètre est intéressant car en l'absence de courb1 il décroît avec %t20 dans la classe A et est très faible pour les classes B et C1 (sauf pour bsu lmo ban). Il y a une continuité progressive de A vers C (en valeur absolue). Une évolution progressive apparaît avec courb1 pour les classes C2 et D2 et dégressive dans les classes C1 D1. La classe A est très progressive. (voir diagrammes à venir des courbures par classe).
- + Les courbes différentes de fx1 sont indiquées dans la colonne courbe.
- - 1ères fréquences: long1 et long2 respectivement la somme des fréquences de 1 à 10 et de 11 à 20 en pourcentage. %t20 est la somme des 2. Elle sert aussi à caractériser les classe B et C en comparaison avec la colonne %dom.
- - fréquences dôme: Les classes B et C sont caractérisées, après %t20, par la somme très élevée de 2 fréquences freq10 das la colonne %dom et dont l'abscisse est adom.
- - évolution régulière des fréquences freq10: C'est le cas de la classe D.
- - Certains génomes sont caractérisés par des extrêmes,
- + ksk agrl colorés en jaune, ont des courbes de tendance sous forme de droites peu différentes des polynômes de d° 3. Leurs coefficients de détermination R2, poly3/droite, sont respectivement 922/911 et 762/756. Les 2 1ères fréquences sont quasiment identiques, différant de 2 et 4% alors que pour agrc oan1 aua ase j'obtiens 8 16 12 18% respectivement et le fossé se creuse encore pour les freq10 30 et 40.
- + Le %reste en cyane, taux des intercalaires au-delà des 400 pbs, est excessif pour mfe mba cbc npu rtb rpl de 23 à 43%, et très faible pour pub et apal 1.7 et 2.6%. le plasmide ppmp a 23.4% mais sa taille est la plus faible des 51 génomes étudiés. C'est pour cela que j'ai construis des diagrammes jusqu'à 900 pbs pour mfe mba pour comparer leurs x=0 dont l'ordre ne change pas, 17.7 pour mfe contre 9.77 pour mba (Dans le diagramme 400 j'ai respectivement 12.8 6.43).
- - Sommets des courbes en plus de celle de fx1. Elles sont colorées en gris. Leur courbure est indiquée dans la colonne courb4.
courbe gen soma somo courb4
51 psor 118.9 29.7 -1.586
61 ban 127.4 57.1 -2.317
31 cvi -9.1 49.5 -1.943
21 eal -75.3 49.6 -1.263
21 ecoN 11.5 37.8 -1.299
11 rpm 2.1 40.2 -1.555
11 cbn -24.2 37.2 -0.731
11 eco 82.1 36.0 -1.881
21 myr -51.3 46.1 -1.238
31 ksk -128.7 49.7 -0.849
41 ksk -749.1 130.7 -0.493
31 ase 33.9 40.3 -1.969
41 ase 33.9 40.3 -0.942
31 agrl -431.0 72.3 -0.454
Classement des courbes des intercalaires CDS-CDS positifs discontinus x+
clade |
gen |
taille |
%reste |
courb1 |
courbe |
courb4 |
soma |
somo |
%dom |
adom |
long1 |
long2 |
%t20 |
x=0 |
classe
|
---|
alp1 |
pub |
234 |
1.7 |
- |
- |
- |
|
|
|
|
167 |
64 |
231 |
127 |
A0
|
cya2 |
pmg |
599 |
4.5 |
- |
41 |
-1.109 |
10.8 |
39.4 |
|
|
194 |
65 |
259 |
110 |
A1
|
bde3 |
ant |
633 |
3.5 |
- |
41 |
-4.031 |
101.7 |
38.0 |
|
|
128 |
81 |
209 |
82.0 |
A20
|
arc4 |
mja |
441 |
5.4 |
- |
41 |
-3.400 |
97.9 |
34.7 |
|
|
111 |
70 |
181 |
71.5 |
A21
|
bde2 |
ade |
1314 |
5.3 |
- |
41 |
-2.325 |
92.1 |
34.6 |
|
|
78 |
80 |
158 |
64.4 |
A22
|
al4 |
absp |
472 |
11.0 |
- |
41 |
-1.720 |
108.2 |
29.2 |
|
|
81 |
59 |
140 |
62.4 |
A23
|
al1 |
abq |
890 |
9.2 |
- |
41 |
-1.870 |
111.4 |
29.9 |
|
|
73 |
61 |
134 |
59.8 |
A24
|
al2 |
abs |
883 |
10.2 |
- |
41 |
-1.841 |
94.7 |
30.6 |
|
|
74 |
46 |
120 |
58.8 |
A25
|
al3 |
abqp |
497 |
8.7 |
- |
41 |
-1.884 |
111.3 |
30.9 |
|
|
70 |
64 |
135 |
56.1 |
A26
|
al9 |
oan2 |
460 |
8.7 |
- |
41 |
-1.613 |
46.9 |
34.4 |
|
|
63 |
54 |
117 |
49.5 |
A27
|
alp4 |
rru |
967 |
9.3 |
- |
41 |
-1.079 |
76.7 |
30.3 |
|
|
47 |
52 |
98 |
47.8 |
A28
|
al5 |
agrc |
796 |
7.2 |
- |
31 |
-0.790 |
-45.1 |
40.2 |
90 |
60 |
53 |
45 |
98 |
46.3 |
B10
|
al7 |
aua |
975 |
9.9 |
- |
31 |
-0.116 |
-875.6 |
76.3 |
91 |
60 |
51 |
39 |
90 |
45.3 |
B11
|
al8 |
oan1 |
771 |
9.1 |
- |
21 |
-1.160 |
30.5 |
34.4 |
99 |
60 |
54 |
38 |
92 |
43.0 |
B12
|
bac2 |
bsu |
1093 |
5.5 |
- |
51 |
-3.143 |
135.7 |
29.9 |
219 |
40 |
26 |
41 |
67 |
62.5 |
C10
|
bac5 |
lmo |
587 |
6.3 |
- |
51 |
-2.188 |
126.7 |
26.3 |
271 |
40 |
17 |
34 |
51 |
59.1 |
C11
|
act1 |
ase |
2691 |
9.7 |
-1.804 |
41 |
-0.942 |
20.6 |
41.1 |
99 |
70 |
52 |
34 |
86 |
40.7 |
C12
|
clo8 |
psor |
693 |
9.1 |
-0.901 |
51 |
-1.586 |
-11.0 |
39.2 |
140 |
50 |
12 |
23 |
35 |
39.1 |
C13
|
bac1 |
ban |
1579 |
10.3 |
-1.565 |
61 |
-2.317 |
23.3 |
38.5 |
138 |
40 |
10 |
26 |
36 |
38.1 |
C14
|
bde1 |
cvi |
1114 |
8.0 |
-2.436 |
31 |
-1.943 |
53.3 |
41.6 |
146 |
70 |
56 |
30 |
85 |
37.7 |
C15
|
ga2 |
eal |
1185 |
10.3 |
-1.902 |
21 |
-1.263 |
42.3 |
37.9 |
118 |
50 |
38 |
22 |
60 |
36.0 |
C16
|
ga4 |
ecoN |
1382 |
10.3 |
-1.471 |
21 |
-1.299 |
34.8 |
36.3 |
134 |
50 |
32 |
16 |
48 |
35.3 |
C17
|
alp3 |
rpm |
906 |
11.8 |
-2.175 |
11 |
-1.555 |
65.2 |
35.7 |
191 |
50 |
15 |
7 |
22 |
30.3 |
C18
|
clo3 |
cbn |
540 |
9.6 |
-1.339 |
11 |
-0.731 |
68.8 |
33.3 |
113 |
50 |
19 |
6 |
24 |
29.7 |
C19
|
ga3 |
eco |
1074 |
5.3 |
-1.834 |
11 |
-1.881 |
78.5 |
36.0 |
131 |
50 |
33 |
9 |
42 |
29.4 |
C19a
|
bct1 |
myr |
980 |
14.9 |
-2.327 |
21 |
-1.238 |
76.6 |
35.7 |
107 |
70 |
27 |
12 |
39 |
27.6 |
C19b
|
bac3 |
lam |
483 |
5.6 |
-3.737 |
|
|
85.8 |
43.6 |
155 |
60 |
17 |
6 |
23 |
26.7 |
C20
|
ga1 |
amed |
1343 |
8.2 |
-3.171 |
|
|
90.6 |
39.3 |
141 |
80 |
28 |
15 |
43 |
23.2 |
C21
|
ga7 |
vha2 |
689 |
13.9 |
-2.925 |
|
|
96.5 |
35.1 |
103 |
80 |
20 |
20 |
41 |
17.8 |
C22
|
bac4 |
lbu |
411 |
7.8 |
-4.193 |
|
|
98.5 |
42.9 |
141 |
70 |
2 |
5 |
7 |
17.0 |
C23
|
ga8 |
vpb1 |
782 |
11.5 |
-3.965 |
|
|
96.4 |
39.7 |
145 |
70 |
15 |
15 |
31 |
16.1 |
C24
|
ga6 |
vha1 |
934 |
13.4 |
-3.343 |
|
|
98.7 |
36.4 |
115 |
70 |
12 |
17 |
29 |
15.5 |
C25
|
ga9 |
vpb2 |
561 |
12.7 |
-3.667 |
|
|
104.6 |
38.2 |
127 |
80 |
20 |
11 |
30 |
12.1 |
C26
|
alp2 |
rpl |
183 |
32.2 |
-2.604 |
|
|
108.0 |
28.1 |
104 |
80 |
11 |
22 |
33 |
8.12 |
C27
|
alp5 |
rtb |
186 |
35.5 |
-2.195 |
|
|
117.3 |
27.0 |
97 |
80 |
11 |
16 |
27 |
7.33 |
C28
|
clo4 |
cdc |
640 |
19.5 |
-1.942 |
|
|
176.9 |
31.0 |
|
|
5 |
0 |
5 |
-11.8 |
D10
|
clo5 |
cdc8 |
686 |
20.1 |
-1.748 |
|
|
175.5 |
29.9 |
|
|
7 |
4 |
12 |
-7.46 |
D11
|
bac6 |
pmq |
1888 |
14.0 |
-2.305 |
|
|
160.2 |
34.2 |
|
|
8 |
8 |
16 |
-6.46 |
D12
|
clo2 |
cbei |
1212 |
21.6 |
-1.691 |
|
|
156.0 |
27.6 |
|
|
5 |
10 |
15 |
-2.49 |
D13
|
bac7 |
ppm |
1267 |
11.9 |
-3.106 |
|
|
133.9 |
37.0 |
86 |
90 |
13 |
16 |
28 |
-1.18 |
D14
|
clo6 |
cle |
779 |
10.7 |
-2.811 |
|
|
133.5 |
35.8 |
|
|
12 |
8 |
19 |
1.51 |
D15
|
bac8 |
ppmp |
107 |
23.4 |
-1.912 |
|
|
146.0 |
29.5 |
|
|
0 |
0 |
0 |
2.61 |
D16
|
clo1 |
cbc |
719 |
23.9 |
-0.859 |
|
|
174.4 |
23.9 |
|
|
1 |
7 |
8 |
4.94 |
D17
|
arc3 |
mba |
1235 |
42.8 |
-0.482 |
|
|
193.6 |
17.4 |
|
|
6 |
11 |
17 |
6.43 |
D18
|
arc1 |
mfe |
1067 |
34.9 |
-0.779 |
|
|
119.8 |
20.2 |
|
|
10 |
14 |
24 |
12.8 |
D19
|
ga5 |
spl |
1305 |
17.6 |
-2.662 |
|
|
120.1 |
32.4 |
93 |
80 |
6 |
15 |
21 |
6.45 |
D21
|
clo7 |
hmo |
460 |
12.6 |
-1.900 |
|
|
135.5 |
31.6 |
|
|
20 |
22 |
41 |
8.01 |
D22
|
arc2 |
mfi |
626 |
15.8 |
-1.820 |
|
|
123.8 |
29.8 |
|
|
19 |
10 |
29 |
11.2 |
D23
|
neg1 |
afn |
346 |
4.6 |
-2.277 |
|
|
121.4 |
36.2 |
|
|
12 |
9 |
20 |
14.5 |
D24
|
cya1 |
npu |
2307 |
23.2 |
-1.454 |
|
|
98.1 |
27.1 |
|
|
22 |
23 |
44 |
18.4 |
D25
|
bct2 |
fps |
560 |
13.4 |
-2.683 |
|
|
91.5 |
35.2 |
|
|
32 |
16 |
48 |
21.3 |
D26
|
act2 |
blo |
499 |
9.8 |
-2.403 |
|
|
98.7 |
36.0 |
|
|
34 |
16 |
50 |
21.4 |
D27
|
act4 |
sma |
2581 |
11.6 |
-1.894 |
|
|
84.2 |
33.9 |
|
|
29 |
26 |
55 |
25.9 |
D28
|
spi1 |
scc |
458 |
8.5 |
-2.273 |
|
|
81.0 |
37.2 |
|
|
20 |
33 |
52 |
28.3 |
D29
|
ter2 |
apal |
191 |
2.6 |
-4.112 |
|
|
82.3 |
47.3 |
|
|
31 |
21 |
52 |
30.4 |
D30
|
ter1 |
abra |
270 |
5.2 |
-3.934 |
|
|
65.0 |
47.0 |
137 |
50 |
19 |
33 |
52 |
37.3 |
D31
|
act3 |
ksk |
2564 |
11.6 |
-1.185 |
31 |
-0.849 |
-10.8 |
39.5 |
87 |
80 |
38 |
36 |
74 |
39.4 |
D32
|
al6 |
agrl |
499 |
8.4 |
-0.543 |
31 |
-0.454 |
-431.0 |
72.3 |
78 |
60 |
42 |
38 |
80 |
42.2 |
D33
|
act5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
alp6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
arc5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bac9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bct3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bde4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clo9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
cya3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
gam |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
neg2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ter3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
totale |
58 |
51,594 |
12.8 |
-1.520 |
|
|
63.7 |
33.5 |
|
|
34 |
27 |
61 |
30.0 |
D28
|
Intergen51. Classement des courbes CDS-CDS positifs discontinus. NoteModifier
- Pour classer les diagrammes des discontinus, x+, j'ai utilisé 4 critères
- - %t20 et les colonnes associées long1 long2. Il dérive du taux %t30 que j'ai utilisé dans la comparaison x+ c+.
- Long1 sert de repère par rapport au corps du diagramme. Il peut dépasser toutes les ordonnées et c'est le cas de la classe A, ou bien être plus ou moins bas par rapport au sommet du dôme et c'est le cas des classes B C D1. Dans la classe D2 où le x=0 remonte long1 le suivra.
- La pente définie par long1 long2 va distinguer 2 taux %t20 identiques mais dont le signe de la pente est différent. C'est ainsi que j'ai pu analyser le cas des C1 bsu lmo psor ban. Mais cette pente positive va surtout caractériser la classe D2 dont la courbure ne dépend plus d'un dôme et long1 va suivre x=0.
- A part le cas des 2 C1 sans minimum local, bsu lmo , l'évolution du taux %t20 va être parallèle à celle de x=0.
- - Les dômes. Ils sont caractérisés par l'abscisse du sommet, adom, et la somme des 2 taux du dôme, %dom. Ils appartiennent essentiellement aux classes B et C.
- adom: Chez les B1 et C1 les abscisses sont faibles, autour de freq10 50, alors que les C2 tournent autour de 70. Les 2 classes C1 et C2 sont homogènes et les moyennes nettement distinctes. (voir le tableau des moyennes en fin de note).
- %dom: C1 et C2 sont très homogènes d'après le tableau des moyennes mais bsu et lmo ny sont pas. Bien que les moyennes se chevauchent celle de C2 est plus faible, de 10%, par rapport à celle de C1 et celle de B1 est encore plus faible, autour de 90%.
- conséquences: plus le dôme est proche de l'origine et son taux élevé plus la courbure sera faible, avec les B1 sans courbures (le coefficient de x3 étant négatif), les C1 aux courbures faibles et les C2 aux courbures fortes.
- D1 et D2 n'ont pas de dôme sauf pour ppm spl et abra. Leurs courbes sont très étalées ce qui fait que le dôme est loin de l'origine et son taux faible ce qui donne une courbure très forte. Ainsi pour ppm spl abra j'ai respectivement pour adom %dom courb1, 90 86% -3.106, 80 93% -2.662, 50 137% -3.934.
- + abra apal: ce sont 2 génomes différents en phylogénie, respectivement, Acholeplasmataceae Paracholeplasma brassicae et Acholeplasmataceae Alteracholeplasma palmae. Ils diffèrent en taille x+ de plus de 41%, respectivement 270 et 191 pbs. Si les caractéristiques c+ du tableau sont semblables le diagramme de abra x+ présente un dôme à l'abscisse 50 que apal x+ ne possède pas. J'ai donné la classe D31 à abra x+, parce que sa courbure est très forte, -3.934, comparée à celles de ban (-1.565) et psor (-0.901) qui ont un dôme semblable à abra x+ du à son minimum local, à l'abscisse 10, 2 fois supérieur (abra ban psor 19 10 12%) avec un %dom identique (abra ban psor 137 140 138%). Les caractéristiques x+ du tableau diffèrent nettement entre les 2 génomes pour %x+ %restex t30c/x et moins pour %t30x et corelaxc. Ils ont en commun la classe D3 (D31 D30) avec un x=0 de 37 et 30 respectivement. Les 2 génomes ont conservé une séquence de 11 gènes tRNA (aas) que j'ai notée dans les intercalaires extra bloc.
- - La courbure du sommet de poly3. C'est la comparaison entre x+ et c+ qui a mis en évidence pour certains diagrammes la forte pente négative t30 des c+ par rapport à la forte courbure des x+ pour cette plage. Quand je l'ai appliquée à tous les diagrammes j'ai pu regrouper les diagrammes sans dôme en 2 classes D1 et D2.
- La classe D1 va se caractériser par une courbure très faible comparable à la classe C1, moyenne -1.763 contre -1.775. Les 2 classes se différencient par leur homogénéité, m/e 2.0, moyenne la plus hétérogènes des 5 classes, contre 3.8 pour C1 , 2ème homogène après C2. Elles se différencient plus par leur décroissance dans le diagramme en fonction de X=0, D1 est fortement décroissante (R2 0.495) et C1 à peine décroissante (R2 0.146), voir les diagrammes des courbures. D1 se différencie de C1 à cause des dômes qui font diminuer l'abscisse des C1, alors que les D1 s'étalent plus loin, soma 157 contre 45 pour C1.
- Le passage de D1 à D2: mfe m'a posé un problème puisque D1 est décroissante, pour la courbure, et que D2 est croissante, son X=0 de 12.8 va se positionner après mfi qui a une courbure de -1.820 contre -0.779 pour mfe. Je l'ai alors mis en D1, en continuité de X=0, après mba. J'ai eu un doute à cause du %reste très élevé de mba et mfe. Peut être qu'en étendant les diagrammes x+ à 900 de mfe et mba, leurs places dans D1 ne seraient plus justifiées. Mais le fait que leur nouveau X=0 ne modifie pas leur ordre, mba 9.77, avant mfe 17.7 m'a conforté dans ce positionnement dans D1. J'ai comparé les x=0 des diagrammes étendus 800 et 400 des D1 à ceux des D2, dans le tableau en bas de la note. L'ordre de mba et mfe est respecté mais non ceux des autres D1. Par contre dans la colonne 800 les D1 restent largement inférieurs à celle des D2, sans aucun chevauchement. Les D2 800 respectent exactement l'ordre des 400 et le 1er, spl, reste supérieur au plus grand des D1 800, 23.8 contre 21.4 pour ppm. Ce dernier est un intrus dans D1 800.
- La classe D2, de D21 à D31, ressemble beaucoup à C2 pour le sommet, soma 100.2 contre 99.6. Mais le sommet de C2 croît nettement (1 seul intrus) et passe de 86 à 108, alors que celui de D2 décroît rapidement par groupe de 3 génomes à la fois et passe de 135 à 65. La courbure de D2 a une moyenne 50% plus forte que celle de D1, -2.492 contre -1.763, mais 50% plus faible que celle de C2, -2.492 contre -3.311. La moyenne de D2 est moins homogène, m/e 3.0, que celle de C2 la plus homogène des 5 classes, m/e 5.1. Les 2 classes se ressemblent beaucoup dans les diagrammes des courbures, ils sont nettement croissants et de façon régulière avec un R2 de 0.612 pour D2 contre 0.730. Les 2 diagrammes diffèrent par leur forme.
- La suite de la classe D2 est la limite de la courbure et du sommet de la courbe. D32 et D33 ressemblent à la classe B1 mais ils se distinguent tous les 2 par l’absence du minimum local à t30 (en plus long1 est presque égal à long2), un dôme très faible (%dom le plus faible, 87 et 78 contre 91 pour B11) et éloigné (80 pour ksk contre 60 pour agrl et les B1). L'ordonnée du sommet de D32 et D33 est élevée ce qui fait que la courbe de tendance est plus une droite qu'un polynôme qui a pourtant une courbure.
- - Les x=0 enfin que j'ai adoptés pour le classement et les 3 critères précédents définissent les grandes classes A B C D.
- Classe A: Il n'y a pas de courbure. Le coefficient de x3 est négatif. J'ai établit alors la courbure du diagramme 41-400, courb4.
- + A0 a un coefficient toujours négatif quelque soit le début du diagramme.
- + A1 a une courb4, mais l'abscisse du sommet est tellement grande, -500, que la courbe est quasiment à coefficient négatif.
- + De A20 à A28 par contre les courbures sont grandes et nettement croissantes avec un R2 de 0.932. Les abscisses des sommets sont croissantes de façon irrégulières et passent de 77 47 à 111 92 102.
- + Le x=0 décroît régulièrement, sans intrus, de 127 à 48.
- Classe B:
- + C'est la continuité de la classe A puisque le coefficient de x3 de 1-400 est négatif.
- + Il y a continuité aussi pour la courbure, courb4, puisque le coefficient de x3 de 41-400 est négatif faisant suite à la courbure la plus faible de la classe A (-1.079).
- + La seule différence avec la classe A est que les B ont un dôme. Et celui-ci a une ordonnée de même grandeur que celle de l'abscisse 10 (freq10) avec un minimum local en l'abscisse 40 ou 30.
- + Le minimum local m'a permis de calculer la courbure, courb4, des diagrammes 31 21 11-400 (colonne courbe) ce qui est possible puisque l'ordonnée de l'abscisse 40 ou 30 est inférieure à celle du dôme. Cette courbure est en continuité progressive, et non abrupte, avec celle de la classe A comme je l'ai notée ci-dessus. En plus elle est en continuité avec les courbures, courb4, de la classe C1 bien que celle-ci ait une courbure courb1, sauf pour bsu et lmo.
- + Les taux %dom des dômes de B sont plus faibles que tous ceux de la classe C et leurs abscisses, adom 60, sont supérieures à celles de C sauf pour ase cvi myr avec 70.
- + Le x=0 décroît régulièrement, sans intrus, à la suite de la classe A, de 46 à 43.
- Classe C1
- + En excluant momentanément les 2 génomes bsu et lmo (C10 C11), le x=0 décroît régulièrement, sans intrus, à la suite et en continuité de la classe B, de 41 à 28.
- + En parallèle la courbure, courb1, décroît légèrement dans les diagrammes des courbures (R2 0.146), avec une moyenne homogène (m/e 3.8), -1.775, la 2ème très faible des 5 classes. Par contre les sommets, soma, croissent régulièrement de 21 à 77, avec une moyenne faible de 45 très hétérogène, m/e de 1.6, le plus faible de toutes les moyennes du tableau, conséquence de la forte croissance des sommets. Le %t20 qui suit globalement l'évolution de x=0, ici, dans C1 son évolution n'est pas homogène (m/e 2.1) et ne manifeste pas de croissance nette. Le diagramme des classes montre bien que le %t20 de C1 est très chaotique, différemment des autres classes. La courbure, courb1, différencie nettement B1 et C1.
- + Le classement de C12, ase. Ce génome ressemble beaucoup à oan1 avec un long1 au même niveau que le sommet du dôme, un x=0 du même ordre 41 contre 43 pour oan1 et un %t20 qui vient juste après celui de oan1, 86 contre 92. Le génome ase se distingue nettement de la classe B parce que c'est le 1er à avoir une courbure courb1 moyenne, -1.804, et vient juste après lmo et bsu. Donc il est logique de le classer avec les C1. Cependant ase se comporte aussi comme ksk qui est du même clade et qui a une classe D2. Les 2 diagrammes ont à peu près le même minimum local t30 à l'abscisse 40 pour ase , 23‰ contre 29‰ pour ksk à l'abscisse 50. Mais c'est la pente très négative de ase qui m'a poussé à le comparer aux B, -7.25 contre -1.79 pour ksk. Si je trie sur clade, toutes les autres colonnes sont à peu près identiques, sauf courb1, -1.804 contre -1.185 pour ksk, soma 21 contre -11, long1 et par conséquent %t20, 52 contre 38. Même la queue du diagramme est semblable et les fx41 fx31 aussi (voir tableau en bas de la légende du tableau de classeau). Il serait peut être logique de le mettre en D32 alors que leurs phylogénies sont complètement différentes.
- + Le minimum local à t30: j'ai montré dans la comparaison continus discontinus que ce minimum est caractéristique des continus qui l'arborent tous et se trouve dans la plupart des cas aux alentours de l'abscisse 30 de freq10. On le retrouve chez les discontinus mais il varie beaucoup d'une classe à l'autre et d'un génome à l'autre. Cependant, s'il se comporte de façon analogue dans les classes A et B, dans C1 seuls ase (abscisse 40) et cvi (30) font de même, avec la différence notable, pour ces 2 là, d'avoir une courbure courb1. Sinon 4 C1, bsu lmo psor ban, ont l'abscisse à 10 et les 6 autres à 20.
- + La courbure courb4: A part ase tous les C1 ont un coefficient négatif de x3 et donc n'ont pas de courbure, courb4. C'est la même situation qu'avec les B. En éliminant les 1ères abscisses, 10 20 30, j'arrive à trouver une courb4 aussi faible que celle des B, à part bsu lmo psor ban pour qui j'ai trouvé une forte courbure, courb4, en abscisse 70 (ban) ou 60 pour les 3 autres, et non pour des abscisses inférieures. Cette ressemblance entre les 2 classes renforce nettement la continuité entre elles. C'est ce qui m'a amener à classer ase, mais aussi bsu lmo, dans la classe C1 comme je le montre au chapitre suivant sur les dômes.
- + Les dômes: Ils agissent sur la courbure, courb1, par l'abscisse, adom, et le taux %dom. La courbure est d'autant plus faible que l'abscisse est faible et que le taux est élevé. Dans le cas de C1 adom et %dom sont très homogènes, avec les moyennes respectives de 55 et 132 avec le même m/e de 5.1. Par contre la courbure, courb1, et l'abscisse du sommet sont hétérogènes et faibles, respectivement -1.775 (m/e 3.8) et 45.3 (m/e 1.6). Comparés aux moyennes de C2, ces dernières sont très homogènes avec un m/e supérieur à 5.1, avec une courbure 2 fois plus élevée (-3.311 contre -1.775) et un sommet, soma, 2 fois plus éloigné (100 contre 45), dues au fait que adom est 50% plus éloignée (55 contre 74) avec un taux %dom presque équivalant mais plus faible (125 contre 132). Les moyennes des dômes différencient nettement les 3 classes B C1 C2.
- + Les diagrammes des courbures: La classe C1 est différente des 4 autres diagrammes parce qu'elle est homogène et à peine décroissante (R2 0.146), alors que les autres sont nettement croissants ou décroissants avec une homogénéité variable.
- + Le passage de B12 à C10, oan1 à bsu. Le x=0 décroît régulièrement de A0 jusqu'à B12 (43) puis au-delà de C12 (ase 41). Mais bsu et lmo arbore un x=0 très élevé (62 et 59), en rupture avec la décroissance. Ces 2 génomes présentent la particularité d'avoir un %t20 à pente positive qui fait partie du dôme. Ce qui est nettement différent des classes A et B qui ont des pentes négatives, avec un long1 des B au même niveau que le sommet de leur dôme. Or la particularité des C1 est d'avoir un long1 inférieur au sommet du dôme ce qui est le cas de bsu lmo psor ban, puisque long1 est leur minimum local. Une autre particularité des C1 est d'avoir une courbure courb1 sauf pour bsu et lmo. Mais le fait qu'ils partagent un long1 avec psor et ban qui ont, eux une courbure, autorise à les classer ensemble et à placer bsu lmo en 1er puisqu'ils n'ont pas de courbure qui est faible mais croissante chez les C1.
- Classe C2
- + Le x=0 décroît régulièrement, sans intrus, à la suite et en continuité de la classe C1, de 27 à 7.
- + En parallèle la courbure, courb1, croît fortement dans les diagrammes des courbures (R2 0.730), avec une moyenne très homogène (m/e 5.1), -3.311, la plus élevée des 5 classes. Par contre les sommets, soma, croissent régulièrement de 86 à 117, avec une moyenne de 100 très homogène, m/e de 11, parmi les plus forts de toutes les moyennes du tableau, conséquence de la faible croissance des sommets. Le %t20 qui suit globalement l'évolution de x=0, ici, dans C2 son évolution est plus homogène que celui de C1(m/e 2.8 contre 2.1 pour C1) et ne manifeste pas, aussi, de croissance nette. Le diagramme des classes montre bien que le %t20 de C2 est régulier, avec un seul intrus, celui de lbu avec 7%. La courbure, courb1, différencie nettement C2 et C1.
- + Le minimum local à t30: La disparition du minimum local est encore plus accentuée chez les C2 que chez les C1. La moyenne de %t20 est 2 fois plus élevée chez C1 que chez C2, 47.7 contre 29.3 et beaucoup plus hétérogène (m/e 2.1 contre 2.8 pour C2 avec l'intrus); en omettant l'intrus, lbu, je trouve m e m/e 32.0 6.8 4.7 ce qui montre le maintient de la moyenne et l'augmentation nette de l'homogénéité de C2. Les diagrammes x+ montrent clairement que les t30 sont aussi insignifiants que chez les D1 par rapport à ceux de C1: cC12 C12 - C19 cC19a C19a - C25 cC26 C26 - D14.
- + Les dômes: Ils agissent sur la courbure, courb1, par l'abscisse, adom, et le taux %dom. La courbure est d'autant plus faible que l'abscisse est faible et que le taux est élevé. Dans le cas de C2 adom et %dom sont encore plus homogènes que chez C1, avec les moyennes respectives de 74 et 125 et les m/e de 10 et 5.9. Au contraire de C1, la courbure, courb1, et l'abscisse du sommet, soma, sont très homogènes et forts, respectivement -3.311 (m/e 5.1) et 99.6 (m/e 10.6). Comparés aux C1, les moyennes de C2 sont très homogènes avec un m/e supérieur à 5.1, avec une courbure 2 fois plus élevée (-3.311 contre -1.775) et un sommet, soma, 2 fois plus éloigné (100 contre 45), dues au fait que adom est 50% plus éloignée (55 contre 74) avec un taux %dom presque équivalant mais plus faible (125 contre 132). Les moyennes des dômes différencient nettement les 3 classes B C1 C2.
- + Les diagrammes des courbures: La classe C2 est nettement croissante (R2 0.730) comme la classe D2 (R2 0.612), alors que C1 est à peine décroissante mais très homogène et D1 est moyennement décroissante.
- Classe D: voir le chapitre sur les courbures ci-dessus.
- Moyennes: ne sont pas compris dans ces moyennes bsu lmo (C1) et mba mfe (D1)
%t20 m e m/e gen courb1 m e m/e gen
A-B 147.2 53.8 2.7 14 A41 -2.196 0.934 -2.4 9
C1 47.7 22.8 2.1 10 B <0 - -
C2 29.3 10.4 2.8 9 C1 -1.775 0.473 -3.8 10
D1 14.4 8.7 1.7 10 C2 -3.311 0.655 -5.1 9
D2 42.3 13.0 3.2 11 D1 -1.763 0.862 -2.0 10
D32-33 77 - - 2 D2 -2.492 0.843 -3.0 11
adom %dom
C1 55.0 10.8 5.1 10 C1 131.8 25.9 5.1 10
C2 74.4 7.3 10.2 9 C2 125.2 21.4 5.9 9
soma somo
A 93.4 20.6 4.5 9 A 32.5 3.0 10.9 9
B <0 - - B <0 - -
C1 45.3 28.8 1.6 10 C1 37.5 2.6 14.3 10
C2 99.6 9.4 10.6 9 C2 36.7 5.9 6.3 9
D1 157.0 23.5 6.7 10 D1 28.6 6.5 4.4 10
D2 100.2 22.2 4.5 11 D2 35.8 6.3 5.6 11
- Diagrammes fx% étendus à 800 des classes D1 et D2
gen x+ 400 x+ 800
D1
pmq -6.46 10.4
cbei -2.49 9.38
ppm -1.18 21.4
cbc 4.94 9.72
mba 6.43 8.93
mfe 12.8 16.5
D2
spl 6.45 23.8
npu 18.4 27.1
sma 25.9 36.6
ksk 39.4 44.7
ase 40.7 49.3
Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x.Modifier
- Lien au tableur: Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x..
- Diagrammes fx%: alpha1 alpha2 bacilli gamma spl bde clostridia actino archeo afn cyano tenericutes bacteroide spiro fcp1 fcp2
- Légende:
- - Les colonnes
- + du tableau des effectifs: taille pour total, %reste reste au delà 400pbs / taille, %t30 somme des freq10 10 20 30 / taille, de même pour les intercalaires nuls.
- + du tableau des diagrammes: flexa pour abscisse du point d'inflexion de la courbe de tendance en polynôme de d°3 et R2 41 son coefficient de détermination du diagramme fc41; fcp pour abscisse (en freq10) des taux fc% pour laquelle la courbe de tendance commence à devenir positive (constante du monôme x3), pour une valeur de 2 la courbe de tendance démarre à 21 pbs c'est à dire l'abscisse freq10 de 30.
- + des rapports,
- - classe, c'est la classe des diagrammes fx% listée dans le chapitre des discontinus positifs.
- - %x+, taux des discontinus par rapport au total positifs, zéros compris, continus plus discontinus.
- - corelaxc, coefficient de corrélation entre les freq10 de 41 à 200 pbs des continus et des discontinus. J'ai fait le digramme corel freq1 (fréquences unitaires) en fonction de corel freq10 (fréquences regroupées par 10) pour la plage 41-200 pbs. La courbe de tendance qui passe par zéro a pour équation 0.340x avec un R2 de 0.811 et sans forcer à zéro 0.336x + 0.003 avec un R2 de 0.743. Lien au tableur.
- - t30c/x et restx/c sont les rapports des colonnes correspondantes.
- - Les valeurs remarquables sont indiquées en gras pour les maxima et en bleu pour les minima, en rouge pour les fcp qui représentent les courbes à constante négative quelque soit les tests effectués et en orange ses valeurs 0 et 1. En jaune ce sont les points d'inflexion anormaux et le vert ceux qui sont proches de l'extrémité 400 du diagramme.
- Note: les corrélations entre colonnes. Les coefficients sont calculés après tri sur toute colonne sauf clade.
c/x t r 30 0
ct 0.868 0.119 -0.306 -0.231
r 0.156 0.967 -0.492 -0.347
30 -0.480 -0.631 0.495 0.586
0 -0.281 -0.152 0.402 0.674
cc t r 30 0
t * 0.180 -0.420 -0.234
r * -0.606 -0.142
30 * 0.588
0 *
xx t r 30 0
t * 0.068 -0.098 -0.116
r * -0.523 -0.371
30 * 0.584
0 *
int51.cx Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x.
|
|
c+ |
x+ |
Rapports
|
---|
clade |
gen |
taille |
%reste |
%t30 |
%0 |
R2 41 |
flexa |
fcp |
taille |
%reste |
%t30 |
%0 |
classe |
%x+ |
corelaxc |
t30c/x |
restx/c
|
---|
act1 |
ase |
3854 |
7.6 |
24.4 |
0.3 |
0.972 |
333.3 |
-1 |
2691 |
9.7 |
12.1 |
0.7 |
C12 |
41 |
0.918 |
2.0 |
1.3
|
act2 |
blo |
1045 |
4.9 |
19.8 |
0.1 |
0.906 |
188.5 |
2 |
499 |
9.8 |
8.0 |
0.4 |
D27 |
32 |
0.406 |
2.5 |
2.0
|
act3 |
ksk |
3995 |
7.9 |
12.9 |
0.1 |
0.955 |
193.3 |
0 |
2564 |
11.6 |
11.3 |
0.3 |
D32 |
39 |
0.766 |
1.1 |
1.5
|
act4 |
sma |
3894 |
8.4 |
17.8 |
0.2 |
0.952 |
198.2 |
1 |
2581 |
11.6 |
8.8 |
0.3 |
D28 |
40 |
0.801 |
2.0 |
1.4
|
act5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
al1 |
abq |
1565 |
3.6 |
25.4 |
0.2 |
0.949 |
188.0 |
2 |
890 |
9.2 |
19.8 |
0.2 |
A24 |
36 |
0.227 |
1.3 |
2.5
|
al2 |
abqp |
921 |
5.0 |
25.1 |
0.2 |
0.930 |
176.0 |
3 |
497 |
8.7 |
19.1 |
0.2 |
A26 |
35 |
0.302 |
1.3 |
1.7
|
al3 |
abs |
1570 |
3.5 |
24.8 |
0.3 |
0.952 |
197.1 |
2 |
883 |
10.2 |
18.9 |
0.2 |
A25 |
36 |
0.412 |
1.3 |
2.9
|
al4 |
absp |
873 |
5.0 |
26.0 |
0 |
0.910 |
168.6 |
3 |
472 |
11.0 |
19.7 |
0 |
A23 |
35 |
0.272 |
1.3 |
2.2
|
al5 |
agrc |
1466 |
2.3 |
26.2 |
0.2 |
0.908 |
216.8 |
2 |
796 |
7.2 |
13.3 |
1.1 |
B10 |
35 |
0.034 |
2.0 |
3.1
|
al6 |
agrl |
1040 |
3.9 |
32.7 |
0.1 |
0.924 |
507 |
3 |
499 |
8.4 |
12.0 |
0.2 |
D33 |
32 |
0.454 |
2.7 |
2.1
|
al7 |
aua |
1803 |
5.1 |
25.1 |
0 |
0.931 |
201.3 |
1 |
975 |
9.9 |
12.9 |
0.3 |
B11 |
35 |
0.585 |
1.9 |
1.9
|
al8 |
oan1 |
1517 |
4.6 |
27.4 |
0.5 |
0.901 |
188.3 |
2 |
771 |
9.1 |
11.3 |
1.5 |
B12 |
34 |
0.310 |
2.4 |
2.0
|
al9 |
oan2 |
914 |
3.5 |
34.1 |
0.1 |
0.863 |
129.8 |
4 |
460 |
8.7 |
13.7 |
0.4 |
A27 |
33 |
0.189 |
2.5 |
2.5
|
alp1 |
pub |
601 |
0.7 |
56.1 |
5.9 |
0.939 |
278.6 |
-1 |
234 |
1.7 |
29.5 |
4.0 |
A0 |
28 |
0.865 |
1.9 |
2.6
|
alp2 |
rpl |
527 |
19.4 |
22.4 |
0.8 |
0.822 |
229.1 |
1 |
183 |
32.2 |
4.4 |
0 |
C27 |
26 |
0.051 |
5.1 |
1.7
|
alp3 |
rpm |
1847 |
4.1 |
23.4 |
0.4 |
0.945 |
195.3 |
2 |
906 |
11.8 |
3.2 |
0.4 |
C18 |
33 |
0.395 |
7.2 |
2.9
|
alp4 |
rru |
2136 |
3.3 |
25.7 |
0.4 |
0.963 |
52.4 |
2 |
967 |
9.3 |
15.2 |
0.1 |
A28 |
31 |
0.189 |
1.7 |
2.8
|
alp5 |
rtb |
505 |
19.8 |
23.4 |
0.7 |
0.804 |
230.0 |
1 |
186 |
35.5 |
3.2 |
0.5 |
C28 |
27 |
-0.105 |
1.7 |
1.8
|
alp6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
arc1 |
mfe |
2011 |
23.2 |
15.9 |
0.8 |
0.872 |
4261.2 |
-1 |
1067 |
34.9 |
4.4 |
0.1 |
D19 |
35 |
0.327 |
3.6 |
1.5
|
arc2 |
mfi |
1545 |
6.0 |
20.2 |
1.7 |
0.937 |
164.3 |
2 |
626 |
15.8 |
5.8 |
0 |
D23 |
29 |
-0.043 |
3.5 |
2.6
|
arc3 |
mba |
2379 |
29.7 |
14.9 |
0.8 |
0.739 |
246.6 |
-1 |
1235 |
42.8 |
2.6 |
0.1 |
D18 |
34 |
-0.317 |
5.7 |
1.4
|
arc4 |
mja |
1069 |
1.1 |
39.7 |
0.9 |
0.960 |
413.1 |
-1 |
441 |
5.4 |
22.0 |
2.0 |
A21 |
29 |
0.326 |
1.8 |
4.8
|
arc5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bac1 |
bsu |
2512 |
2.0 |
32.4 |
0.8 |
0.936 |
166.0 |
3 |
1093 |
5.5 |
13.1 |
0.2 |
C10 |
30 |
0.005 |
2.5 |
2.8
|
bac2 |
ban |
3289 |
5.1 |
25.9 |
0.9 |
0.900 |
198.3 |
3 |
1579 |
10.3 |
8.7 |
0 |
C14 |
32 |
0.106 |
3.0 |
2.0
|
bac3 |
lam |
1248 |
2.0 |
34.8 |
1.1 |
0.875 |
-166.3 |
4 |
483 |
5.6 |
4.8 |
0.4 |
C20 |
28 |
0.490 |
7.3 |
2.8
|
bac4 |
lbu |
1098 |
4.6 |
31.7 |
0.7 |
0.936 |
162.1 |
3 |
411 |
7.8 |
2.9 |
0.5 |
C23 |
27 |
0.558 |
10.9 |
1.7
|
bac5 |
lmo |
1849 |
2.8 |
36.5 |
1.2 |
0.850 |
201.9 |
3 |
587 |
6.3 |
8.5 |
0.2 |
C11 |
24 |
-0.178 |
4.3 |
2.3
|
bac6 |
pmq |
4540 |
7.8 |
20.0 |
0.5 |
0.950 |
387.5 |
5 |
1888 |
14.0 |
2.7 |
0.3 |
D12 |
29 |
-0.836 |
7.4 |
1.8
|
bac7 |
ppm |
3176 |
7.0 |
21.3 |
0.5 |
0.956 |
201.3 |
2 |
1267 |
11.9 |
3.7 |
0 |
D14 |
29 |
-0.129 |
5.8 |
1.7
|
bac8 |
ppmp |
438 |
12.3 |
14.8 |
0.6 |
0.726 |
196.4 |
0 |
107 |
23.4 |
3.7 |
0 |
D16 |
20 |
0.044 |
4.0 |
1.9
|
bac9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bct1 |
myr |
2273 |
7.9 |
35.9 |
0.5 |
0.891 |
-134.8 |
3 |
980 |
14.9 |
6.0 |
0.5 |
C19b |
30 |
0.642 |
6.0 |
1.9
|
bct2 |
fps |
1628 |
6.2 |
29.7 |
0.8 |
0.943 |
319.8 |
2 |
560 |
13.4 |
7.9 |
1.2 |
D26 |
26 |
0.451 |
3.8 |
2.2
|
bct3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bde1 |
cvi |
2412 |
3.9 |
29.0 |
0.3 |
0.915 |
1288.8 |
2 |
1114 |
8.0 |
10.1 |
0.4 |
C15 |
32 |
0.860 |
2.9 |
2.1
|
bde2 |
ade |
2335 |
3.4 |
32.2 |
0.6 |
0.952 |
-975.1 |
2 |
1314 |
5.3 |
20.7 |
0.8 |
A22 |
36 |
0.591 |
1.6 |
1.5
|
bde3 |
ant |
1700 |
1.7 |
46.2 |
2.4 |
0.925 |
437.1 |
2 |
633 |
3.5 |
26.4 |
1.2 |
A20 |
27 |
0.274 |
1.8 |
2.0
|
bde4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clo1 |
cbc |
2572 |
12.7 |
25.5 |
0.8 |
0.885 |
164.9 |
4 |
719 |
23.9 |
2.5 |
0.1 |
D17 |
22 |
-0.676 |
10.2 |
1.9
|
clo2 |
cbei |
4010 |
14.9 |
20.6 |
0.4 |
0.931 |
-3362 |
4 |
1212 |
21.6 |
2.1 |
0 |
D13 |
23 |
-0.509 |
10.0 |
1.5
|
clo3 |
cbn |
1775 |
3.5 |
29.9 |
0.5 |
0.941 |
186.3 |
3 |
540 |
9.6 |
5.9 |
0.2 |
C19 |
23 |
0.552 |
5.0 |
2.8
|
clo4 |
cdc |
2589 |
9.5 |
29.5 |
1.3 |
0.903 |
430.8 |
-1 |
640 |
19.5 |
0.5 |
0 |
D10 |
20 |
-0.587 |
62.9 |
2.1
|
clo5 |
cdc8 |
2727 |
8.9 |
30.0 |
1.3 |
0.905 |
551.3 |
-1 |
686 |
20.1 |
1.7 |
0 |
D11 |
20 |
-0.640 |
17.1 |
2.3
|
clo6 |
cle |
2900 |
6.4 |
30.3 |
1.0 |
0.948 |
181.0 |
4 |
779 |
10.7 |
2.6 |
0 |
D15 |
21 |
0.269 |
11.8 |
1.7
|
clo7 |
hmo |
1867 |
5.8 |
24.6 |
0.8 |
0.959 |
151.9 |
3 |
460 |
12.6 |
5.0 |
0 |
D22 |
20 |
0.180 |
4.9 |
2.2
|
clo8 |
psor |
2350 |
5.6 |
32.0 |
0.9 |
0.926 |
219.5 |
3 |
693 |
9.1 |
9.5 |
0.1 |
C13 |
23 |
-0.473 |
3.4 |
1.6
|
clo9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
cya1 |
npu |
3999 |
14.7 |
11.9 |
0.3 |
0.913 |
169.8 |
0 |
2307 |
23.2 |
6.3 |
0.2 |
D25 |
37 |
0.428 |
1.9 |
1.6
|
cya2 |
pmg |
948 |
2.2 |
40.7 |
3.1 |
0.963 |
318.2 |
-1 |
599 |
4.5 |
30.2 |
1.6 |
A1 |
39 |
0.739 |
1.3 |
2.0
|
cya3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ga1 |
amed |
2382 |
4.6 |
33.8 |
0.4 |
0.902 |
186.0 |
2 |
1343 |
8.2 |
5.9 |
0.1 |
C21 |
36 |
0.717 |
5.8 |
1.8
|
ga2 |
eal |
2286 |
6.0 |
32.7 |
0.6 |
0.966 |
349.1 |
3 |
1185 |
10.3 |
6.4 |
0.9 |
C16 |
34 |
0.673 |
5.1 |
1.7
|
ga3 |
eco |
2204 |
2.9 |
31.2 |
0.6 |
0.938 |
-1789.2 |
3 |
1074 |
5.3 |
8.4 |
1.1 |
C19a |
33 |
0.324 |
3.7 |
1.8
|
ga4 |
ecoN |
2822 |
4.4 |
24.1 |
0.8 |
0.959 |
434.8 |
3 |
1382 |
10.3 |
3.1 |
1.2 |
C17 |
33 |
0.596 |
7.8 |
2.3
|
ga5 |
spl |
2482 |
10.2 |
24.1 |
0.7 |
0.976 |
150.5 |
2 |
1305 |
17.6 |
3.1 |
0.1 |
D21 |
34 |
0.740 |
3.5 |
1.7
|
ga6 |
vha1 |
1945 |
7.5 |
27.5 |
0.4 |
0.929 |
189.7 |
2 |
934 |
13.4 |
4.6 |
0.3 |
C25 |
32 |
0.533 |
6.0 |
1.8
|
ga7 |
vha2 |
1075 |
7.8 |
25.1 |
1.2 |
0.877 |
3.6 |
2 |
689 |
13.9 |
6.1 |
0.1 |
C22 |
39 |
0.728 |
4.1 |
1.8
|
ga8 |
vpb1 |
1757 |
5.3 |
31.6 |
0.4 |
0.947 |
214.3 |
3 |
782 |
11.5 |
4.2 |
0.1 |
C24 |
31 |
0.600 |
7.5 |
2.2
|
ga9 |
vpb2 |
828 |
7.6 |
28.1 |
1.1 |
0.764 |
185.9 |
3 |
561 |
12.7 |
5.0 |
0.2 |
C26 |
40 |
0.516 |
5.6 |
1.7
|
gam |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
neg1 |
afn |
1385 |
3.9 |
38.5 |
0.5 |
0.893 |
164.2 |
3 |
346 |
4.6 |
4.0 |
0.6 |
D24 |
20 |
-0.025 |
9.5 |
1.2
|
neg2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
spi1 |
scc |
1000 |
3.4 |
33.9 |
0.5 |
0.938 |
321.3 |
-1 |
458 |
8.5 |
10.7 |
0.4 |
D29 |
31 |
0.445 |
3.2 |
2.5
|
ter1 |
abra |
980 |
3.4 |
39.4 |
0.9 |
0.909 |
148.9 |
2 |
270 |
5.2 |
8.9 |
0.4 |
D31 |
22 |
0.713 |
4.4 |
1.5
|
ter2 |
apal |
919 |
4.1 |
38.8 |
0.8 |
0.951 |
-261.8 |
2 |
191 |
2.6 |
11.0 |
0 |
D30 |
17 |
0.549 |
3.5 |
0.6
|
ter3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
totale |
58 |
113,377 |
7.3 |
26.5 |
0.8 |
0.989 |
120.9 |
3 |
51,594 |
12.8 |
8.9 |
0.4 |
D28 |
31.3 |
0.975 |
3.0 |
1.8
|
Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x. NoteModifier
- Les taux
- + %t30. Dans la compilation totale j'ai 26.5 et 8.9 pour c+ et x+, avec un rapport t30c/x de 3.0 et un coefficient de corrélation t30/t30 de 0.495.
- %t30c: La plage moyenne regroupe 43 éléments avec des taux de 27.5±7.5. Les extrêmes sont au nombre de 15 allant de 36 à 56% (9) et de 12 à 18% (6). Les clades alpha (sans pub), gamma et clostridia sont homogènes, d'après le tableau en bas de la note, avec des rapports m/e supérieurs à 7 alors que celui de la totale est de 3.5 et que les bacilli le sont beaucoup moins (m/e de 3.5 et 4.4 en retirant ppmp).
- %t30x: La plage moyenne regroupe 41 éléments avec des taux de 9.0±6.0. Les extrêmes sont au nombre de 17 allant de 19 à 30% (9) et de 0.5 à 2.9% (8). Les clades alpha- (sans rtb rpl et rpm) et gamma sont relativement homogènes, d'après le tableau en bas de la note, avec des rapports m/e supérieurs à 3 alors que celui de la totale est de 1.3, des bacilli 1.6 et des clostridia 1.3. Les alpha- se distinguent des gamma par une moyenne très élevée, 17% contre 5%. Et les clostridia réunissent les taux les plus bas (5 sur 8) alors que les bacilli en ont un peu moins (4 sur 8).
- Importance des %t30: explique les colonnes R2 41, flexa, fcp, classe, corelaxc et les colonnes courbe et courb4 du chapitre sur le classement des discontinus, x+. Prendre un exemple de bacilli ou clostridia x+ à comparer avec les c+ de fcp2, pmq lam cbc cbei tous fcp 4. Diviser un diagramme c+ ou x+ en t30, 41-200 au point d’inflexion qui contiendrait des séquences de contrôle cis et la queue après le point d'inflexion. Cette queue de grands intercalaires serait sans intérêt et augmenterait la corrélation corelaxc aussi j'ai réduit cette corrélation à la plage 41-200.
- + Cependant %t30x+ ne peut pas être utilisé pour le classement. Ainsi bsu et oan2 présentent le même taux mais la pente t30 de bsu est positive alors que celle de oan2 est négative. De même j'ai pu comparer ban psor lmo à eco eal et cvi.
- + Le dôme: je l'ai introduit pour justement différencier les pentes négatives des positives des %t30x+. Je l'ai caractérisé par son abscisse, adom, et son taux, %dom, qui est la somme des ordonnées de ses 2 abscisses proches l'une de l'autre. Et pour relativiser le dôme j'y ai adjoint son équivalant, à la colonne %t20, qui ne retient du %t30 que les 2 1ères abscisses.
- + Le %t20: c'est pour éviter le minimum local du %t30 ou sa pente positive comme dans le cas de bsu. En fait il fallait que je caractérise les diagrammes qui sont sans minimum local et sans dôme. C'est le cas de agrl ksk sma qui se sont révélés des chromosomes linéaires présentant cette caractéristique. Le %t20 va aussi caractériser les diagrammes à forte courbure du sommet du polynôme de d°3 et ne présentant ni minimum local ni dôme, comme npu apal sma blo dans cD24.
- + %reste. Dans la compilation totale j'ai 7.3 et 12.8 pour c+ et x+, avec un rapport restx/c de 1.8 et un coefficient de corrélation r/r de 0.967.
- + %0. Dans la compilation totale j'ai 0.8 et 0.4 pour c+ et x+, avec un coefficient de corrélation 0/0 de 0.674.
- Comparaison entre éléments d'un génome: le chromosome et son plasmide, entre 2 chromosomes circulaires et 1 circulaire l'autre linéaire (agrc agrl).
- + abq abs, sont tout les 2 des Azospirillum, les 4 éléments se ressemblent beaucoup. En plus la différence entre plasmide et chromosome se retrouve entre les 2 génomes. Ce qui fait que les chromosomes sont semblables entre eux, et de même pour les plasmides.
- + rpl rtb, sont tout les 2 des Rickettsia (typhus group). Les 2 génomes se comportent de la même façon.
- + oan1 oan2, sont 2 chromosomes circulaires mais de tailles différentes, resp. 1517..914 en c+ et 771..460 en x+. Dans les rapports ils sont semblables, %x+ %t30c/x %restx/c et la classe, sauf pour la corrélation 41-200 qui diffère nettement, 0.310 contre 0.190. Les 2 chromosomes diffèrent dans les taux, si oan1 est plus grand en taille il a plus de %reste et moins de %t30. Ils diffèrent aussi dans leurs courbes dans l'image alpha1 des discontinus, oan1 présentant un max à l'abscisse 60 tandis que oan2 le présente en 110. Du coup le point d'inflexion et le fcp sont très différents.
- + agrc agrl, agrc est un chromosome circulaire alors que agrl est linéaire. La courbe de agrc x+ est semblable à celle de oan1 x+ qui se trouve aussi dans l'image alpha1. C'est la même classe B1 avec un coefficient de x3 négatif, l'ordonnée de l'abscisse 10 est au même niveau que celle du dôme (abscisse 50 et 60 respectivement) et le minimum local est à l'abscisse 30 et 40 respectivement. C'est la définition même de la classe B1. Par contre agrl ressemble beaucoup à sma npu, avec un coefficient de x3 positif et l'absence du minmum local et du dôme aux abscisses supérieures à 40. Le chromosome de sma est linéaire et celui de npu circulaire. La classe de agrl est D33 quasiment identique à celle de ksk qui a un chromosome linéaire aussi. Ils ont les mêmes caractéristiques dans le tableau des classes et notamment un x=0 de 42 et 39 pour ksk. C'est avec les courbes c+ que agrl se distingue de sma npu ksk avec un fcp de 3 pour agrl contre respectivement 1 0 0 pour les 3 autres. En conclusion agrl se comporte bien comme un chromosome linéaire comme sont ksk et sma.
- + mfe mba, sont 2 Methanosarcina se ressemblent beaucoup dans le tableau mais diffèrent nettement dans les rapports (corrélation, t30c/x), par la taille (20% de plus pour c+ et x+) et les taux (%reste %t30). Ils sont de même classe (D19 D18) et les colonnes %x+ fcp restx/c sont presque identiques.
- + ppm ppmp: Une séquence de 31 aas comme ppm et la courbe, malgré un total représenté (diagr) de 82 intercalaires ressemble beaucoup à celle de ppm (voir l'image des bacilli).
- + cdc cdc8, sont identiques dans le tableau. Ce sont seulement 2 souches différentes du même génome, Clostridioides difficile CD196 et M68.
- + eal eco ecoN, ce sont 3 escherichia, 2 coli, eco ecoN, et une albertii, eal. Ils diffèrent par les tailles c+ avec eco = eal, ecoN+30%, et les tailles x+ avec eal eco+10% ecoN+30%. Ils ont en commun le rapport %x+ et la classe C1. Sinon tout le reste diffère entre eux.
- + vpb vha, ce sont 2 vibrio qui diffèrent par les tailles. Chacun a 2 chromosomes circulaires. Cependant les 2 génomes sont analogues si on ne tient compte que des taux et des rapports. Par contre dans chaque génome les 2 chromosomes se comportent différemment; ainsi flexa %t30x+ %x+ t30c/x diffèrent nettement, tout le reste étant semblable par ailleurs, notamment la classe qui est C2. Le comportement de 2 chromosomes de même taille est identique, il y a un parallélisme en fonction de la taille. Je penses que les 2 génomes sont semblables.
- + abra apal: ce sont 2 génomes différents en phylogénie, respectivement, Acholeplasmataceae Paracholeplasma brassicae et Acholeplasmataceae Alteracholeplasma palmae. Ils diffèrent en taille x+ de plus de 41%, respectivement 270 et 191 pbs. Si les caractéristiques c+ du tableau sont semblables le diagramme de abra x+ présente un dôme à l'abscisse 50 que apal x+ ne possède pas. J'ai donné la classe D31 à abra x+, parce que sa courbure est très forte, -3.934, comparée à celles de ban (-1.565) et psor (-0.901) qui ont un dôme semblable à abra x+. Les caractéristiques x+ du tableau diffèrent nettement entre les 2 génomes pour %x+ %restex t30c/x et moins pour %t30x et corelaxc. Ils ont en commun la classe D3 (D31 D30) avec un x=0 de 37 et 30 respectivement. Les 2 génomes ont conservé une séquence de 11 gènes tRNA (aas) que j'ai notée dans les intercalaires extra bloc.
- Les diagrammes
- - Le point d'inflexion à 200 pbs pour les courbes 41-400 des continus. Il permet d'introduire le coefficient de corrélation, dans la zone 41-200, entre c+ et x+. Dans la colonne flexa, 34 génomes ont l'abscisse du point d'inflexion contre entre 130 et 230, 8 génomes entre 250 et 390 et les 16 restants sont en dehors de la plage 130-400.
- - Le R2 41 permet de montrer l'homogénéité des courbes c+ par rapport à celles des x+. Seulement 3 génomes ont un R2 41 inférieur à 0.800, ppmp avec la plus petite taille c+ de l'étude (438 pbs), mba qui, malgré une grande taille (2379 pbs), est désavantagé par un %reste le plus élevé de 30%, enfin reste vpb2 qui a aussi une petite taille de 828 pbs juste après rpl et pub.
- - le fcp qui fait ressortir certaines courbes c+ sans le t30: les fcp 0 sont ksk npu ppmp. Les fcp 1 sont sma rpl rtb aua. Il y a 9 fcp-1, 19 fcp2, 17 fcp3, 5 fcp4 et 1 fcp5. Total 58 génomes. Voici 16 diagrammes, c+ x+ du même génome, avec leurs corrélations cx, corelaxc: fcp1 fcp2.
- Les rapports qui permettent de mettre en valeur les classes.
- - t30c/x
- + pour un rapport plus grand que 7.2 il y a 11 éléments dont 6 D1, 3 C2, 1 D2 (afn), 1 C1 (ecoN C17).
- + pour un rapport plus petit que 2.5 il y a 21 éléments dont 14 sont de classe A et B, 4 de classe D et 3 de classe C.
- + entre ces 2 limites il y a 26 éléments sans classes A et B. Avec 9 C1, 5 C2, 4 D1 et 8 D2.
- - restx/c: ce rapport n'est pas pertinent et le taux des restes, %reste est caractéristique de quelques génomes seulement comme rtb et mba. Voir l'étude de ces taux au début de la note.
- - %x+: le rapport de la compilation totale est égal à 31.3% avec un coefficient de corrélation t/t de 0.868. Les clades se distinguent par leurs moyennes nettement différentes les unes des autres dans le tableau en bas de la note, avec des rapports m/e supérieurs à 10 alors que celui de la totale est de 5 (clostridia+, les 8 plus afn (un négtivicutes) et apal abra qui se comportent comme les clostridia par ailleurs; bacilli, sans ppmp qui abaisse fortement m/e, 27.4 4.0 6.9, parce que ses effectifs sont les plus petits, total 545 contre 691 pour rtb),
- - La classe: tirée du classement des diagrammes des discontinus x+
- - corelaxc: J'ai présenté 3 diagrammes chacun représentant les 2 courbes de tendances c+ x+ du même génome. Le diagramme de pmq a une corrélation négative maximale de -0.836, celui de ase une corrélation positive maximale de 0.918 et celui de agrc de corrélation nulle, 0.034.
- + Analyse de la corrélation positive: diagramme de la totale avec une corrélation proche de l'unité, formation de la discontinuité sans modification de la séquence d'ADN.
- + Analyse de la corrélation négative: modification de la séquence d'ADN lors de la création de la discontinuité
- + Intérêt de la colonne corelaxc: permet d'avoir une idée des modifications de l'ADN lors de la formation de la discontinuité sans passer à la visualisation des diagrammes.
%x+ m e m/e gen %t30c m e m/e gen %t30x m e m/e gen
actino 38.1 3.9 9.7 4 actino 18.7 4.7 4.0 4 actino 10.0 2.0 5.2 4
alpha 32.6 3.4 9.5 14 alpha 26.3 3.4 7.6 13 alpha 14.0 7.3 1.9 14
archeo 31.7 3.1 10.1 4 archeo 22.7 11.6 2.0 4 archeo 8.7 9.0 1.0 4
bacilli 28.6 2.6 10.9 7 bacilli 29.0 6.6 4.4 7 bacilli 6.0 3.7 1.6 8
clostridia 21.5 1.5 14.3 8 clostridia 27.8 3.8 7.3 8 clostridia 3.7 2.9 1.3 8
gamma 34.8 3.2 10.9 9 gamma 28.7 3.8 7.6 9 gamma 5.2 1.7 3.0 9
clostri+ 21.0 1.8 11.4 11 bacilli+ 27.2 7.9 3.5 8 alpha- 16.9 5.3 3.2 11
total 30.3 6.2 4.9 58 total 28.2 8.1 3.5 58 total 9.3 7.1 1.3 58
Intergen51. Classement des courbes CDS-CDS positifs continus.Modifier
Intergen51. Classement des courbes CDS-CDS positifs continus fc40Modifier
- Diagrammes fc40: alpha1 alpha2 bacilli gamma spl bde clostridia actino archeo afn cyano tenericutes bacteroide spiro
- Diagrammes fc40 par clade: archeo alpha clostridia bacilli actino gamma
- Pense bête
- - Le diagramme en V: sur 58 étudiés, 14 non, 3 faibles et 41 forts.
- alpha 14 5472 0.973 6-7 fort.
- + forts rpm 0.787 rru 0.876; 6-7 574 631; sup 0.817 oan1 oan2 agrc agrl, 6-7 sauf agrc 8, 463 361 440 374
- + faibles abs et p 0.726 0.450, 6, 466 271
- + non abq 193 et p 291, rtb 131 rpl 129 aua 149 pub 367 (0.977)
- gamma 9 bacilli 8 clostridia 8; tous forts, 5728 0.908 6 6587 0.921 7 5583 0.916 8 .
- actno 4, 2956 0.783 7 faible
- + forts ase 6 0.793 1166
- + non sma 0.761 862 ksk 0.620 687 blo 0.628 241
- archeo 4, 1650 0.758 7 faible .
- + forts 6 mfi mja 0.749 368, 0.595 474
- + faible mfe 7 0.772 1166
- + non mba 0.581 428
- reste, 11.
- + forts bde 6 sup 0.871 813 875 838
- + forts afn scc 6 sup 0.820 581 388
- + forts tener abar apal 6-7 sup 0.895 420 391
- + non bacteroide fps myr sup 0.917 561 899
- + non cyano npu pmg 0.555 607, 0.764 450
- - Le V n'existe pas chez les discontinus même quand il y a un effectif élevé dans la plage 1-40, et la plupart des cas, ces effectifs sont très faibles pour faire un diagramme.
- Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc40.
- Légende
- - maxp, 1-8-11 et de façon symbolique, a b x, abscisses 1 et 11 des maxima, 8 du minimum, choisis pour le calcul des pentes. J'ai essayé de coller le plus à la courbe de tendance des diagrammes publiés en admettant que les vrais extrêmes sont sujets aussi à des fluctuations comme tous les autres relevés. Dans l'exemple de cbn 1-8-11, je n'ai pas pris l'abscisse 12 qui a le vrai maximum. Pour
- - Pourcentage, 6 x 18 42 162 t162: En suivant les symboles de maxp, somme des pourcentages (ordonnées) de 1 à b, de b+1 à x-1, de x à 18, de 19 à 42 et de 43 à 162. t162 étant le total de ces sommes.
- - Pentes, p6 x 18 42 162: ce sont les pentes de a-b, b-x, x-18, 18-42 (sauf agrc avec 18-43), 42-162. Le calcul de p6 suis le maxp. Pour p162 il y a beaucoup de pentes nulles car la pente est calculée entre 2 points qui peuvent être égaux. Les pentes p42 et p162 sont multipliées par -1000.
- - Maxima, mx6 18 42 162: ce sont les vrais maxima de 1-b b-18 19-42 43-162. A comparer avec les symboles a et x où ce dernier se trouve dans b-18.
- - Minima: mn6.
- - La profondeur du V: Les diagrammes fc40 se présentent comme un zigzag commençant par un V, \/\. Pour caractériser numériquement l'importance de ce zigzag j'ai additionné les 2 pentes du V, en valeur absolue, colonne px-p6.
- - Classement: C'est la colonne Form, je l'ai construite sur l'ordre croissant de la colonne px. Puis j’ai caractérisé les diagrammes par leurs formes, S pour symétrique, D pour dissymétrique et X pour anomalie des ordonnées des fréquences de 1 à 6 qui peuvent dépasser les mx12. Les sous-divisions permettent de repérer facilement les pentes px. Les X2, associés à la pente p18 qui m'a permis de distinguer entre symétrie et dissymétrie, présentent un désordre (aua) ou un diagramme plat, npu sma ksk. Les X1 présentent surtout un excès des fréquences 6 et retrouvent la forme des diagrammes S ou D, sans cette fréquence. Diagrammes des X en pour 1000, ‰, du total des intercalaires positifs continus.
int51.40 Intergen51. Classement des courbes CDS-CDS positifs continus fc40.
clade |
gen |
c+ |
maxp |
6 |
x |
18 |
42 |
162 |
t162 |
p6 |
px |
p18 |
p42 |
p162 |
mx6 |
mn6 |
mx12 |
mx18 |
mx162 |
px-p6 |
Form |
gen
|
---|
clo7 |
hmo |
1,867 |
2-8-13 |
85 |
29 |
58 |
119 |
392 |
684 |
-2.8 |
1.821 |
-0.6 |
290 |
4.5 |
20.4 |
3.7 |
12.9 |
10.2 |
8.0 |
4.59 |
D10 |
hmo
|
arc2 |
mfe |
2,011 |
1-7-10 |
61 |
7 |
44 |
86 |
265 |
463 |
-2.1 |
1.823 |
-0.4 |
-21 |
20.5 |
14.4 |
1.5 |
7.5 |
6.0 |
6.0 |
3.90 |
D11 |
mfe
|
bac6 |
pmq |
4,540 |
1-9-12 |
61 |
10 |
57 |
136 |
355 |
619 |
-1.2 |
2.06 |
-0.1 |
174 |
7.3 |
11.5 |
2.2 |
9.9 |
9.9 |
5.3 |
3.21 |
D12 |
pmq
|
arc1 |
mba |
2,379 |
2-7-10 |
52 |
5 |
52 |
77 |
224 |
410 |
-2.3 |
2.10 |
-0.3 |
105 |
3.5 |
13.0 |
1.7 |
8.0 |
6.3 |
5.0 |
4.37 |
D13 |
mba
|
clo4 |
cdc |
2,589 |
1-6-11 |
68 |
26 |
103 |
158 |
294 |
647 |
-3.6 |
2.2 |
-0.3 |
306 |
22.5 |
21.2 |
2.3 |
17.4 |
9.7 |
5.8 |
5.79 |
D14 |
cdc
|
clo5 |
cdc8 |
2,727 |
1-6-11 |
65 |
24 |
107 |
164 |
297 |
657 |
-3.0 |
2.3 |
-0.4 |
290 |
24.4 |
19.4 |
2.6 |
16.9 |
10.3 |
5.5 |
5.28 |
D15 |
cdc8
|
clo1 |
cbc |
2,572 |
1-7-11 |
60 |
17 |
95 |
131 |
292 |
596 |
-3.4 |
2.43 |
0.1 |
340 |
16.2 |
21.4 |
1.2 |
17.1 |
9.3 |
5.1 |
5.80 |
D16 |
cbc
|
clo3 |
cbn |
1,775 |
1-8-11 |
81 |
16 |
100 |
159 |
376 |
732 |
-2.3 |
2.44 |
-0.2 |
423 |
-32.9 |
20.8 |
5.1 |
18.0 |
11.3 |
7.3 |
4.69 |
D17 |
cbn
|
clo2 |
cbei |
4,010 |
1-7-11 |
48 |
14 |
80 |
102 |
294 |
539 |
-2.0 |
2.5 |
-0.4 |
239 |
4.2 |
13.7 |
2.0 |
12.7 |
8.0 |
5.0 |
4.45 |
D18 |
cbei
|
bac8 |
ppmp |
438 |
2-7-13 |
34 |
11 |
50 |
112 |
379 |
587 |
-1.4 |
2.7 |
-1.4 |
190 |
0 |
9.1 |
0 |
16.0 |
13.7 |
9.1 |
4.03 |
D19 |
ppmp
|
clo8 |
psor |
2,350 |
2-6-11 |
64 |
31 |
126 |
141 |
352 |
714 |
-5.2 |
3.5 |
-0.5 |
514 |
3.5 |
22.1 |
1.3 |
19.6 |
11.1 |
5.1 |
8.70 |
D20 |
psor
|
ter2 |
apal |
919 |
1-6-10 |
123 |
27 |
164 |
111 |
369 |
794 |
-8.3 |
4.08 |
-0.2 |
725 |
9.1 |
45.7 |
4.4 |
25.0 |
14.1 |
8.7 |
12.35 |
D21 |
apal
|
clo6 |
cle |
2,900 |
1-7-11 |
69 |
27 |
115 |
146 |
336 |
692 |
-2.8 |
4.14 |
-1.3 |
287 |
5.7 |
19.3 |
2.4 |
22.1 |
11.7 |
5.2 |
6.95 |
D22 |
cle
|
bac1 |
ban |
3,289 |
1-8-12 |
62 |
18 |
101 |
126 |
389 |
696 |
-1.3 |
4.3 |
-1.2 |
355 |
15.2 |
12.2 |
2.8 |
19.2 |
9.7 |
6.4 |
5.60 |
D23 |
ban
|
bac2 |
bsu |
2,512 |
1-8-12 |
78 |
27 |
125 |
147 |
440 |
817 |
-1.9 |
4.7 |
-0.7 |
630 |
-16.6 |
16.3 |
2.1 |
21.5 |
11.5 |
8.0 |
6.61 |
D24 |
bsu
|
bac5 |
lmo |
1,849 |
2-7-12 |
84 |
29 |
147 |
144 |
383 |
787 |
-3.8 |
5.1 |
-0.8 |
901 |
4.5 |
21.6 |
2.7 |
28.1 |
16.2 |
6.5 |
8.87 |
D25 |
lmo
|
spi1 |
scc |
1,000 |
1-6-9 |
105 |
19 |
141 |
134 |
358 |
757 |
-5.4 |
5.3 |
-0.6 |
417 |
33.3 |
31.0 |
4.0 |
20.0 |
12.0 |
8.0 |
10.73 |
D26 |
scc
|
bac7 |
ppm |
3,176 |
1-8-12 |
62 |
13 |
57 |
134 |
376 |
642 |
-1.5 |
6.0 |
-0.5 |
144 |
7.9 |
14.5 |
3.8 |
9.8 |
8.2 |
6.0 |
7.51 |
D27 |
ppm
|
bac4 |
lbu |
1,098 |
2-7-9 |
95 |
4 |
128 |
134 |
387 |
748 |
-6.0 |
6.38 |
-0.6 |
152 |
30.4 |
32.8 |
2.7 |
15.5 |
15.5 |
7.3 |
12.39 |
D28 |
lbu
|
bac3 |
lam |
1,248 |
2-7-9 |
112 |
13 |
148 |
109 |
411 |
793 |
-5.0 |
6.41 |
-0.8 |
300 |
26.7 |
30.4 |
5.6 |
18.4 |
9.6 |
10.4 |
11.38 |
D29 |
lam
|
arc3 |
mfi |
1,545 |
2-6-11 |
65 |
30 |
62 |
87 |
406 |
650 |
-2.9 |
1.3 |
-0.5 |
189 |
21.6 |
16.2 |
4.5 |
11.7 |
7.8 |
8.4 |
4.21 |
S10 |
mfi
|
alp3 |
rpm |
1,847 |
2-6-12 |
81 |
44 |
73 |
120 |
306 |
624 |
-3.8 |
1.9 |
-1.5 |
152 |
9.0 |
19.5 |
4.3 |
15.7 |
9.2 |
5.4 |
5.68 |
S11 |
rpm
|
al3 |
abs |
1,570 |
2-6-13 |
66 |
61 |
48 |
129 |
441 |
745 |
-1.4 |
2.2 |
-1.4 |
-27 |
5.3 |
15.3 |
5.7 |
14.6 |
8.3 |
10.2 |
3.66 |
S12 |
abs
|
act1 |
ase |
3,854 |
1-6-9 |
72 |
17 |
91 |
133 |
401 |
714 |
-1.7 |
2.3 |
-1.6 |
-86 |
25.9 |
15.6 |
7.0 |
17.4 |
9.1 |
6.7 |
4.05 |
S13 |
ase
|
alp4 |
rru |
2,136 |
2-7-11 |
90 |
24 |
78 |
112 |
432 |
736 |
-2.0 |
2.7 |
-1.7 |
-39 |
31.5 |
20.1 |
5.1 |
15.9 |
7.5 |
7.5 |
4.66 |
S14 |
rru
|
al6 |
agrl |
1,040 |
1-6-12 |
102 |
57 |
93 |
114 |
386 |
752 |
-3.3 |
2.9 |
-0.6 |
521 |
8.1 |
24.0 |
7.7 |
19.2 |
10.6 |
9.6 |
6.15 |
S15 |
agrl
|
ter1 |
abra |
980 |
1-7-11 |
168 |
44 |
115 |
107 |
377 |
811 |
-9.2 |
3.1 |
-0.8 |
340 |
8.5 |
59.2 |
4.1 |
33.7 |
14.3 |
9.2 |
12.24 |
S16 |
abra
|
bde2 |
ade |
2,335 |
2-5-9 |
84 |
37 |
134 |
126 |
424 |
806 |
-6.3 |
3.426 |
-1.5 |
196 |
3.6 |
27.0 |
8.1 |
21.8 |
8.6 |
9.4 |
9.71 |
S17 |
ade
|
ga6 |
vha1 |
1,945 |
2-6-9 |
83 |
15 |
115 |
104 |
369 |
687 |
-3.7 |
3.428 |
-0.5 |
343 |
12.9 |
20.6 |
5.7 |
16.5 |
7.7 |
16.5 |
7.16 |
S18 |
vha1
|
bde1 |
cvi |
2,412 |
1-6-10 |
88 |
30 |
109 |
118 |
440 |
785 |
-3.7 |
3.8 |
-1.7 |
155 |
13.9 |
24.0 |
5.4 |
20.7 |
7.5 |
8.3 |
7.57 |
S21 |
cvi
|
ga1 |
amed |
2,382 |
2-6-9 |
58 |
12 |
86 |
101 |
453 |
709 |
-3.7 |
3.9 |
-0.8 |
122 |
35.0 |
17.2 |
2.5 |
14.3 |
6.7 |
7.1 |
7.59 |
S22 |
amed
|
al8 |
oan1 |
1,517 |
2-7-10 |
108 |
22 |
90 |
93 |
372 |
686 |
-4.6 |
3.96 |
-1.3 |
220 |
11.0 |
29.7 |
6.6 |
18.5 |
7.3 |
6.6 |
8.57 |
S23 |
oan1
|
ga5 |
spl |
2,482 |
2-6-10 |
72 |
29 |
81 |
98 |
357 |
637 |
-4.0 |
4.03 |
-0.7 |
235 |
10.1 |
21.4 |
5.2 |
14.1 |
8.5 |
5.6 |
8.06 |
S24 |
spl
|
al5 |
agrc |
1,466 |
1-8-11 |
98 |
20 |
83 |
104 |
427 |
732 |
-1.9 |
4.32 |
-2.0 |
-191 |
11.4 |
21.8 |
4.1 |
19.1 |
8.9 |
7.5 |
6.27 |
S25 |
agrc
|
al2 |
abqp |
921 |
1-9-11 |
83 |
7 |
84 |
153 |
419 |
745 |
-0.5 |
4.34 |
-0.6 |
181 |
18.1 |
10.9 |
6.5 |
16.3 |
11.9 |
8.7 |
4.89 |
S26 |
abqp
|
ga2 |
eal |
2,286 |
2-6-9 |
81 |
16 |
144 |
122 |
365 |
728 |
-2.6 |
4.7 |
-1.6 |
18 |
25.5 |
21.9 |
6.6 |
24.1 |
9.6 |
6.6 |
7.29 |
S27 |
eal
|
al9 |
oan2 |
914 |
1-6-10 |
112 |
38 |
118 |
135 |
374 |
777 |
-4.8 |
4.9 |
-2.5 |
91 |
0 |
28.4 |
4.4 |
28.4 |
10.9 |
9.8 |
9.74 |
S28 |
oan2
|
ga4 |
ecoN |
2,822 |
2-6-9 |
82 |
14 |
151 |
126 |
378 |
752 |
-3.9 |
5.8 |
-1.3 |
369 |
17.7 |
21.6 |
6.0 |
23.4 |
9.6 |
6.4 |
9.69 |
S31 |
ecoN
|
neg1 |
afn |
1,385 |
1-7-12 |
100 |
51 |
139 |
136 |
326 |
751 |
-4.0 |
5.9 |
-2.5 |
572 |
12.0 |
27.4 |
3.6 |
33.2 |
14.4 |
6.5 |
9.89 |
S32 |
afn
|
ga3 |
eco |
2,204 |
2-6-9 |
87 |
18 |
155 |
121 |
376 |
756 |
-4.3 |
6.5 |
-1.9 |
227 |
22.7 |
23.1 |
5.9 |
26.3 |
10.4 |
8.2 |
10.81 |
S33 |
eco
|
ga8 |
vpb1 |
1,757 |
2-6-9 |
88 |
20 |
129 |
124 |
351 |
712 |
-5.3 |
6.8 |
-1.7 |
356 |
-9.5 |
25.6 |
4.6 |
25.0 |
11.4 |
7.4 |
12.09 |
S34 |
vpb1
|
arc4 |
mja |
1,069 |
2-6-9 |
93 |
19 |
170 |
176 |
379 |
836 |
-5.6 |
8.7 |
-1.4 |
312 |
46.8 |
29.9 |
3.7 |
29.9 |
16.8 |
10.3 |
14.34 |
S35 |
mja
|
bde3 |
ant |
1,700 |
1-7-10 |
175 |
79 |
150 |
96 |
371 |
871 |
-9.3 |
10.0 |
-1.7 |
368 |
19.6 |
64.1 |
8.2 |
51.8 |
9.4 |
7.6 |
19.31 |
S36 |
ant
|
ga7 |
vha2 |
1,075 |
1-7-9 |
62 |
10 |
120 |
81 |
387 |
660 |
-1.9 |
11.6 |
-2.2 |
78 |
0 |
13.0 |
1.9 |
25.1 |
9.3 |
15.8 |
13.49 |
S37 |
vha2
|
ga9 |
vpb2 |
828 |
1-7-9 |
74 |
10 |
130 |
103 |
333 |
650 |
-2.8 |
15.1 |
-2.7 |
403 |
0 |
21.7 |
4.8 |
35.0 |
8.5 |
7.2 |
17.91 |
S38 |
vpb2
|
bct1 |
myr |
2,273 |
2-7-11 |
156 |
35 |
93 |
116 |
356 |
756 |
-4.8 |
2.0 |
-1.4 |
293 |
-3.7 |
34.3 |
10.1 |
20.2 |
9.2 |
7.9 |
6.82 |
x11 |
myr
|
act2 |
blo |
1,045 |
2-7-10 |
59 |
13 |
71 |
93 |
449 |
685 |
-2.1 |
2.2 |
-0.7 |
40 |
0 |
14.4 |
3.8 |
13.4 |
8.6 |
10.5 |
4.34 |
x12 |
blo
|
bct2 |
fps |
1,628 |
1-8-10 |
168 |
11 |
76 |
98 |
389 |
741 |
-3.9 |
4.6 |
-1.8 |
26 |
-5.1 |
36.9 |
9.8 |
19.0 |
10.4 |
7.4 |
8.47 |
x13 |
fps
|
al4 |
absp |
873 |
2-6-13 |
61 |
54 |
65 |
139 |
419 |
738 |
-1.7 |
6.3 |
-0.5 |
334 |
9.5 |
18.3 |
3.4 |
17.2 |
10.3 |
10.3 |
8.02 |
x14 |
absp
|
cya2 |
pmg |
948 |
2-7-9 |
155 |
12 |
146 |
170 |
382 |
864 |
-3.4 |
8.4 |
-1.9 |
264 |
35.2 |
28.5 |
11.6 |
28.5 |
13.7 |
9.5 |
11.81 |
x15 |
pmg
|
alp1 |
pub |
601 |
2-6-8 |
351 |
20 |
125 |
126 |
243 |
865 |
-17.9 |
-0.4 |
-1.2 |
208 |
27.7 |
94.8 |
23.3 |
21.6 |
8.3 |
13.3 |
17.47 |
x21 |
pub
|
al1 |
abq |
1,565 |
3-8-12 |
35 |
9 |
24 |
66 |
445 |
578 |
-0.5 |
0.3 |
-0.3 |
-53 |
-16.0 |
7.0 |
2.6 |
7.0 |
6.4 |
8.9 |
0.87 |
x22 |
abq
|
cya1 |
npu |
3,999 |
2-9-14 |
43 |
16 |
18 |
83 |
380 |
540 |
-0.4 |
0.6 |
-0.4 |
-42 |
8.3 |
6.3 |
3.0 |
5.8 |
5.0 |
6.5 |
0.98 |
x23 |
npu
|
act4 |
sma |
3,894 |
2-7-10 |
62 |
14 |
55 |
98 |
396 |
625 |
-1.1 |
1.2 |
-0.7 |
32 |
-10.7 |
12.1 |
5.6 |
9.2 |
6.9 |
5.6 |
2.33 |
x24 |
sma
|
alp5 |
rtb |
505 |
2-7-12 |
95 |
42 |
51 |
71 |
339 |
598 |
-2.0 |
1.3 |
-0.4 |
248 |
0 |
25.7 |
5.9 |
9.9 |
7.9 |
11.9 |
3.30 |
x25 |
rtb
|
act3 |
ksk |
3,995 |
2-8-10 |
51 |
5 |
36 |
93 |
450 |
634 |
-1.2 |
1.4 |
-0.5 |
-136 |
14.6 |
10.0 |
3.0 |
6.8 |
7.5 |
6.8 |
2.54 |
x26 |
ksk
|
alp2 |
rpl |
527 |
2-7-12 |
93 |
34 |
47 |
74 |
366 |
615 |
-2.7 |
1.5 |
-0.9 |
237 |
-31.6 |
20.9 |
5.7 |
13.3 |
11.4 |
11.4 |
4.17 |
x27 |
rpl
|
al7 |
aua |
1,803 |
3-7-9 |
19 |
2 |
21 |
48 |
420 |
509 |
-0.8 |
1.9 |
-0.4 |
-46 |
18.5 |
6.1 |
1.7 |
5.5 |
6.1 |
7.2 |
2.77 |
x28 |
aua
|
act5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
alp6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
arc5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bac9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bct3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bde4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clo9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
cya3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
gam |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
neg2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ter3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clade |
gen |
c+ |
maxp |
6 |
x |
18 |
42 |
162 |
t162 |
p6 |
px |
p18 |
p42 |
P162 |
mx6 |
mn6 |
mx12 |
mx18 |
mx162 |
px-p6 |
Form |
gen
|
---|
m |
|
|
|
79.4 |
22.1 |
97.8 |
116 |
373 |
697 |
-3.1 |
3.5 |
-1.1 |
255 |
14.7 |
20.8 |
4.3 |
18.6 |
9.8 |
8.0 |
7.2 |
|
|
e |
|
|
|
26.0 |
9.6 |
32.9 |
23.7 |
50.7 |
96.9 |
1.3 |
1.6 |
0.5 |
90.8 |
6.7 |
6.7 |
1.8 |
6.8 |
2.6 |
2.5 |
3.1 |
|
|
m/e |
|
|
|
3.1 |
2.3 |
3.0 |
4.9 |
7.4 |
7.2 |
-2.4 |
2.2 |
-2.2 |
2.8 |
2.2 |
3.1 |
2.4 |
2.7 |
3.8 |
3.2 |
2.3 |
|
|
Intergen51. Classement des courbes CDS-CDS positifs continus fc200Modifier
- Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc200. Contient les équations des courbes de tendance en polynôme de d° 3.
- Légende: Tous les diagrammes, ici, ont leurs ordonnées en pour 1000, ‰, par rapport au total du génome en intercalaires positifs continus et les abscisses en fréquence unitaire, freq1.
- - Minima: xm ym, abscisse et ordonnée du point le plus bas avant le rebond dans le diagramme CDS-CDS aux fréquences par 10, freq10. Ce rebond se fait en général à l'abscisse 50 mais chez certains génomes, il peut commencer avant comme illustré dans la colonne fcp du tableau de comparaison c/x. Les diagrammes de ces génomes sont représentés ici dans les images fcp1 fcp2.
- - maxima: soma somo, le sommet de la courbe de rebond de tendance (freq1) s'il existe ( - pour son absence en jaune)
- - Calculs du dépassement des minima: yc yc- sup. L'abscisse xm de la courbe de tendance a une ordonnée yc. La somme des différences entre yc et les ordonnées des fréquences qui suivent jusqu'au point d'inflexion constitue yc-. Dans le tableur calc la colonne yc- est copiée sans sa formule et la recherche des signes - permet de supprimer les différences négatives. C'est la colonne sup dont la somme est reportée ici pour chaque génome. Dans le cas où le point d'inflexion n'existe pas, la colonne yc- est étendue jusqu'à sa limite de 200 (cellules en rouge).
- - Tangente au point d'inflexion: flexa flexo a' b', abscisse et ordonnée du point d'inflexion, a' b' coefficients de la tangente f(x)=a'x+b' (a' est multiplié par -1000).
- - pourcentage des régions de la courbe: %1 %flex %200 %rest, respectivement, sommation des pourcentages de la fréquence 1 à xm, de xm à flexa, de flexa à 200, et le reste pour atteindre 100%. La colonne teffect indique le total des intercalaires positifs continus du génome.
- - sup/flex: C'est le taux dépassement sup par rapport au cumul des pourcentages de xm à flexa, %flexa.
- - Les moyennes du bas du tableau: m e m/e exclus gen-m, moyenne ecarttype rapport m/e, les exclus de la moyenne et gen-m nombre de génomes pour la moyenne. Les exclus:
- t 0 <0 pour aucun exclu du total, les nuls, les négatifs
- <0*, <0 rpl pub. <0**, <0 rtb rpl. <0***, <0 rpl pub npu.
- -*, moyenne sur 193-425. -** moyenne sur 828-3289. -*** moyenne sur 7.2-48.6.
int51.200 Intergen51. Classement des courbes CDS-CDS positifs continus fc200, en abscisses unitaires freq1.
clade |
gen |
xm |
ym |
soma |
somo |
yc |
yc- |
sup |
a’ |
b’ |
flexa |
flexo |
%1 |
%flex |
%200 |
%rest |
teffect |
sup/flex |
classe |
gen
|
---|
act1 |
ase |
24 |
3.4 |
17 |
5.4 |
5.4 |
-54 |
16 |
35 |
6.9 |
98 |
3.5 |
211 |
347 |
218 |
224 |
3854 |
4.7 |
A3 |
ase
|
act2 |
blo |
40 |
0 |
79 |
4.1 |
3.6 |
11 |
109.2 |
22 |
6.5 |
157 |
3.0 |
231 |
438 |
118 |
213 |
1045 |
24.9 |
F8 |
blo
|
act3 |
ksk |
21 |
1.8 |
71 |
4.3 |
3.3 |
76 |
102 |
22 |
6.3 |
138 |
3.3 |
98 |
466 |
169 |
267 |
3995 |
22.0 |
F6 |
ksk
|
act4 |
sma |
44 |
2.1 |
89 |
3.5 |
3.1 |
-17 |
54 |
41 |
10 |
307 |
-2.5 |
234 |
467 |
0 |
298 |
3894 |
11.5 |
D1 |
sma
|
act5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
al1 |
abq |
36 |
0.6 |
86 |
4.2 |
2.5 |
135 |
160 |
30 |
7.4 |
140 |
3.1 |
121 |
393 |
146 |
340 |
1565 |
40.7 |
G3 |
abq
|
al2 |
abqp |
46 |
1.1 |
- |
- |
4.2 |
-169 |
68 |
12 |
4.8 |
69 |
3.9 |
337 |
101 |
383 |
179 |
921 |
66.9 |
E2 |
abqp
|
al3 |
abs |
44 |
1.9 |
81 |
4.1 |
3.5 |
36 |
88 |
24 |
6.6 |
143 |
3.1 |
309 |
374 |
151 |
166 |
1570 |
23.5 |
F1 |
abs
|
al4 |
absp |
46 |
2.3 |
- |
- |
4.6 |
-231 |
56 |
3 |
3.7 |
114 |
3.4 |
331 |
259 |
227 |
183 |
873 |
21.7 |
D3 |
absp
|
al5 |
agrc |
45 |
0.7 |
94 |
4.2 |
2.1 |
152 |
161 |
30 |
7.5 |
142 |
3.2 |
314 |
357 |
148 |
180 |
1466 |
45.0 |
G4 |
agrc
|
al6 |
agrl |
39 |
0 |
63 |
4.0 |
3.6 |
-6 |
71 |
32 |
6.6 |
120 |
2.8 |
360 |
293 |
163 |
184 |
1040 |
24.2 |
E4 |
agrl
|
al7 |
aua |
38 |
0.6 |
86 |
4.1 |
2.3 |
128 |
143 |
32 |
7.4 |
140 |
3.0 |
80 |
363 |
139 |
418 |
1803 |
39.4 |
G2 |
aua
|
al8 |
oan1 |
39 |
0.7 |
79 |
3.6 |
2.7 |
51 |
81 |
22 |
5.7 |
131 |
2.8 |
303 |
307 |
158 |
233 |
1517 |
26.5 |
E8 |
oan1
|
al9 |
oan2 |
43 |
1.1 |
80 |
3.9 |
2.7 |
62 |
108.9 |
35 |
7.3 |
132 |
2.6 |
403 |
303 |
126 |
168 |
914 |
35.9 |
F7 |
oan2
|
alp1 |
pub |
46 |
1.7 |
-525 |
44 |
4.2 |
-422 |
25 |
95 |
5.8 |
-176 |
22 |
651 |
233 |
0 |
116 |
601 |
10.9 |
B1 |
pub
|
alp2 |
rpl |
46 |
0 |
119 |
3.6 |
1.4 |
212 |
268 |
156 |
43 |
526 |
-39 |
252 |
433 |
0 |
315 |
527 |
61.9 |
G7 |
rpl
|
alp3 |
rpm |
47 |
1.1 |
79 |
2.9 |
2.5 |
20 |
49 |
18 |
4.7 |
131 |
2.3 |
328 |
232 |
130 |
310 |
1847 |
21.3 |
C8 |
rpm
|
alp4 |
rru |
35 |
1.9 |
51 |
4.3 |
4.2 |
-36 |
39 |
23 |
6.1 |
131 |
3.1 |
274 |
375 |
170 |
181 |
2136 |
10.5 |
C3 |
rru
|
alp5 |
rtb |
46 |
2.0 |
129 |
3.4 |
1.7 |
169 |
223 |
-36 |
0.01 |
22 |
0.8 |
261 |
428 |
0 |
311 |
505 |
52.0 |
G6 |
rtb
|
alp6 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
arc1 |
mba |
47 |
2.1 |
- |
- |
2.5 |
-105 |
21 |
4 |
2.6 |
94 |
2.3 |
193 |
106 |
173 |
528 |
2379 |
20.1 |
A6 |
mba
|
arc2 |
mfe |
46 |
2.0 |
- |
- |
2.5 |
-60 |
45 |
3 |
2.6 |
79 |
2.3 |
205 |
84 |
237 |
474 |
2011 |
53.7 |
C7 |
mfe
|
arc3 |
mfi |
40 |
1.3 |
78 |
3.9 |
3.1 |
48 |
86 |
28 |
6.6 |
134 |
2.9 |
237 |
341 |
144 |
278 |
1545 |
25.3 |
E9 |
mfi
|
arc4 |
mja |
35 |
0.9 |
50 |
4.0 |
3.9 |
-42 |
60 |
28 |
6.2 |
129 |
2.5 |
425 |
332 |
123 |
120 |
1069 |
17.9 |
D5 |
mja
|
arc5 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bac1 |
ban |
46 |
1.2 |
91 |
3.7 |
2.5 |
87 |
101.0 |
29 |
6.9 |
152 |
2.6 |
317 |
353 |
92 |
238 |
3289 |
28.6 |
F4 |
ban
|
bac2 |
bsu |
47 |
1.2 |
81 |
4.4 |
3.5 |
36 |
75 |
37 |
8.1 |
139 |
2.9 |
395 |
359 |
126 |
121 |
2512 |
21.0 |
E6 |
bsu
|
bac3 |
lam |
43 |
0.8 |
75 |
4.6 |
3.4 |
59 |
92 |
50 |
9.2 |
126 |
2.9 |
382 |
345 |
123 |
149 |
1248 |
26.7 |
F2 |
lam
|
bac4 |
lbu |
37 |
1.8 |
- |
- |
3.7 |
-139 |
61 |
6 |
3.9 |
70 |
3.5 |
338 |
126 |
348 |
189 |
1098 |
48.6 |
D6 |
lbu
|
bac5 |
lmo |
42 |
1.6 |
90 |
3.9 |
1.8 |
155 |
162 |
36 |
7.7 |
140 |
2.7 |
402 |
334 |
112 |
151 |
1849 |
48.4 |
G5 |
lmo
|
bac6 |
pmq |
53 |
2.6 |
63 |
3.4 |
3.4 |
-12 |
15 |
19 |
5.0 |
118 |
2.7 |
306 |
211 |
184 |
299 |
4540 |
7.2 |
A2 |
pmq
|
bac7 |
ppm |
57 |
1.9 |
83 |
3.3 |
3.1 |
9 |
31 |
14 |
4.8 |
129 |
2.9 |
322 |
235 |
183 |
260 |
3176 |
13.2 |
B6 |
ppm
|
bac8 |
ppmp |
43 |
0 |
79 |
3.8 |
2.7 |
49 |
110 |
31 |
6.8 |
124 |
2.9 |
208 |
269 |
189 |
333 |
438 |
40.8 |
F9 |
ppmp
|
bac9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bct1 |
myr |
46 |
1.8 |
76 |
3.9 |
3.1 |
26 |
62.7 |
39 |
7.5 |
128 |
2.5 |
409 |
283 |
113 |
196 |
2273 |
22.2 |
D7 |
myr
|
bct2 |
fps |
25 |
1.8 |
55 |
4.4 |
3.8 |
10 |
66.4 |
35 |
7.0 |
121 |
2.8 |
281 |
380 |
137 |
203 |
1628 |
17.5 |
E1 |
fps
|
bct3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
bde1 |
cvi |
45 |
3.7 |
56 |
4.9 |
4.8 |
-43 |
35 |
40 |
8.0 |
121 |
3.2 |
355 |
328 |
164 |
153 |
2412 |
10.8 |
C1 |
cvi
|
bde2 |
ade |
47 |
3.0 |
54 |
4.7 |
4.6 |
-40 |
27 |
35 |
7.3 |
122 |
3.1 |
400 |
314 |
154 |
132 |
2335 |
8.7 |
B3 |
ade
|
bde3 |
ant |
44 |
1.2 |
63 |
4.4 |
4.1 |
-18 |
50 |
48 |
8.3 |
120 |
2.6 |
505 |
295 |
102 |
98 |
1700 |
16.9 |
C9 |
ant
|
bde4 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clo1 |
cbc |
46 |
1.6 |
- |
- |
2.8 |
-85 |
32.3 |
5 |
3.0 |
84 |
2.6 |
311 |
108 |
236 |
344 |
2572 |
29.8 |
B8 |
cbc
|
clo2 |
cbei |
44 |
1.2 |
- |
- |
3.1 |
-116 |
12 |
4 |
2.7 |
136 |
2.2 |
247 |
232 |
132 |
390 |
4010 |
5.2 |
A1 |
cbei
|
clo3 |
cbn |
42 |
1.1 |
- |
- |
3.7 |
-126 |
41.6 |
9 |
4.0 |
80 |
3.3 |
355 |
136 |
322 |
187 |
1775 |
30.5 |
C5 |
cbn
|
clo4 |
cdc |
45 |
1.5 |
61 |
2.9 |
2.8 |
-7 |
31.6 |
17 |
4.3 |
126 |
2.2 |
359 |
226 |
121 |
294 |
2589 |
14.0 |
B7 |
cdc
|
clo5 |
cdc8 |
45 |
0.7 |
57 |
3.0 |
2.9 |
-13 |
28 |
16 |
4.2 |
127 |
2.2 |
365 |
230 |
121 |
284 |
2727 |
12.2 |
B4 |
cdc8
|
clo6 |
cle |
45 |
1.4 |
-189 |
4.9 |
3.4 |
-41 |
20 |
11 |
4.0 |
129 |
2.5 |
360 |
251 |
150 |
238 |
2900 |
7.9 |
A5 |
cle
|
clo7 |
hmo |
47 |
1.6 |
61 |
3.7 |
3.7 |
-37 |
37 |
21 |
5.7 |
152 |
2.5 |
307 |
356 |
94 |
243 |
1867 |
10.5 |
C2 |
hmo
|
clo8 |
psor |
45 |
1.3 |
100 |
3.3 |
2.0 |
112 |
127 |
23 |
6.1 |
167 |
2.3 |
369 |
360 |
61 |
211 |
2350 |
35.4 |
G1 |
psor
|
clo9 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
cya1 |
npu |
34 |
1.8 |
69 |
3.5 |
3.3 |
-61 |
42.1 |
27 |
7.0 |
262 |
0.04 |
128 |
492 |
0 |
380 |
3999 |
8.6 |
C6 |
npu
|
cya2 |
pmg |
46 |
2.1 |
23 |
5.8 |
5.5 |
-62 |
30 |
49 |
8.2 |
105 |
3.1 |
500 |
267 |
121 |
112 |
948 |
11.1 |
B5 |
pmg
|
cya3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
ga1 |
amed |
45 |
1.3 |
83 |
4.6 |
3.1 |
87 |
101.4 |
41 |
8.7 |
133 |
3.3 |
262 |
366 |
155 |
217 |
2382 |
27.7 |
F5 |
amed
|
ga2 |
eal |
44 |
2.2 |
-57 |
5.3 |
4.2 |
-40 |
17 |
22 |
5.3 |
103 |
3.0 |
366 |
213 |
200 |
221 |
2286 |
8.1 |
A4 |
eal
|
ga3 |
eco |
46 |
0.9 |
48 |
4.1 |
4.1 |
-31 |
26 |
27 |
6.0 |
119 |
2.9 |
391 |
274 |
157 |
178 |
2204 |
9.3 |
B2 |
eco
|
ga4 |
ecoN |
37 |
1.8 |
56 |
4.2 |
4.0 |
-13 |
41 |
34 |
6.8 |
118 |
2.8 |
353 |
313 |
144 |
190 |
2822 |
13.0 |
C4 |
ecoN
|
ga5 |
spl |
37 |
2.4 |
78 |
3.5 |
2.7 |
49 |
73 |
23 |
5.7 |
138 |
2.5 |
263 |
322 |
120 |
294 |
2482 |
22.7 |
E5 |
spl
|
ga6 |
vha1 |
41 |
0.5 |
66 |
3.3 |
3.3 |
-74 |
63.4 |
39 |
10 |
396 |
-5.2 |
314 |
446 |
0 |
240 |
1945 |
14.2 |
D8 |
vha1
|
ga7 |
vha2 |
41 |
0.9 |
67 |
3.7 |
3.5 |
-54 |
79 |
28 |
6.6 |
172 |
1.8 |
269 |
413 |
38 |
280 |
1075 |
19.2 |
E7 |
vha2
|
ga8 |
vpb1 |
49 |
2.3 |
89 |
3.1 |
2.8 |
-10 |
69 |
18 |
5.3 |
194 |
1.8 |
385 |
397 |
11 |
207 |
1757 |
17.3 |
E3 |
vpb1
|
ga9 |
vpb2 |
47 |
2.4 |
- |
- |
3.8 |
-188 |
55 |
4 |
3.1 |
117 |
2.7 |
329 |
219 |
175 |
278 |
828 |
25.0 |
D2 |
vpb2
|
gam |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
neg1 |
afn |
41 |
1.4 |
49 |
3.0 |
3.0 |
-95 |
57 |
-0.12 |
3.0 |
40 |
3.0 |
421 |
378 |
0 |
201 |
1385 |
15.0 |
D4 |
afn
|
neg2 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
spi1 |
scc |
46 |
2.0 |
41 |
4.1 |
4.0 |
-35 |
34 |
29 |
5.9 |
111 |
2.7 |
417 |
232 |
160 |
191 |
1000 |
14.7 |
B9 |
scc
|
ter1 |
abra |
39 |
2.0 |
64 |
3.5 |
3.4 |
-113 |
66.2 |
-50 |
6.4 |
-305 |
-8.8 |
424 |
436 |
0 |
140 |
980 |
15.2 |
D9 |
abra
|
ter2 |
apal |
28 |
0 |
63 |
3.8 |
3.1 |
27 |
93 |
30 |
6.4 |
127 |
2.6 |
385 |
339 |
127 |
148 |
919 |
27.5 |
F3 |
apal
|
ter3 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
clade |
gen |
xm |
ym |
soma |
somo |
yc |
yc- |
sup |
a’ |
b’ |
flexa |
flexo |
%1 |
%flex |
%200 |
%rest |
teffect |
sup/flex |
classe |
gen
|
---|
m |
|
42 |
1.6 |
71 |
4.0 |
3.3 |
-14 |
64 |
25 |
6.1 |
135 |
2.8 |
325 |
308 |
156 |
236 |
1813 |
22 |
|
|
e |
|
6.5 |
0.7 |
21 |
0.6 |
0.8 |
104 |
38 |
12 |
1.8 |
54 |
0.4 |
65 |
98 |
66 |
90 |
678 |
11 |
|
|
m/e |
|
6.5 |
2.4 |
3.4 |
6.2 |
3.9 |
-0.13 |
1.7 |
2.0 |
3.3 |
2.5 |
6.6 |
5.0 |
3.1 |
2.4 |
2.6 |
2.7 |
2.0 |
|
|
exclus |
|
t |
0 |
<0 |
pub |
t |
t |
rtb rpl |
<0* |
rtb rpl |
<0** |
<0*** |
-* |
t |
0 |
t |
-** |
-*** |
|
|
gen-m |
|
58 |
53 |
46 |
48 |
58 |
58 |
56 |
53 |
56 |
54 |
51 |
51 |
58 |
50 |
58 |
48 |
52 |
|
|
Intergen51. Classement des courbes CDS-CDS positifs continus.NoteModifier
- Introduction: A la différence des diagrammes fc+ et fc41 dont les abscisses sont des lots de 10 fréquences consécutives (freq10), ici ce sont des fréquences unitaires (freq1). Les ordonnées sont en ‰ sauf pour les images des fc40 qui sont en effectifs (effect).
- Les diagrammes fc40: Les diagrammes fc+, en fréquences unitaires, sont apparus dès les 1ères investigations en comparaison des intercalaires négatifs fc- et fx- qui avaient très peu d'effectifs et ne nécessitaient pas de regroupement en lots de 10 fréquences consécutives. Dans les 1ères études j'avais essayé de retrouver des cycles ternaires comme avec les négatifs, mais ce n'était pas systématique. Aussi j'ai gardé ces diagrammes avec des ordonnées en effectifs et des étiquettes modulo 6 (exemple bacilli). Le classement des fc40 est fait dans le tableau correspondant avec des ordonnées en en ‰ et je n'ai représenté en image que la classe X qui est hétéroclite.
- Les diagrammes fc200: Les diagrammes fc+ (freq10) présentent un minimum local autour de l'abscisse 40 suivi d'un rebond puis d'une inflexion aux alentours de l'abscisse 200 (images fcp1 fcp2). L'objectif de l'étude des diagrammes fc200 est de caractériser ce rebond pour déterminer les pics de fréquence susceptibles d'avoir des rôles de contrôle des CDS adjacents à ces intercalaires, comme les pics identifiés en 1er dans les diagrammes fc40 autour de la fréquence 12 .
Intergen51. Les diagrammes CDS-CDS négatifsModifier
Intergen51. Les fréquences de -1 à -5Modifier
- Liens tableau des 51 génomes et le tableau avec des couleurs.
- Notes:
- - Les fréquences 1 2 3 4 5: Les 2 lots continu c- et discontinu x- ont en commun les fréquences 3 4 5, avec la proportion la plus élevée de la fréquence 4 (47% en continu et 29% en discontinu), les fréquences 3 et 5 sont quasiment nuls. Par contre les 2 lots se différencient nettement par les fréquences 1 et 2: la 1 des continus a la 2ème proportion la plus élevée et rivalise avec la fréquence 8 (18% contre 10%) et la fréquence 2 est quasiment nulle avec un effectif de 11 contre 814 attendus par rapport aux discontinus, 85*23512/2456; la 1 des discontinus est nulle, par contre la fréquence 2 rivalise avec la fréquence 8 (3.5% contre 3.6%).
- - Ainsi les 2 processus se comportent de façon inverse pour le taux des 5 1ères fréquences par rapport à leur total: 33% pour les discontinus et 64% pour les continus ce qui explique la forte proportion du reste chez les discontinus, 10.7% contre 1.8%, accentuée par la forte progression des continus par rapport aux discontinus comme je le détaille à la suite. A ce comportement s'ajoute la forte dissymétrie c/x des négatifs, 9.6 contre 2.5 pour la totalité des intercalaires.
Intergen51. La périodicité de 3Modifier
- Lien au tableur: les rapports pour t4.
- Liens: tableau des 51 génomes.
- Diagrammes: t3.3 t4
- Légende du tableau: 2/1 pour effectif de la fréquence 8 modulo 3, sur effectif de celle de 7 modulo 3. x et c pour discontinu et continu
cds-cds. Les fréquences des intercalaires négatifs cds-cds
inter |
fx- |
‰x- |
2/1x- |
fc- |
‰c- |
2/1c-
|
---|
-1 |
4 |
2 |
|
4,140 |
176 |
|
-2 |
85 |
35 |
|
11 |
0 |
|
-3 |
3 |
1 |
|
12 |
1 |
|
-4 |
717 |
292 |
|
10,938 |
465 |
|
-5 |
5 |
2 |
|
19 |
1 |
|
-6 |
59 |
24 |
|
6 |
0 |
|
-7 |
41 |
17 |
|
351 |
15 |
|
-8 |
89 |
36 |
2.20 |
2,362 |
100 |
6.73
|
-9 |
47 |
19 |
|
7 |
0 |
|
-10 |
29 |
12 |
|
213 |
9 |
|
-11 |
94 |
38 |
3.24 |
1,255 |
53 |
5.89
|
-12 |
39 |
16 |
|
3 |
0 |
|
-13 |
35 |
14 |
|
242 |
10 |
|
-14 |
97 |
39 |
2.77 |
788 |
33 |
3.26
|
-15 |
43 |
18 |
|
6 |
0 |
|
-16 |
28 |
11 |
|
123 |
5 |
|
-17 |
68 |
28 |
2.43 |
537 |
23 |
4.37
|
-18 |
35 |
14 |
|
9 |
0 |
|
-19 |
29 |
12 |
|
107 |
5 |
|
-20 |
51 |
21 |
1.76 |
408 |
17 |
3.81
|
-21 |
17 |
7 |
|
2 |
0 |
|
-22 |
21 |
9 |
|
61 |
3 |
|
-23 |
42 |
17 |
2.00 |
264 |
11 |
4.33
|
-24 |
28 |
11 |
|
5 |
0 |
|
-25 |
22 |
9 |
|
91 |
4 |
|
-26 |
43 |
18 |
1.95 |
246 |
10 |
2.70
|
-27 |
13 |
5 |
|
3 |
0 |
|
-28 |
21 |
9 |
|
54 |
2 |
|
-29 |
43 |
18 |
2.05 |
158 |
7 |
2.93
|
-30 |
17 |
7 |
|
0 |
0 |
|
-31 |
20 |
8 |
|
48 |
2 |
|
-32 |
39 |
16 |
1.95 |
125 |
5 |
2.60
|
-33 |
14 |
6 |
|
0 |
0 |
|
-34 |
15 |
6 |
|
32 |
1 |
|
-35 |
31 |
13 |
2.07 |
125 |
5 |
3.38
|
-36 |
9 |
4 |
|
0 |
0 |
|
-37 |
8 |
3 |
|
27 |
1 |
|
-38 |
27 |
11 |
3.40 |
71 |
3 |
2.63
|
-39 |
15 |
6 |
|
0 |
0 |
|
-40 |
14 |
6 |
|
21 |
1 |
|
-41 |
24 |
10 |
1.71 |
58 |
2 |
2.76
|
-42 |
7 |
3 |
|
0 |
0 |
|
-43 |
10 |
4 |
|
31 |
1 |
|
-44 |
14 |
6 |
1.40 |
47 |
2 |
1.52
|
-45 |
6 |
2 |
|
0 |
0 |
|
-46 |
15 |
6 |
|
14 |
1 |
|
-47 |
19 |
8 |
1.27 |
43 |
2 |
3.07
|
-48 |
12 |
5 |
|
0 |
0 |
|
-49 |
13 |
5 |
|
23 |
1 |
|
-50 |
15 |
6 |
1.15 |
55 |
2 |
2.39
|
reste |
264 |
107 |
|
420 |
18 |
|
total |
2,456 |
1000 |
|
23,544 |
1000 |
|
- Note1: Périodicité de 3
- Découverte de la périodicité: Elle est apparue dès les 1ères études des intercalaires négatifs qui ne tenaient pas compte des compléments. En séparant les discontinus des continus, les effectifs des fréquences continues 6 modulo 3 devenaient nulles à partir de la fréquence 15 sur 50 décomptées. Ce phénomène m'a fait penser immédiatement au code génétique à 3 bases. Ce qui m'a poussé à en faire une étude approfondie.
- Signification de cette périodicité pour les intercalaires continus: un intercalaire négatif entre 2 CDS est une partie commune entre eux. Ce qui fait que pour les intercalaires 6 modulo 3 les 2 CDS ont une séquence d'acides aminés identique. Mais pour les intercalaires 7 et 8 modulo 3 les séquences sont différentes, par décalage, entre les 2 CDS. Une différence de séquence ne pose de problème du point de vue fonctionnel pour 2 protéines, mais l'identité de séquence en pose. C'est ce qui explique l'absence d'intercalaires modulo 3 long. C'est ainsi qu'une longueur de 30 pbs limite correspond à 10 aas qui devrait avoir une fonction spécifique peu fréquente. Reste alors, pourquoi la fréquence 8 modulo 3 est avantagée à celle de 7? (voir les taux dans le petit tableau de fin de note) La 1ère explication est que les fréquences 1 et 4 qui appartiennent à la période 7 modulo 3 et qui représentent 64% des intercalaires continus, servent de barrage pour les intercalaires suivants de cette période. Les fréquences 2 et 5 étant de la période 8 modulo 3 et étant nuls laissent la voie libre aux suivants. Mais le problème n'est que reporté aux fréquences de 1 à 5. Je reprendrais la discussion à la fin de ce chapitre.
- La périodicité de 3 chez les discontinus: Celle des continus était très interessante mais celle des discontinus l'est encore plus, puisqu'un intercalaire négatif discontinu entre 2 CDS étant sur 2 brins différents leurs bases sont complémentaires et donc les 2 séquences d'aas sont totalement différentes. Ce qui est intéressant, c'est pourquoi y a-t-il une périodicité? Cela ne peut être qu'une conséquence de la physique de l'ADN au moment des réparations à l'origine de la création du complément. Les fréquences de 1 à 5 sont analogues aux continus,surtout la fréquence 4: est-ce qu'on peut en déduire que les continus subissent une contrainte physique lors du chevauchement? (Voir le petit tableau pour la périodicité le chapitre des fréquences de 1 à 5).
- Les processus probables à l'origine de la périodicité des continus.
- - Les fréquences de 1 à 5: Elles représentent 64% de tous les négatifs continus. Une explication qui me vient à l'esprit est le départ de la transcription d'une base ou plus à l'arrière du 2ème CDS quand les 2 gènes sont contigus. J'avais retrouvé cette situation quand je lisais les séquences publiées par le NCBI. Ceci expliquerait les fréquences 1 et 4, la 1ère crée un déphasage de la lecture ce qui donne une nouvelle séquence d'aas et la 2ème rajouterait, en plus, le codon d'initiation de la traduction Metf.
- - Les fréquences supérieures à 5: Les longs intercalaires ne peuvent pas être expliqués par le dé calage de lecture. Mon idée c'est qu'ils sont créés lors des réparations qui apparaissent avec les contraintes physiques de l'ADN créées lors des réparations de délétions ou lors des transcriptions et de la réplication. Le processus de réparation provoquerait un état vibratoire plus ou moins fort prologeant celui du 1er CDS. Cela se traduirait par un décalage d'une à 3 bases pour respecter la périodicité des 3 bases du code génétique. La force du prolongement de l'état vibratoire serait nulle pour un décalage de zéro bases, conséquent pour une base et très fort pour 2 bases. Et plus la force serait grande plus sera grand le décalage. Ce qui donnerait la périodicité constatée chez les intercalaires continus, effectifs quasiment nuls pour la période 6 et qui s'annulent rapidement, de faibles effectifs pour la période 7 et enfin de forts effectifs pour la période 8. Cependant la période 7 accompagne la 8 jusqu'à 116 pbs et peut prendre le dessus sur la 8 pour les faibles effectifs. Dans la liste des grands intercalaires négatifs continus (ref), sur les 22 supérieurs à 120 pbs, 9 les plus grands à partir de 729 sont des 6 modulo 3 (sauf 1295) et peuvent s'expliquer par la terminaison de la transcription ou de la traduction, un seul 7 modulo 3 le 310 et 12 sont des 8 modulo 3, le dernier étant 500.
- Les processus probables à l'origine de la périodicité des discontinus.
- - Appariement du recouvrement: étant donné la rareté des discontinus négatifs, 2456/200502 soit 1.2%, cela montre qu'un CDS a un état quantique propre, différent des autres gènes et que 2 CDS puissent difficilement s'apparier ou autrement dit, le brin compléméntaire d'un CDS est rarement un CDS. C'est comme si l'état quantique des intercalaires, en général, étaient moins solides que celui d'un CDS. La formation d'une discontinuité se ferait alors plus facilement dans un intercalaire continu positif. C'est effectivement le cas puisque j'ai recensé 2,456 x- contre 51,366 x+, soit 20 fois plus. Ce rapport est encore décuplé si l'on considère le rapport de la longueur totale des intercalaires positifs à la longueur du génome, rapport qui se situe en général autour de 10%.
- - Formation d'un intercalaire discontinu négatif: Sur le schéma suivant je suppose que le gène de séquence b est sur le brin complément du gène de séquence a.
- a a a a a= a= a= = =
- ° ° b° b° b b b b b
- Le signe = pour le brin opposé de b, le signe ° pour le brin oppsé de a; a= et b° sont détruits, les 2 brins opposés glissent l'un par rapport à l'autre et a= b° sont remplacées par une base qui maintient le même aa dans la protéine.
- La proximité de 2 CDS imposant chacun sa force quantique contraint le système de réparation à supprimer l'intercalaire qui est entre eux et qui a une faible force quantique et pour résoudre la nouvelle contrainte il détruit quelques bases des 2 gènes pour faire glisser les 2 brins entre eux, ce qui réduit le chromosome. La réduction totale du chromosome est certainement compenser par un allongement plus loin de certains intercalaires positifs de faible force quantique. Au niveau des 2 gènes impactés, ici, le système de réparation reproduit le morceau de chaque gène à l'identique (en aas) contraint par leurs grandes forces quantiques. L'opération ne réussit pas souvent parce que certains aas n'ont pas beaucoup de codons analogues pour changer d'appariement. D'où la rareté du processus. Cependant la réparation résoud les contraintes et renforce encore plus le chromosome qu'il ne l'est par un seul gène sans recouvrement.
- - Conséquence de ce processus sur le recouvrement:
- + Plus la contrainte créée par les 2 CDS est forte plus long sera le recouvrement.
- + Pour les contraintes faibles la périodicité de 3 des CDS n'apparaît pas encore car le recouvrement est court. La périodicité de 2 prend la place avec 2 4 6 et reflète le processus de la réparation qui procèderait par paires de bases. Ce que j'obtiens c'est 3.5% de 2, 29% de 4 et 2.4% de 6. Un recouvrement de 4 paraît comme un minimum pour la consolidation d'un appariemment à problème, comme aussi pour la majorité des CDS moyens ou à force quantique moyenne. La différence de taux de la fréquence 4 entre continus, 47%, et discontinus, 29%, dénote la différence des processus mis en oeuvre.
- + Pour les contraintes fortes, c'est à dire des CDS à grande force quantique, leur périodicité de 3 apparaît à partir de la fréquence 6. Ici la période 6 n'est pas inhibée par chevauchement comme dans les continus. Au total elle a le même effectif que la période 7 (voir les taux dans le petit tableau de fin de note): 431 contre 388.
- + La période 8, dans les discontinus, fait 50% et la 6 26% et la 24%. Dans le CDS la périodicité de 3 ne se révèle qu'à la traduction qui est sensible à l'état quantique de chaque base du codon. Qu'elle est la force de la 1ère base, de la 2ème et de la 3ème base du codon? Je penses que les 2 processus, chevauchement et recouvrement, ont révélés ces forces par leur périodicité de 3. Chez les discontinus, si on considère la 1ère base du codon comme la période 7 alors la 2ème base correspond à la période 8. Ce qui est conforme au code génétique où les 2 premières bases définissent 1 2 ou 4 aas. Ceci est vrai pour les continus, mais étant donné la complémentarité les 2 dernières bases sont à égalité chez les discontinus.
- La périodicité des intercalaires négatifs et les tRNAs.
- - La périodicité des continus rappelle la genèse des tRNAs avec l’absence totale de ceux dont le codon se termine par t, c'est à dire la 3ème base comme les continus. Est-ce la base t ou bien la position du 3ème rang? Ce dernier cas expliquerait le cas du codon cgc qui est absent remplacé par le codon cgt.
- - La périodicité des discontinus rappelle l’occurrence de tous les aas mais n'explique pas pourquoi la répartition des bases chez les intercalaires est de 1 2 1 pour respectivement la 1ère base la seconde et la 3ème. Si j'applique la même règle que pour les continus pour chaque brin, 0 1 1 pour un brin et 1 1 0 pour le complément et en additionnant j'ai bien 1 2 1.
- - Si la genèse des tRNAs utilise le rRNA 5s comme modèle, comme je le montrerais plus loin avec les intercalaires 5s-CDS analogues aux tRNA-CDS, alors le tRNA se formerait, comme pour les intercalaires continus, sur le 5s et non sur le brin opposé et donc devrait s'en séparé par glissement. Si cette hypothèse était vraie alors le mystère de la genèse chez les eucaryotes des tRNA au codon se terminant par t s'éclaircisserait: ils utiliseraient les 2 rRNA 5s et 5,8s comme modèle et le second produirait les tRNA se terminant par t comme font les intercalaires discontinus x-.
- - Dans le tableau qui suit je montre la grande différence de la périodicité 3, entre intercalaires CDS-CDS et tRNA-CDS. Les données des derniers sont dans les intercalaires rares. Ce sont surtout les R- continus qui sont complètement dissymétriques par aux S- continus. Mais la fréquence -4 est nulle pour les R- alors qu'elle représente 50% des S- continus et 30% des discontinus ( voir le tableau des S- ci-dessus).
Totaux des 3 périodes jusqu'à la fréquence 120 pour CDS-CDS
S- continus discontinus
période effect % effect %
6 43 5.1 431 264.6
7 1604 190.9 388 238.2
8 6755 804 810 497.2
total 8402 1000 1629 1000
- - - - -
Totaux des 3 périodes jusqu'à la fréquence 44 pour tRNA-CDS
R- continus discontinus
période effect % effect %
6 4 571 4 444
7 2 286 0 0
8 1 143 5 556
total 7 1000 9 1000
- Note2: Les diagrammes des périodes 3: t3.3 t4 et les données dans le tableau des 51 génomes.
- - Construction du diagramme: J'ai représenté chaque période démarrant par 6 7 8 modulo3 (ou dans le titre 0 1 2 modulo 3) avec ses fréquences (freq -1) en abscisse et ses effectifs (effect) en ordonnée, jusqu'à la fréquence 50. J'ai ajouté le total des effectifs de chaque période avec le label diagr. Je ne suis pas allé jusqu'à la fréquence 120 que j'ai utilisée pour la périodicité 9 dans le chapitre suivant. Mais déjà on voit que les diagrammes x- pourraient être représentées par des droites avec des pentes négatives faibles et que les diagrammes c- sont mieux représentées par un polynôme de d° 6, notamment le diagramme 2 modulo3 avec un coefficient de détermination de 0.999. J'ai représenté cependant les 6 diagrammes avec le polynôme de d° 6. C'est ce qui permet de mettre en évidence la périodicité 9 des x- et pas des c-. Le tableau en fin de Note2 affiche les pentes et les effectifs des périodes successives de la périodicité 9 de 2 modulo3 x- (2x-) qu'on peut deviner aussi dans 1 modulo3 x-.
- - Les rapports entre périodes: J'ai représenté dans l'image t4 les rapports entre 2 périodes de x- entre celles de c-. Par exemple le diagramme 2/1x- est le rapport de l'effectif de la période 2 modulo3 sur celle de 1 modulo3 des x-. Il est indiqué dans le tableau coloré des négatifs en début de chapitre et on peut le retrouver en tableur au début aussi du chapitre. Pour les continus je n'est représenté que 2/1c-, la période 0 c- ayant beaucoup de valeurs nulles. Je retrouve avec ces diagrammes la périodicité 9 des x- avec 2/1x- où j'ai éliminé les rapports des fréquences 11 et 34 (j’ai donné le R2 avec ces 2 rapports). Il ressemble étonnamment à celui de la période 2 modulo3x-. Il montre la corrélation entre les périodes avec la pente de la droite et les séquences de la période 2 modulo. Les rapports de 1/0x- montre une pente faible mais pas de séquences périodiques avec un R2 faible de 0.504. Les rapports de 2/0x- ne montrent même de décroissent avec un R2 quasiment nul de 0.035. Le diagramme 2/1c- ne met pas en lumière la périodicité 9. Il a une décroissance polynomiale nette et ne présente pas de séquences périodiques comme 2/1x-.
- - Mise en évidence de la périodicité 9 chez les discontinus x- avec les droites des diagrammes t3.3. Pour les c- la pente est calculée entre les 2 1ères fréquences. J'ai ajouté les R2 des polynômes de d° 3 pour comparer à d'autres diagrammes du chapitre des négatifs.
poly3 R2 pente *mod3 8 14 23 35
2x- 930 -1.97 *2 x- 89 97 42 31
1x- 895 -0.64 * 94 68 43 27
0x- 926 -1.12 * 97 51 43 24
2c- 960 -369 *
1c- 951 -46 *pente 1.33 -7.67 0.17 -1.17
Intergen51. La périodicité de 9Modifier
- Lien au tableur: les données pour t3.9
- Diagrammes: t3.9
- Périodicité de 9 : Le tableur contient tous les négatifs au-delà de -51 ainsi que les 6 périodes de 9, 6c 7c 8c 6x 7x 8x. Ci-dessous sont représentées les périodes 7c et 7x des continus et des discontinus ainsi que les 3 types d'ordonnées commençant par 6 7 8 des 3 périodes de la périodicité 9..
- - Chaque colonne a b c est une périodicité de 9 et la colonne t est leur total. Une ligne correspond à 3 périodes de 3. Dans l’exemple ci-dessous la 1ère ligne correspond aux effectifs des fréquences 7 10 13 des colonnes 7a 7b 7c et 7t la somme des effectifs de ces 3 fréquences, la 2ème ligne correspond de même aux fréquences 16 19 22 et ainsi de suite.
- - La colonne 7a a les fréquences 7 modulo 9 c'est à dire 7 16 25 ...etc, et la colonne 7b les fréquences 10 modulo 9, 10 19 34 ...etc.
c- 7ca 7cb 7cc 7ct * x- 7xa 7xb 7xc 7xt * Les 3 périodes de 9
7 351 213 242 806 * 7 41 29 35 105 * 6 7 8
16 123 107 61 291 * 16 28 29 21 78 * 15 16 17
25 91 54 48 193 * 25 22 21 20 63 * 24 25 26
34 32 27 21 80 * 34 15 8 14 37 * 33 34 35
43 31 14 23 68 * 43 10 15 13 38 * 42 43 44
52 16 13 6 35 * 52 7 3 8 18 * 51 52 53
61 10 14 17 41 * 61 4 5 8 17 * 60 61 62
70 5 9 5 19 * 70 2 2 2 6 * 69 70 71
79 5 13 7 25 * 79 3 5 2 10 * 78 79 80
88 6 9 9 24 * 88 2 2 1 5 * 87 88 89
97 7 3 1 11 * 97 2 0 1 3 * 96 97 98
106 3 2 2 7 * 106 2 3 0 5 * 105 106 107
115 4 0 0 4 * 115 2 1 0 3 * 114 115 116
- Les coefficients de détermination de toutes les courbes de tendance en polynôme de d°3, d°6 et leurs effectifs:
R2 effect d°6 R2 effect d°6 R2 effect d°6
6ca - 17 7ca 927 684 991 8ca 864 3372 995
6cb - 19 7cb 969 478 999 8cb 908 2015 999
6cc - 7 7cc 867 442 986 8cc 913 1368 999
6ct - 43 7ct 928 1604 994 8ct 887 6755 997
6xa 990 173 994 7xa 997 140 998 8xa 993 287 996
6xb 966 129 979 7xb 908 123 930 8xb 975 271 989
6xc 893 129 975 7xc 970 125 988 8xc 953 253 984
6xt 994 431 997 7xt 988 388 988 8xt 987 811 994
- Note:
- - J'ai montré la construction des diagrammes à la 1ère note "Périodicité de 9" ci-dessus. Je n'ai représenté que les courbes de tendances de 7xa 7ca 7xt 7ct avec leurs R2 en bleu. Sont représentés, affichés aussi, les R2 des 7xb et 7cb (rouge) ainsi que ceux de 7xc et 7cc (en vert). J'ai ajouté le total des effectifs de 7xt et 7ct avec le symbole diagr.
- - Le tableau ci-dessus des R2 de toutes les périodes modulo9 montre que les diagrammes des c- sont mieux représentés en polynômes de d°6, avec les 8 R2 supérieurs à 0.986, que par les polynômes de d°3, avec 7 R2 inférieurs à 0.928 alors même que leurs effectifs sont 10 fois supérieurs à ceux des x-.
- - Le même tableau montre que les x- sont suffisamment représentés par un polynôme de d°3, avec 2 R2 seulement inférieurs à 0.953 (0.908 et 0.893). Les polynômes de d°6 n'améliorent pas la situation comme les c- puis que 5 R2 sont inférieurs à 0.986: 2 avec 0.984 et 0.979 0.975 0.930. On peut attribuer ceci à leurs faibles effectifs relativement à ceux des c-.
- - En conclusion des diagrammes t3.3 t4 et t3.9, les x- avec leur décroissance lente montre bien une périodicité de 9 et les c- ne la montre pas parce qu'il décroissent rapidement et sont mieux représentés par des polynômes de d°6 et non de d°3 qui sont adaptés aux x-.
Intergen51. Les grands négatifs inférieurs à -120Modifier
- Lien au tableur: les recouvrements.
- Les recouvrements
- - Légende
- - add1 add2 adresse du début et de fin d'un cds. Je nomme pour les opérations qui suivent add11 add12 le 1er cds de la 1ère ligne. La ligne suivante contient les adresses du cds suivant que je nomme add21 add22.
- - Les opérations:
- + intercal, intercalaire entre un cds et le suivant. Il est calculé comme add12-add21-1.
- + shift, différence entre les extrémités de droite, des 2 cds, add22-add12. S'il est nul, il est remplacé par celui des extrémités de gauche, add21-add11. Les extrémités identiques, de droite ou de gauche, sont surlignées en jaune.
- + couvre, le recouvrement des 2 cds. Quand le shift est négatif (cyan) le cds est complètement recouvert et la longueur du recouvrement est égale à la longueur du 2ème cds, soit add22-add21+1, inférieure à l'intercalaire. Si le shift est positif le recouvrement est partiel et sa longueur est add12-add21+1, égale à l'intercalaire. Si les extrémités, d'un des 2 côtés, sont identiques le recouvrement d'un des 2 cds est total.
- - Note:
- - Tous les shift ou adresses colorés, au nombre de 22, ont un recouvrement total et la longueur de leurs intercalaires est supérieure à 310 (eal continu partiel) sauf 3 de eco, continus (242 212 153), et un de bsu discontinu (127). Les 12 intercalaires restants, sans couleurs, ont une longueur inférieure à 311 et des recouvrements partiels comme certainement les 97% des intercalaires négatifs de moins de 50 pbs.
- - Les continus ont de longs recouvrements allant jusqu'à 2400 et 12 sur 22 ont un recouvrement supérieur à 310. Les adresses en jaune: la traduction démarre en retrait pour le plus petit gène et garde la même séquence d'aas (idco: la longueur de l'intercalaire est égale au recouvrement) sauf l'intercalaire 153 où le recouvrement est tout à fiat différent pour les 2 gènes (diff); il suit le processus des recouvrements partiels non colorés ou en cyan. Alors que les autres jaunes suivent les processus de la traduction et non ceux des réparations au niveau de l'ADN.
- - Les discontinus, à l'inverse, un seul a 486 pbs de recouvrement sur un total de 12 et 6 sont en dessous de 100 pbs, 5 ayant moins de 297 pbs.
- - Les processus des intercalaires continus sont à 95% des non multiples de 3 comme je l'ai montré dans le chapitre de la périodicité 3. C'est le cas de toutes les adresses en clair et de l'intercalaire 153 qui est en jaune. Les autres jaunes suivant les règles de la traduction sont des multiples de 3. Les 4 adresses en cyan ont des recouvrements multiples de 3 mais n'ont pas d'aas en commun (diff) avec l'autre gène, donc ils suivent les processus partiels des réparations.
- - Les recouvrements des intercalaires discontinus sont totalitaires ou partiels et multiples ou non de 3 bien qu'ils aient de grandes longueurs.
cds-cds-. Les grands intercalaires cds-cds négatifs, les recouvrements.
intercal |
add1 |
add2 |
shift |
couvre |
multiple 3 |
intercal |
add1 |
add2 |
shift |
couvre |
multiple 3
|
---|
continu
|
bsu |
|
|
|
|
|
eco |
|
|
|
|
|
-7616 |
387744 |
398495 |
-7475 |
141 |
*diff |
-2400 |
164730 |
167264 |
136 |
2400 |
*idco
|
|
390880 |
391020 |
|
|
|
|
164865 |
167264 |
|
|
|
|
|
|
|
|
|
-2202 |
3313342 |
3315543 |
470 |
2202 |
*idco
|
-500 |
3717238 |
3717825 |
-20 |
480 |
*diff |
|
3313342 |
3316014 |
|
|
|
|
3717326 |
3717805 |
|
|
|
-2181 |
3313342 |
3315522 |
20 |
2181 |
*idco
|
|
|
|
|
|
|
|
3313342 |
3315543 |
|
|
|
-492 |
2909520 |
2910011 |
735 |
492 |
*idco |
-2130 |
2731600 |
2733729 |
444 |
2130 |
*idco
|
|
2909520 |
2910746 |
|
|
|
|
2731600 |
2734173 |
|
|
|
|
|
|
|
|
|
-1674 |
1973360 |
1975033 |
290 |
1674 |
*idco
|
-164 |
1252815 |
1253021 |
52 |
164 |
|
|
1973360 |
1975324 |
|
|
|
|
1252858 |
1253073 |
|
|
|
-1295 |
492092 |
493386 |
637 |
1295 |
idco
|
|
|
|
|
|
|
|
492092 |
494023 |
|
|
|
-154 |
2466721 |
2467953 |
209 |
154 |
|
-897 |
4577958 |
4578854 |
483 |
897 |
*idco
|
|
2467800 |
2468162 |
|
|
|
|
4577958 |
4579337 |
|
|
|
|
|
|
|
|
|
-729 |
1179520 |
1180359 |
112 |
840 |
*idco
|
-143 |
1916663 |
1917097 |
205 |
143 |
|
|
1179631 |
1180359 |
|
|
|
|
1916955 |
1917302 |
|
|
|
-448 |
1639030 |
1639527 |
-193 |
255 |
*diff
|
rru |
|
|
|
|
|
|
1639080 |
1639334 |
|
|
|
-137 |
2068001 |
2069146 |
934 |
137 |
|
-242 |
578107 |
578568 |
-59 |
183 |
*diff
|
|
2069010 |
2070080 |
|
|
|
|
578327 |
578509 |
|
|
|
lmo |
|
|
|
|
|
-212 |
508875 |
511379 |
2292 |
212 |
*idco
|
-161 |
509400 |
510287 |
925 |
161 |
|
|
511168 |
511379 |
|
|
|
|
510127 |
511212 |
|
|
|
-153 |
16751 |
16903 |
57 |
153 |
*diff
|
mfi |
|
|
|
|
|
|
16751 |
16960 |
|
|
|
-161 |
515362 |
516138 |
142 |
161 |
|
eal |
|
|
|
|
|
|
515978 |
516280 |
|
|
|
-310 |
1869470 |
1869865 |
467 |
310 |
diff
|
|
|
|
|
|
|
|
1869556 |
1870332 |
|
|
|
discontinu
|
bsu |
|
|
|
|
|
eco |
|
|
|
|
|
-361 |
2601528 |
2603339 |
-64 |
297 |
* |
-723 |
3111128 |
3111988 |
-663 |
60 |
*
|
|
2602979 |
2603275 |
|
|
|
|
3111266 |
3111325 |
|
|
|
|
|
|
|
|
|
-530 |
3838248 |
3839171 |
-470 |
60 |
*
|
-127 |
3666841 |
3667059 |
-43 |
84 |
* |
|
3838642 |
3838701 |
|
|
|
|
3666933 |
3667016 |
|
|
|
-527 |
10643 |
11356 |
-41 |
486 |
*
|
|
|
|
|
|
|
|
10830 |
11315 |
|
|
|
-93 |
2652993 |
2653463 |
1410 |
93 |
* |
-495 |
234027 |
234782 |
-462 |
33 |
*
|
|
2653371 |
2654873 |
|
|
|
|
234288 |
234320 |
|
|
|
eal |
|
|
|
|
|
-436 |
3796948 |
3798207 |
-361 |
75 |
*
|
-189 |
3265916 |
3266143 |
1749 |
189 |
* |
|
3797772 |
3797846 |
|
|
|
|
3265955 |
3267892 |
|
|
|
-210 |
3993739 |
3994059 |
276 |
210 |
*
|
eal |
|
|
|
|
|
|
3993850 |
3994335 |
|
|
|
-167 |
1123029 |
1123934 |
1507 |
167 |
|
-129 |
1240260 |
1240463 |
1608 |
129 |
*
|
|
1123768 |
1125441 |
|
|
|
|
1240335 |
1242071 |
|
|
|
Intergen51. Les diagrammes CDS-rRNAModifier
Intergen51. Les diagrammes CDS-16sModifier
- Lien au tableur: Intergen51. Les diagrammes CDS-16s.
- Diagrammes: t5
- Comparaison CDS16s 5sCDS
- - Les équations des polynômes de d°3
- CDS16sc f(x) = 1.06E-07 x3 – 2.31E-04 x2 + 1.37E-01 x - 1.28E+01
- CDS16sx f(x) = 2.38E-08 x3 – 5.97E-05 x2 + 4.11E-02 x - 4.25
- 5sCDSc f(x) = 1.86E-07 x3 - 2.41E-04 x2 + 7.56E-02 x + 1.12
- 5sCDSx f(x) = 1.28E-07 x3 – 1.54E-04 x2 + 3.86E-02 x + 4.50
- - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
CDS16sc CDS16sx 5sCDSc 5sCDSx
R2 0.687 0.456 0.655 0.592
xs 415.2 487.7 205.9 155.5
plage 180-780 330-750 90-330 60-300
total-p 181 69 75 69
% 86 74 74 78
queue 26 20 26 18
% 12 22 26 20
tête 3 4 3 2
% 1.5 4.3 3.0 2.2
max 450;22 480;9 180;13 120;16
total51 210 93 101 89
freq 30 30 30 30
Intergen51. Les diagrammes 5s-CDSModifier
- Lien au tableur: Intergen51. Les diagrammes 5s-CDS.
- Diagrammes: t5 et t1 pour les tRNA-CDS
- Comparaison avec les tRNA-CDS
- - Les équations des polynômes de d°3
- fct f(x) = 1.04E-05 x3 - 7.10E-03 x2 + 1.21E+00 x + 1.35E+01
- fxt f(x) = 3.16E-06 x3 - 2.46E-03 x2 + 4.87E-01 x + 9.58
- 5sCDSc f(x) = 1.86E-07 x3 - 2.41E-04 x2 + 7.56E-02 x + 1.12
- 5sCDSx f(x) = 1.28E-07 x3 – 1.54E-04 x2 + 3.86E-02 x + 4.50
- - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
fct fxt 5sCDSc 5sCDSx
R2 0.923 0.600 0.655 0.592
xs 113.5 133.1 205.9 155.5
plage 40-210 40-260 90-330 60-300
total-p 1125 788 75 69
% 58 63 74 78
queue 708 411 26 18
% 36 33 26 20
tête 98 40 3 2
% 5.0 3.2 3.0 2.2
max 110;84 100;57 180;13 120;16
total51 1945 1253 101 89
freq 10 10 30 30
Intergen51. Les CDS-rRNA raresModifier
5sCDSc 23sCDSc 5s16sc 23sCDSx CDS5sx CDS16sc CDS23sc 23sCDSc 5s16sc
R2 0.655 - - - - 0.687 - 188 183
xs 205.9 281 284 158 264 415.2 590 223 265
plage 90-330 90-330 90-330 90-330 90-330 210-780 210-780 237 266
total-p 75 8 7 6 4 181 5 299 267
% 74 67 64 100 100 86 100 313 317
queue 26 4 4 0 0 26 0 322 319
% 26 33 36 0 0 12 0 331 371
tête 3 0 0 0 0 3 0 336 866
% 3 0 0 0 0 1.5 0 357 1107
max 13;180 2;240 3;270 2;150 1;240 22;450 1;540 385 1125
total51 101 12 11 6 4 210 5 446 1319
freq 30 30 30 30 30 30 30 463
23sCDSx CDS5sx CDS23sc 16sCDS 16sCDSx 5s16sx
87 184 407 -3 228 161
109 228 531 2 CDS23sx 340
151 301 563 294 182 CDS5sc
151 343 719 695 16s16sc 52
188 736 1463 0 335
260 2466
Intergen51. Les diagrammes RNA-RNAModifier
Intergen51. Les diagrammes rRNA-rRNAModifier
- Lien au tableur: Intergen51. Les diagrammes rRNA-rRNA.
- Diagrammes: t6
- Comparaison entre les 4 rRNA-rRNA
- - Les équations des polynômes de d°3
- 16s23sc f(x) = 1.17E-06 x3 – 1.42E-03 x2 + 4.93E-01 x - 3.98E+01
- 16stRNAc f(x) = 1.74E-06 x3 – 1.29E-03 x2 + 2.14E-01 x + 6.21
- tRNA23sc f(x) = 8.08E-07 x3 – 8.80E-04 x2 + 2.54E-01 x - 8.69
- 23s5sc f(x) = 1.74E-05 x3 – 1.00E-02 x2 + 1.55E-00 x - 3.11E+01
- - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
16s23s 16stRNA tRNA23s 23s5sc
R2 0.680 0.474 0.562 0.684
xs 252.2 105.4 198.7 107.9
plage 160-360 80-140 100-320 60-180
total-p 137 112 151 242
% 91 72 87 85
queue 11 35 16 27
% 7.3 23 9.2 9.4
tête 2 8 6 9
% 1.3 5.1 3.5 3.1
max 21;280 32;100 25;280 58;140
total51 150 155 173 286
freq 20 20 20 20
Intergen51. Les diagrammes tRNA-rRNAModifier
Intergen51. Les diagrammes tRNA-tRNAModifier
Comparaison entre 5stRNA et les 3 types de tRNA-tRNAModifier
type c S40 % R2 diag total reste x+ restes 5stRNA hors hors contig in
hors 815 65 0.901 260 1254 17 17 155 261 439 138 6*161
contig 669 92 0.900 120 731 6 0 170 269 452 158
in 72 51 0.454 120 140 6 0 175 278 479 265
5stRNA 91 59 0.593 120 155 8 1 4*257 297 504 311
287 306 532 1472
341 539 2351
373 634
373 718
1172
- Les intercalaires tRNA-tRNA hors blocs
hors gama alpha cvi ade ant bacilli clostri afn ase 3actino archeo bact cyano tener scc
20 20.3 12.5 36.4 6.9 58.6 68.4 70.3 81.5 51.0 22.4 12.2 8.3 79.3 73.3 20.0
40 31.2 27.3 45.5 16.7 20.7 21.1 16.8 7.4 12.2 36.2 12.2 56.7 0 6.7 70.0
60 24.6 18.2 13.6 16.7 6.9 3.0 5.0 7.4 8.2 22.4 8.2 18.3 6.9 0 10.0
80 6.3 6.8 4.5 16.7 6.9 0.8 3.0 0 4.1 5.2 24.5 0 3.4 20.0 0
100 5.1 4.5 0 0 6.9 1.5 1.0 0 6.1 3.4 18.4 5.0 6.9 0 0
120 6.0 4.5 0 0 0 2.3 0 3.7 4.1 0 12.2 0 0 0 0
140 1.7 5.7 0 8.3 0 0 0 0 0 1.7 2.0 0 0 0 0
160 1.0 3.4 0 8.3 0 0.8 1.5 0 8.2 0 0 3.3 3.4 0 0
180 0.2 4.5 0 0 0 0 0 0 0 1.7 4.1 0 0 0 0
200 1.2 1.1 0 0 0 0 0.5 0 2.0 0 0 1.7 0 0 0
220 1.2 8.0 0 0 0 0 0 0 0 3.4 0 1.7 0 0 0
240 0 0 0 0 0 0.8 0.5 0 0 1.7 2.0 1.7 0 0 0
260 0.2 1.1 0 8.3 0 0.8 0.5 0 2.0 1.7 0 0 0 0 0
restes 1.0 2.3 0 8.3 0 0.8 1.0 0 2.0 0 4.1 3.3 0 0 0
total 414 88 44 12 29 133 202 27 49 58 49 60 29 15 10
repete 47.8 55.4 53.3 0 11.1 11.4 12.0 11.1 13.3 45 25.7 77.8 40 0 0
sequence 21.7 0 26.7 0 11.1 2.9 22.0 11.1 0 6 11.4 0 0 0 0
éclaté - - - - 0 5.7 0 0 0 - - - 0 0 -
sans 30.4 44.6 20.0 100.0 77.8 80.0 66.0 77.8 86.7 48 62.9 22.2 60 100 100
clusters 115 65 15 6 9 35 50 9 15 31 35 27 5 8 4
5 - - - - 10.3 23.9 29.7 29.6 34.7 - - - 41.4 13.3 -
10 - - - - 13.8 24.6 23.3 33.3 2.0 - - - 34.5 33.3 -
15 - - - - 17.2 12.3 6.9 11.1 8.2 - - - 3.4 20.0 -
20 - - - - 17.2 5.1 10.4 7.4 6.1 - - - 0 6.7 -
- Les intercalaires tRNA-tRNA contigus aux blocs
contig bacilli clostri tener
20 77.4 85.3 70.0
40 13.4 8.7 5.0
60 4.9 2.7 20.0
80 1.0 0.7 5.0
100 1.0 2.0 0
120 1.0 0.3 0
140 0.8 0 0
160 0.3 0 0
180 0 0 0
200 0 0 0
220 0 0 0
240 0 0 0
260 0 0 0
restes 0.3 0.3 0
total 389 300 20
repete 0 3.2 0
sequence 0 9.7 0
éclaté 21.6 16.1 0
sans 78.4 71.0 100
clusters 37 31 2
5 26.2 24.0 20.0
10 23.9 41.0 30.0
15 15.7 15.3 15.0
20 11.6 5.0 5.0
Intergen51. Les RNA-RNA raresModifier
type c S40 % R2 diag total reste x+
5stRNA 91 59 0.593 120 155 8 1
tRNA5s 15 65 0.302 17 23 8
******
restes
tRNA5s tRNA16s 23stRNA 16s5s 5s23s 5s5s
149 459 476 néant 230 748
149 1063 89
336
777
1112
1360
- Comparaison avec les rRNA-rRNA analogues
- - Les équations des polynômes de d°3
- 16stRNAc f(x) = 1.74E-06 x3 – 1.29E-03 x2 + 2.14E-01 x + 6.21
- tRNA16sc f(x) = 1.20E-06 x3 – 8.01E-04 x2 + 1.54E-01 x – 6.62E+00
- tRNA23sc f(x) = 8.08E-07 x3 – 8.80E-04 x2 + 2.54E-01 x - 8.69
- 23stRNAc f(x) = -1.26E-05 x3 + 2.37E-03 x2 – 5.95E-02 x + 5.71E-01
- - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
tRNA16sc 16stRNAc 23stRNAc tRNA23sc
R2 0.532 0.474 0.681 0.562
xs 140.5 105.4 111.2 198.7
plage 80-220 80-140 60-140 100-320
total-p 16 112 23 151
% 80 72 92 87
queue 4 35 1 16
% 20 23 4 9.2
tête 0 8 1 6
% 0 5.1 4 3.5
max 4;120 32;100 8;120 25;280
total51 20 155 25 173
freq 20 20 20 20
- Comparaison de 5s16s et 16s5s: voir Les CDS-rRNA rares. bcts abrégé pour bacteroidites cyanobacterie tenericutes spirochete
- - Note. le xs sans R2 est la moyenne de la plage et bcts abrégé pour bacteroidites cyanobacterie tenericutes spirochete
5sCDSc 5s16sc 16s5sc effect 16s5sc 5s16sc 5s16sx
R2 0.655 - - 7 79 6cle 1cbc 183 bacilli 340 archeo
xs 205.9 284 198 1 102 ppm 265 bcts 161 clostridia
plage 90-330 90-330 90-330 1 117 ppm 266 bcts
total-p 75 7 21 1 144 cle 267 bcts
% 74 64 100 1 146 cle 317 gama
queue 26 4 0 3 261 hmo 319 gama
% 26 36 0 2 262 hmo 371 gama
tête 3 0 0 1 336 hmo 866 actino
% 3 0 0 4 337 hmo 1107 clostridia
max 13;180 3;270 7;90 1125 clostridia
total51 101 11 21 1319 gama
freq 30 30 30