Recherche:Les clusters de gènes tRNA et rRNA chez les procaryotes/Annexe/génomes synthèse

génomes synthèse
Image logo représentative de la faculté
Annexe 11
Recherche : Les clusters de gènes tRNA et rRNA chez les procaryotes
Précédent :archeo
Suivant :Atableur
En raison de limitations techniques, la typographie souhaitable du titre, « Annexe : génomes synthèse
Les clusters de gènes tRNA et rRNA chez les procaryotes/Annexe/génomes synthèse
 », n'a pu être restituée correctement ci-dessus.



Liste NCBI des 51 génomes sauvegardés

modifier
  • Lien tableur: Liste NCBI des 51 génomes sauvegardés
  • Liste de la pré-étude de 21 génomes sauvegardés avant la nouvelle méthode et avec les fréquences des intercalaires CDS-CDS des chapitres “génome, intercalaires entre CDS”.
NCBI.1 21 génomes
KEEG date NCBI longueur pb nom lien NCBI
Artb
rtb 7.12.20 1112957 bp Rickettsia typhi str. B9991CWPP NCBI [1]
pub 24.01.21 1308759 bp Candidatus Pelagibacter ubique HTCC1062 NCBI [2]
abra 13.12.20 1877792 bp Acholeplasma brassicae NCBI [3]
mja 09.04.20 1664970 bp Methanocaldococcus jannaschii DSM 2661 NCBI [4]
pmg 08.02.21 1641879 bp Prochlorococcus marinus str. MIT 9301 NCBI [5]
blo 25.10.20 2256640 bp Bifidobacterium longum NCC2705 NCBI [6]
scc 16.07.20 2227296 bp Sphaerochaeta coccoides DSM 17374 NCBI [7]
afn 30.08.20 2329769 bp Acidaminococcus fermentans DSM 20731 NCBI [8]
Acbn
cbn 31.01.14 2773157 bp Clostridium botulinum BKT015925 NCBI [9]
ant 24.09.20 3192235 bp Arcobacter nitrofigilis DSM 7299 NCBI [10]
myr 18.01.21 4155464 bp Myroides sp. A21 NCBI [11]
rru 10.03.20 4352825 pb Rhodospirillum rubrum ATCC 11170 NCBI [12]
mba 17.12.20 4837408 bp Methanosarcina barkeri str. Fusaro NCBI [13]
Aspl
spl 24.09.20 5174581 bp Shewanella pealeana ATCC 700345 NCBI [14]
cvi 25.12.20 4751080 bp Chromobacterium violaceum ATCC 12472 NCBI [15]
bsu 08.02.18 4215606 bp Bacillus subtilis subsp. subtilis str. 168 NCBI [16]
ade 16.07.20 5029329 bp Anaeromyxobacter dehalogenans 2CP-C NCBI [17]
eco 23.09.20 4641652 bp Escherichia coli str. K-12 substr. MG1655 NCBI [18]
Apmq
pmq 07.02.21 8739048 bp Paenibacillus mucilaginosus 3016 NCBI [19]
cbei 31.07.20 6485394 bp Clostridium beijerinckii strain NCIMB 14988 NCBI [20]
ase 17.12.20 9239851 bp Actinoplanes sp. SE50/110 NCBI [21]
  • Liste des 30 génomes en complément étudiés avec la méthode et sauvegardés après. Je les étudiés sommairement avant, en 2019, sans les fréquences des intercalaires CDS-CDS.
NCBI.2 30 génomes
KEEG date NCBI longueur pb nom lien NCBI
alpha
oan 1.8.21 2887297 bp Brucella anthropi ATCC 49188 chromosome 1 NCBI [22]
oan2 1.8.21 1895911 bp Brucella anthropi ATCC 49188 chromosome 2 NCBI [23]
rpm 12.3.21 3876289 bp Pararhodospirillum photometricum DSM 122 chromosome DSM 122 NCBI [24]
rpl 20.01.22 1109301 bp Rickettsia prowazekii str. Breinl NCBI [25]
abqp 26.4.22 1901707 pb Azospirillum brasilense strain Az39 plasmid AbAZ39_p1 NCBI [26]
abq 25.4.21 3064393 bp Azospirillum brasilense strain Az39 chromosome NCBI [27]
absp 11.4.22 1766028 bp Azospirillum baldaniorum plasmid AZOBR_p1 NCBI [28]
abs 25.4.21 3023440 bp Azospirillum baldaniorum NCBI [29]
auap 12.4.22 9393 bp Aureimonas sp. AU20 plasmid pAU20rrn NCBI [30]
aua 12.4.21 3742793 bp Aureimonas sp. AU20 chromosome NCBI [31]
gama
ecoN 11.5.21 5441200 pb Escherichia coli Nissle 1917 chromosome NCBI [32]
vpb1 20.02.22 3297305 bp Vibrio parahaemolyticus BB22OP chromosome 1 NCBI [33]
vpb2 20.02.22 1806219 bp Vibrio parahaemolyticus BB22OP chromosome 2 NCBI [34]
eal 28.2.14 4701875 bp Escherichia albertii KF1 NCBI [35]
vha1 12.12.21 3765351 bp Vibrio campbellii ATCC BAA-1116 chromosome I NCBI [36]
vha2 12.12.21 2204018 bp Vibrio campbellii ATCC BAA-1116 chromosome II NCBI [37]
alpha gama
eco 7.3.22 4641652 bp Escherichia coli str. K-12 substr. MG1655 NCBI [38]
amed 15.1.22 4777154 bp Aeromonas media WS chromosome NCBI [39]
agr l 19.4.21 2148289 bp Agrobacterium fabacearum chromosome linear NCBI [40]
agr c 24.4.22 2823930 bp Agrobacterium fabacearum chromosome circular NCBI [41]
bacilli
lmo 27.2.15 2944528 bp Listeria monocytogenes EGD-e NCBI [42]
lam 6.3.22 2078001 bp Lactobacillus amylovorus NCBI [43]
lbu 13.2.22 1856951 bp Lactobacillus delbrueckii subsp. bulgaricus ATCC BAA-365 NCBI [44]
ban 21.1.22 5321900 bp Bacillus anthracis strain 2002013094 chromosome NCBI [45]
ppm 10.11.21 5728392 bp Paenibacillus polymyxa SC2 NCBI [46]
ppmp 10.11.21 510118 bp Paenibacillus polymyxa SC2, plasmid pSC2. NCBI [47]
clostridia
psor 8.1.18 3550458 bp Paeniclostridium sordellii strain AM370 chromosome NCBI [48]
cdc 6.2.22 4110554 bp Clostridioides difficile CD196 NCBI [49]
cdc8 6.2.22 4308325 bp Clostridioides difficile M68 NCBI [50]
cbc 14.4.15 3892029 bp Clostridium botulinum CDC_297 NCBI [51]
cle 19.3.21 4714237 bp Cellulosilyticum lentocellum DSM 5427 NCBI [52]
hmo 6.3.22 3075407 bp Heliomicrobium modesticaldum Ice1 NCBI [53]
actino
sma 20.4.21 9025608 bp Streptomyces avermitilis MA-4680 = NBRC 14893 NCBI [54]
ksk 15.12.21 8783278 bp Kitasatospora setae KM-6054 NCBI [55]
apal
npu 6.2.22 8234322 bp Nostoc punctiforme PCC 73102 NCBI [56]
apal 14.12.21 1554229 bp Alteracholeplasma palmae J233 NCBI [57]
mfe 11.12.21 3914091 bp Methanosarcina sp. WH1 chromosome NCBI [58]
mfi 25.9.19 2478074 bp Methanobacterium formicicum genome assembly DSM1535, chromosome : chrI NCBI [59]
fps 14.12.21 2860382 bp Flavobacterium psychrophilum JIP02/86 NCBI [60]

Les blocs à tRNA

modifier

Les cds dans les blocs à tRNA

modifier
  • Lien tableur: cds
  • Légende:
fréquences intercalaires	fréquences cds en aa	
autour du cds				
	9				2
10	20			50	20
50	21			100	9
90	21			150	10
130	21			200	4
170	5			250	5
210	6			300	3
250	2			350	8
290	8			400	9
	113				70
génomes. Les cds dans les blocs à tRNA
génome sens adresse nom cds aa intercal
gamma autres rien
eal comp 2042057..2043241 tuf1 395 117
comp 2043359..2043431 acc gga tac aca
eco comp 1287087..1287176 tpr 30 67
comp 1287244..1287328 tac tac
4175754..4175829 acc aca tac gga 114
4175944..4177128 tufb 395
ecoN comp 2192566..2192655 tcg 93
2192749..2193546 DgsA 266 100
2193647..2193722 aac
comp 2236186..2236261 aac 4
2236266..2237909 YeeO 548 100
2238010..2238085 aac
amed comp 3913378..3913454 tgg 52
comp 3913507..3914691 cds 395 171
comp 3914863..3914937 gga
alpha
rpm comp 659042..659116 gtc 155
comp 659272..660159 hydrolase 296 106
comp 660266..660340 gtc
comp 2114823..2114899 aga 55
comp 2114955..2115251 ETC 96 71
comp 2115323..2115399 cca
2632171..2632246 gcc 166
< 2632413..2632965 transposase 184 -41
2632925..2633473 hp 183 30
comp 2633504..2633579 aca 93
comp 2633673..2634200 transferase 176 271
comp 2634472..2634561 tcg
2863981..2864056 aca 15
2864072..2864317 DUF2829 82 8
2864326..2864401 aaa
rru 1934224..1934300 cca 63
1934364..1934663 ETC 100 12
1934676..1934752 aga
comp 3124836..3125033 translocase 66 151
comp 3125185..3125260 tgg 343
comp 3125604..3126794 ef tu 397 93
comp 3126888..3126961 gga
comp 3126989..3127074 tac 37
3127112..3128158 RlmB 349 57
3128216..3128291 aca 127
3128419..3128652 hp 78
3378495..3378569 acc 237
3378807..3379370 hp 188 234
oan comp 2040234..2040453 hp 73 91
2040545..2040629 tac
2040654..2040727 gga 6
comp 2040734..2040916 hp 61 -50
2040867..2042042 ef Tu 392 65
2042108..2042183 tgg 420
2042604..2042804 translocase 67
comp 2697238..2697314 aga 123
comp 2697438..2697743 ETC 102 156
comp 2697900..2697976 cca
abq comp 748703..749161 hp 153 38
comp 749200..749275 aca 91
comp 749367..750221 RlmB 285 144
750366..750451 tac
750512..750585 gga 81
750667..751857 ef Tu 397 153
752011..752086 tgg 69
752156..752353 Translocase 66
872533..872608 atgi 5
comp 872614..873093 GNAT 160 134
comp 873228..873304 cgt
1354014..1354091 cca 49
1354141..1354437 ETC 99 10
1354448..1354524 aga
abs comp 1500772..1501110 P-II 113 338
1501449..1501524 cac
1501634..1501709 cac 129
1501839..1503305 epimerase 489 106
1503412..1504977 Manolyl CoA 522 173
1505151..1505235 cta 91
1505327..1506661 trigger factor 445
1808815..1808892 cca 49
1808942..1809238 ETC 99 10
1809249..1809325 aga
2293805..2293881 cgt 137
2294019..2294495 GNAT 159 5
comp 2294501..2294576 atgi
comp 2418203..2418400 translocase 66 69
comp 2418470..2418545 tgg 152
comp 2418698..2419888 ef Tu 397 81
comp 2419970..2420043 gga
comp 2420104..2420189 tac 144
2420334..2421188 RlmB 285 91
2421280..2421355 aca 137
2421493..2423187 integrase 565
agr 1532381..1532455 gaa 121
1532577..1532818 P-hp 81 89
1532908..1532982 gaa
1770727..1772280 integrase 518 91
comp 1772372..1772448 cca 265
1772714..1773019 ETC 102 51
1773071..1773147 aga 7
comp 1773155..1773892 DUF429 246
aua 2368353..2368429 cca 43
2368473..2368778 cds 102 36
2368815..2368890 aga
comp 2641950..2642023 tgc 153
comp < 2642177..2642443 cds 89 296
2642740..2642814 aac
beta néant
delta néant
bacilli autres rien
pmq 20252..21532 cds 427 47
21580..21666 tca 140
21807..22157 hp 117 17
22175..22357 hp 61 23
22381..22524 hp 48 86
comp 22611..22796 hp 62 138
comp 22935..25265 replicase 777 156
25422..26165 hp 248 220
comp 26386..26460 cgg 183
26644..27168 replicase 175
clostridia autres rien
hmo comp 105958..106044 ctg 321
comp 106366..106929 cds 188 241
comp 107171..107246 aca
1172120..1172196 agg 181
1172378..1172812 cds 145 62
1172875..1172966 tcg
1764087..1764161 ggc 92
comp 1764254..1764493 cds 80 72
1764566..1764641 tgc
comp 2496451..2496527 gtc
comp 2496532..2496609 atgj 175
2496785..2497120 cds 112 217
comp 2497338..2497420 ctc
*** Suivent 5 tRNAs comp ***
comp 2497882..2497958 gtg -10
comp 2497949..2498185 cds 79 66
2498252..2498328 ccg
actino autres rien
ase 1520472..1520544 aac 315
1520860..1522122 cds 421 236
1522359..1522432 atg
comp 4901908..4901981 gcg 19
comp 4902001..4902321 cds 107 23
comp 4902345..4902417 gac
*** 7 tRNAs ggc cds cag 20 tRNAs ***
6400506..6400577 ggc 25
6400603..6401055 cds 151 35
6401091..6401163 cag
bacteroide fps rien
myr comp 719769..719842 tgg 60
comp 719903..721090 cds 396 58
comp 721149..721220 acc
omp 1929840..1929925 tta 147
comp 1930073..1930444 cds 124 108
comp 1930553..1930638 tta
comp 2208797..2208872 atgf 106
comp 2208979..2209605 cds 209 147
comp 2209753..2209829 atgj
cyano npu rien
pmg comp 435678..435751 gac 149
comp 435901..436095 cds 65 35
comp 436131..436203 tgg
tenericutes
abra comp 1540706..1540780 tgg 47
comp 1540828..1541754 cds 309 137
1541892..1541967 cac
apal comp 205299..205373 tgg 73
comp 205447..206382 cds 312 133
206516..206591 cac
comp 1457388..1457463 gac 40
comp 1457504..1458355 cds 284 154
comp 1458510..1458585 ttc
*** 10 tRNAs 5s23s ***
archeo mfi mfe rien
mja 862590..862661 cga 41
862703..863392 cds 230 86
863479..863555 aca
*** 3 tRNAs 5s gac ***
mba 4618540..4618617 gaa 351
4618969..4619190 hp 74 377
4619568..4619645 gaa

Les totaux des génomes par type

modifier
  • Les six types sont: les solitaires, les multiples, les duplicata, avant 5s, après 5s >3, après 5s <4, avant 16s et après 16s. En abrégé, respectivement, 1aa >1aa dup -5s +5s >3, 5s <4 (ou 1-3aas), -16s +16s.
  • Note : le tableau de contrôle est dans le tableur
  • Lien tableur : Les totaux des génomes par type

Les totaux des types

modifier
Les totaux des types
actino >1aa 1aa -5s +5s -16s +16s duplica 1-3aas total
total 1047 912 13 751 11 304 493 135 3666
  • Note: le -16s long de 33 est compté dans les +5s >3.

La référence +5s >3

modifier
  • Lien tableur : La référence +5s >3
  • Ce sont ceux des bacilli plus ceux des clostridia parce qu'ils sont nombreux et réduits à 2 clades, donc homogènes. Tenericutes en possèdent 2 fois 11. Les archées en possèdent aussi, mais seulement 1 de 6aas. Voir les études plus détaillées dans les fiches qui ne concernent que les blocs à rRNA.
  • Légende:
    - Cyan pour les valeurs faibles, total 19 pour 21 tRNAs.
    - Jaune pour les valeurs fortes et en gras les plus fortes, total 474 pour 14 tRNAs
    - blanc pour les valeurs intermédiaires, gca et atc le sont aussi, total 236 pour 16 tRNAs.
    - Le rouge pour l'emplacement des +16s occupés, gca et atc.
    - Les encadrés sont les emplacements des 1-3aas des +5s de alpha + gamma.
    - Le -16s de 33 aas est compté ici comme un +5s long (inversion).
Bacilli + clostridia. Les +5s >3 de référence.
g1    t1          
atgi 12 tct tat atgf 29
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 26 tcc 10 tac 26 tgc 17
atc 15 acc 9 aac 38 agc 15
ctc 4 ccc 2 cac 20 cgc 30
gtc 5 gcc 1 gac 39 ggc 38
tta 22 tca 17 taa tga
ata aca 31 aaa 39 aga 15
cta 20 cca 33 caa 29 cga
gta 49 gca 15 gaa 42 gga 25
ttg 7 tcg 2 tag tgg 12
atgj 21 acg 2 aag agg
ctg 9 ccg 1 cag cgg
gtg gcg gag 1 ggg 1
5s-bc inter min max total
total 236 19 474 729

totaux par rapport au groupe de référence

modifier
bacts. Comparaison avec la référence
tRNAs blocs tRNAs blocs rRNAs
bacts 1aa >1aa dup +5s 1-3aas autres total
21 faible 317 124 114 19 2 7 583
16 moyen 345 327 80 246 43 253 1294
14 fort 250 596 299 486 90 68 1789
912 1047 493 751 135 328 3666
10 g+cga 151 68 57 7 283
2 agg+cgg 55 11 12 1 79
4 carre ccc 93 41 55 1 7 197
5 autres 18 4 2 24
317 124 114 19 2 7 583
total tRNAs ‰
bacts 1aa >1aa dup +5s 1-3aas autres bacts ‰ ref.‰
21 faible 86 34 31 5 1 2 159 26
16 moyen 94 89 22 67 12 69 353 324
14 fort 68 163 82 133 25 19 488 650
249 286 134 205 37 89 3666 729
10 g+cgg 41 19 16 2 77 10
2 agg+cga 15 3 3 0.3 22
4 carre ccc 25 11 15 0.3 2 54 16
5 autres 5 1.1 0.5 7
86 34 31 5 0.5 2 159
blocs tRNAs ‰ total colonne %
bacts 1aa >1aa dup total ref.‰ 1aa >1aa dup
21 faible 129 51 46 226 26 35 12 23
16 moyen 141 133 33 307 324 38 31 16
14 fort 102 243 122 467 650 27 57 61
372 427 201 2452 729 912 1047 493
10 g+cgg 62 28 23 113 10 48 55 50
2 agg+cga 22 4 27 17 9
4 carre ccc 38 17 22 77 16 29 33 48
5 autres 7 2 0.8 10 6 3 2
129 51 46 226 317 124 114

Caractérisation des tRNAs

modifier

Caractérisation d'un tRNA par les 4 processus +5s 1aa >1aa duplication

modifier
  • Lien tableur: Caractérisation d'un tRNA par les 4 processus +5s 1aa >1aa duplication
  • Le groupe de référence: voir la référence. Ici les intermédiaires sont remplacés par le vert au lieu du blanc. La colonne +5s représente la référence (729) plus ceux des tenericutes (22, 2*11) ce qui ne change pas l'ordre de son classement: atgijf ttc tta gta aaa tca aca gca gac.
  • Légende:
    - carré ccc, c'est ctc gtc ccc gcc
    - g+cga, c'est gtg xcg xag ggg cga (dans l'hypothèse de la bascule des cgx, cgt/cgc cga/cgg)
Synthèse des 44 génomes. Caractérisation de chaque tRNA par les 4 processus: +5s 1aa >1aa duplication
Caractérisation par les effectifs
g1 +5s 1aa >1aa dup t1 +5s 1aa >1aa dup +5s 1aa >1aa dup +5s 1aa >1aa dup
atgi 14 30 7 2 tct tat atgf 31 30 36 30
att act 3 aat agt 1
ctt 4 3 2 cct cat cgc
gtt gct gat ggt
ttc 28 21 35 9 tcc 10 37 6 2 tac 26 7 44 28 tgc 17 16 38 4
atc 15 4 7 2 acc 9 18 22 5 aac 38 28 35 22 agc 15 18 34
ctc 4 30 15 2 ccc 2 28 1 cac 20 14 34 11 cgt 30 15 19 49
gtc 5 19 11 28 gcc 1 16 14 25 gac 41 14 54 13 ggc 38 17 59 43
tta 24 18 31 2 tca 19 36 12 4 taa tga 9
ata 1 1 0 aca 33 19 43 7 aaa 41 17 44 25 aga 15 29 21 2
cta 20 21 32 8 cca 33 20 39 4 caa 29 19 37 12 cga 3 7
gta 51 13 54 26 gca 17 4 7 gaa 42 15 52 25 gga 25 15 45 6
ttg 7 34 8 2 tcg 2 26 5 tag tgg 12 31 13 2
atgj 23 15 39 6 acg 2 28 5 aag 18 12 16 agg 31 1
ctg 9 20 16 28 ccg 1 15 4 8 cag 9 14 10 cgg 24 10
gtg 10 5 8 gcg 13 5 3 gag 1 9 5 12 ggg 1 20 6
Caractérisation par la relativité des 4 processus: chaque processus est rapporté à 1000 tRNAs.
g1 +5s 1aa >1aa dup t1 +5s 1aa >1aa dup +5s 1aa >1aa dup +5s 1aa >1aa dup
atgi 19 33 7 4 tct tat atgf 41 33 34 61
att act 0 3 0 0 aat agt *1
ctt 0 4 3 4 cct cat cgc
gtt gct gat ggt
ttc 37 23 33 18 tcc 13 41 6 4 tac 35 8 42 57 tgc 23 18 36 8
atc 20 4 7 4 acc 12 20 21 10 aac 51 31 33 45 agc 20 20 32 0
ctc 5 33 14 4 ccc 3 31 1 0 cac 27 15 32 22 cgt 40 16 18 99
gtc 7 21 11 57 gcc 1 18 13 51 gac 55 15 52 26 ggc 51 19 56 87
tta 32 20 30 4 tca 25 39 11 8 taa tga 0 10 0 0
ata *1 *1 aca 44 21 41 14 aaa 55 19 42 51 aga 20 32 20 4
cta 27 23 31 16 cca 44 22 37 8 caa 39 21 35 24 cga 0 3 7 0
gta 68 14 52 53 gca 23 4 7 0 gaa 56 16 50 51 gga 33 16 43 12
ttg 9 37 8 4 tcg 3 29 5 0 tag tgg 16 34 12 4
atgj 31 16 37 12 acg 3 31 5 0 aag 0 20 11 32 agg 0 34 1 0
ctg 12 22 15 57 ccg 1 16 4 16 cag 0 10 13 20 cgg 0 26 10 0
gtg 0 11 5 16 gcg 0 14 5 6 gag 1 10 5 24 ggg 1 22 6 0

Construction du tableau avec les sous-totaux

modifier

Définition des classes pour les 4 types

modifier
  • Notes : Dans le tableau ci-dessus de la caractérisation des tRNAs rapportée à 1000 pour chaque type, 2ème tableau, les nombres en gras commencent à partir de 26 et sont au nombre de 64. Ce sont les plus élevés, ils incluent les nombres non gras des +5s colorés en jaune. On peut les diviser en
    - forts (les jaunes sans gras de la référence) de 26 à 37 au nombre de 32.
    - très forts (les gras jaunes de la références) de 39/1000 et plus, au nombre de 32
    - Les valeurs les plus faibles seraient inférieures à 10/1000 et sont au nombre de 68 dont 23 zéros. Les tRNAs ata et agt ne sont pas pris en compte (*). Le reste est divisé en
    - moyen faibles de 10 à 16 au nombre de 33, et en
    - moyen forts de 18 à 25 au nombre de 31.
    - Les nombres en gras du 1er tableau sont ceux de la référence (+5s) relativisés pour les duplications qui ont un total 50% inférieur à la référence. Les ruptures des types rapportés à 1000 tRNAs confirment et harmonisent le 1er tableau.
    - NB.SI, fonction calc utilisée.
0	23		16	9		32	5		48	0	
1	6		17	0		33	6		49	0	
2	0		18	4		34	3		50	1	
3	6		19	3		35	2		51	5	
4	13		20	9		36	1		52	2	
5	6		21	4		37	4		53	1	
6	3		22	4		38	0		54	0	
7	5		23	4		39	2		55	2	
8	5		24	2		40	1		56	2	
9	1		25	1		41	3		57	3	
10	5		26	2		42	2		61	1	
11	4		27	2		43	1		68	1	
12	5		28	0		44	2		87	1	
13	3		29	1		45	1		99	1	
14	4		30	1		46	0				
15	3		31	5		47	0				
	92			51			33			20	196

Les processus +16s -16s -5s 1-3aas

modifier

Récapitulatifs

modifier
  • D'après les distributions des totaux: liens

gama alpha baci clos bact actino cyano tener

  • Légendes : alpha* pour alpha+beta+delta, btc pour bacteroide tenericutes cyano
+16s	gca	atc	aaa	gta	gcc	gaa	total
gama	29	23	8	8	2	33	103
clos	26	11			5		42
afn	2	2					4
baci	16	15					31
alpha*	37	43					80
b t c	21	23					44
actino	0	0	0	0	0	0	0
total	131	117	8	8	7	33	304
total 1-3aas					
	alpha	gama	baci	clos	tener
atgf	23		2	2	
gac		23	2	1	
aac			4	7	6
acc		9	1	1	
tgg		8		1	
tca		4			
gaa		1		2	
tcc			1		
total	23	45	10	14	6
autres				37	
-16s	2gga 2tac aac agc atc cgt gca tca tcc		
-5s	3aca 5gga 5aac

Les processus +16s -16s 1-3aas -5s comparés à la référence

modifier
Distribution des totaux 1-3aas +16s -16s -5s.
Total 1-3aas
g1    t1       
atgi 8 tct tat atgf 27
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 6 tcc 1 tac tgc 1
atc acc 11 aac 17 agc
ctc 1 ccc cac cgc
gtc gcc gac 26 ggc 4
tta 4 tca 4 taa tga
ata aca aaa 6 aga 1
cta cca caa cga
gta gca 4 gaa 3 gga 1
ttg tcg tag tgg 9
atgj acg aag agg
ctg ccg cag cgg 1
gtg gcg gag ggg
baci clos clos alpha tener gama total
10 47 4 23 6 45 135
Total 1-3aas avec la référence +5s
g1    t1       
atgi 8 tct tat atgf 27
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc 6 tcc 1 tac tgc 1
atc acc 11 aac 17 agc
ctc 1 ccc cac 0 cgc
gtc gcc gac 26 ggc 4
tta 4 tca 4 taa tga
ata aca aaa 6 aga 1
cta cca caa cga
gta gca 4 gaa 3 gga 1
ttg tcg tag tgg 9
atgj acg aag agg
ctg ccg cag cgg 1
gtg gcg gag ggg
inter max min total
43 90 2 135
Total +16s avec la référence +5s
g1    t1       
atgi tct tat atgf
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc tcc tac tgc
atc 117 acc aac agc
ctc ccc cac cgc
gtc gcc 7 gac ggc
tta tca taa tga
ata aca aaa 8 aga
cta cca caa cga
gta 8 gca 131 gaa 33 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
248 49 7 304
Total -16s -5s avec la référence +5s
g1    t1       
atgi tct tat atgf
att act aat agt
ctt cct cat cgt
gtt gct gat ggt
ttc tcc 1 tac 2 tgc
atc 1 acc aac 6 agc 1
ctc ccc cac cgc 1
gtc gcc gac ggc
tta tca 1 taa tga
ata aca 3 aaa aga
cta cca caa cga
gta gca 1 gaa gga 7
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
5 19 0 24

Les processus +16s et 1-3aas des fiches mémoires

modifier
  • Lien tableur : Les processus +16s et 1-3aas des fiches mémoires
  • Le groupe de référence : voir la référence
  • Légend e:
    - carré ccc, c'est ctc gtc ccc gcc
    - g+cga, c'est gtg xcg xag ggg cga (dans l'hypothèse de la bascule des cgx, cgt/cgc cga/cgg)
  • Note : Ces 2 processus ont été comptabilisés sur de plus grands effectifs dans les fiches mémoires par clade. La comparaison des effectifs avec ceux des annexes montrent qu'ils sont semblables statistiquement. Voir la synthèse des +16s et des 1-3aas.
Distribution des +16s et des 1-3aas des fiches mémoires, avec la référence +5s.
Effectifs des +16s
g1    t1       
atgi cds 121 16s 1039 atgf 2
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc tcc tac tgc
atc 1235 acc aac agc
ctc ccc cac cgt
gtc gcc 11 gac ggc
tta tca taa tga
ata aca aaa 11 aga
cta cca 4 caa cga
gta 13 gca 1249 gaa 272 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
2484 302 11 2797
Les +16s rapportés à 1000 tRNAs.
g1    t1       
atgi tct tat atgf 1
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc tcc tac tgc
atc 442 acc aac agc
ctc ccc cac cgt
gtc gcc 4 gac ggc
tta tca taa tga
ata aca aaa 4 aga
cta cca 1 caa cga
gta 5 gca 447 gaa 97 gga
ttg tcg tag tgg
atgj acg aag agg
ctg ccg cag cgg
gtg gcg gag ggg
inter max min total
888 108 4 1000
Effectifs des 1-3aas
g1    t1       
atgi 15 tct tat atgf 172
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc 21 tcc 2 tac 12 tgc 7
atc 3 acc 82 aac 73 agc 1
ctc 2 ccc cac 2 cgt 4
gtc gcc gac 172 ggc 12
tta 5 tca 5 taa tga
ata aca 1 aaa 17 aga 1
cta cca 1 caa 1 cga
gta 5 gca 14 gaa 7 gga 12
ttg tcg tag tgg 78
atgj 1 acg 1 aag agg
ctg 1 ccg cag cgg 2
gtg 1 gcg gag ggg 2
inter max min total
218 510 8 736
Les 1-3aas rapportés à 1000 tRNAs.
g1    t1       
atgi 20 tct tat atgf 234
att act aat agt
ctt cct cat cgc
gtt gct gat ggt
ttc 29 tcc 3 tac 16 tgc 10
atc 4 acc 111 aac 99 agc 1
ctc 3 ccc cac 3 cgt 5
gtc gcc gac 234 ggc 16
tta 7 tca 7 taa tga
ata aca 1 aaa 23 aga 1
cta cca 1 caa 1 cga
gta 7 gca 19 gaa 10 gga 16
ttg tcg tag tgg 106
atgj 1 acg 1 aag agg
ctg 1 ccg cag cgg 3
gtg 1 gcg gag ggg 3
inter max min total
296 693 11 1000

Classement des tRNAs avec les 8 processus

modifier
Classement des tRNAs rapportés à 1000 par processus
Classement avec les processus +5s et >1aa.
tRNA +5s 1aa >1aa dup 1-3aas +16s
atgf 41 33 34 61 234 1
aac 51 31 33 45 99 -
I
gaa 56 16 50 51 10 97
gac 55 15 52 26 234 -
gta 68 14 52 53 7 5
aaa 55 19 42 51 23 4
ggc 51 19 56 87 16 -
tac 35 8 42 57 7 -
II
aca 44 21 41 14 1 -
cca 44 22 37 8 1 2
caa 39 21 35 24 1 -
ttc 37 23 33 18 29 -
gga 33 16 43 12 16 -
tta 32 20 30 4 7 -
atgj 31 16 37 12 1 -
cta 27 23 31 16 - -
cac 27 15 32 22 3 -
III
tgc 23 18 36 8 10 -
agc 20 20 32 0 1 -
IV
cgt 40 16 18 99 5 -
V
gca 23 4 7 0 19 447
atc 20 4 7 4 4 442
VI
acc 12 20 21 10 111 -
tgg 16 34 12 4 106 -
Classement avec les processus 1aa et dup
tRNA +5s 1aa >1aa dup 1-3aas +16s
tca 25 39 11 8 7 -
aga 20 32 20 4 1 -
atgi 19 33 7 4 20 -
tcc 13 41 6 4 3 -
ttg 9 37 8 4 - -
ctc 5 33 14 4 3 -
I
ccc 3 31 1 0 - -
tcg 3 29 5 0 - -
acg 3 31 5 0 1 -
agg 0 34 1 0 - -
cgg 0 26 10 0 3 -
ggg 1 22 6 0 3 -
II
ctg 12 22 15 57 1 -
gtc 7 21 11 57 - -
gcc 1 18 13 51 - 4
aag 0 20 11 32 - -
gag 1 10 5 24 - -
cag 0 10 13 20 - -
ccg 1 16 4 16 - -
gtg 0 11 5 16 1 -
gcg 0 14 5 6 - -
III
cga 0 3 7 0 - -
ata 0 1 1 0 - -
tga 0 10 0 0 - -
IV
ctt 0 4 3 4 - -
act 0 3 0 0 - -
agt 0 1 0 0 - -

Les intercalaires dans les genome.cumuls

modifier
  • Lien tableur : Les intercalaires dans les genome.cumuls
  • Récapitulatif des chapitres cumuls
  • - ne sont pris en compte que les moyennes en excluant quelques valeurs extrêmes (sans jaunes)
  • - Les 2 dernières colonnes cdsa et cdsa300 sont en aas.
  • fréquences des intercalaires tRNA-tRNA avec ou sans rRNA et des tRNA-cds
tRNA-tRNA			tRNA-cds	
	avec	sans			cds
20	19	19		50	1
30	7	6		100	1
40	2	10		150	8
50		4		200	17
60		7		250	6
70		0		300	1
80		2		350	1
86	3			total	35
138		3			
total	31	51		pub	50
				pmg	93
rru		119		oan	258
aua		131		cbei	350
oan		138			
cvi	86				
rru	66				
agr	59				

Les intercalaires entre cds d'un génome

modifier
  • Note : Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.

Méthode de prélèvement

modifier
  • Modèle de calculs avec mja NCBI [61] et eco NCBI [62], des intercalaires entre CDS, c+ c- x+ x-, et entre autres gènes.
*Modèle de calcul avec mja après suppression des commentaires dans NCBI
     repeat_region   378..2126
     gene            complement(2216..3343)
     CDS             complement(2216..3343)
     gene            complement(3340..4071)
     CDS             complement(3340..4071)
     gene            <4252..4566
     CDS             <4252..4566
     gene            4911..5381
     CDS             4911..5381
après mise en forme j'obtiens
	repeat_region  378..2126      intercalaire ax+ = 2216 - 2126 - 1 = 89  pbs	intercalaire type autre-cds discontinu
comp	CDS            2216..3343     intercalaire c-  = 3340 - 3343 - 1 = -4  pbs	intercalaire type cds-cds négatif continu
comp	CDS            3340..4071     intercalaire x+  = 4252 - 4071 - 1 = 182 pbs	intercalaire type cds-cds positif discontinu
	CDS            4252..4566     intercalaire c+  = 4911 - 4566 - 1 = 346 pbs	intercalaire type cds-cds positif continu
	CDS            4911..5381
		
* Modèle de calcul avec eco présentant 2 pseudo gènes où la ligne "gene" n'est pas suivie de la ligne "CDS"
comp	gene		238257..238736
comp	CDS		238257..238736
comp	gene		238746..239084		/pseudo
     	gene		239190..239378		/pseudo
comp	gene		239419..240189
comp	CDS		239419..240189
  • Traitement par lots
    - Sauvegarder le NCBI sans ses commentaires
    1. Afficher le NCBI et relever taille et date
    2. Copier dans un txt puis dans un calc temporaire pour faciliter les sélections début ou fin.
    3. Sélectionner la 1ère cellule puis select ctrl+Maj+fin et trier croissant. Le curseur est à la fin. Rechercher (ctrl+H) " tRNA " précédent.
    4. Descendre le curseur d'une cellule puis select ctrl+Maj+fin et supprimer.
    5. Se positionner au début ctrl+début et rechercher (ctrl+H) "CDS" suivant sans les cotes.
    6. Monter le curseur d'une cellule et puis le mettre loin à droite et effacer le début, ctrl+Maj+début.
    7. Le curseur est au début rechercher CDS suivant puis sélectionner ctrl+Maj+fin et coller au début de la feuille en H9.
    8. Le fichier est alors sauvegardé dans un txt en remplaçant la tabulation par le caractère de séparation § (ctrl+H, remplacer \t par §). Au moment de la récupération ne doit exister qu'un seul caractère de séparation, ici le §. J'ai sauvegardé plusieurs génomes dans un même lien de wikipédia comme suit :
    - Formatage en 4 colonnes : complement gène adresse1 adresse2
    1. Retour au tableur. Rechercher "join(", résoudre ses adresses en adresses uniques et sauvegarder le join sur la même ligne.
    2. Sans sélection remplacer CDS gene rRNA tRNA en ajoutant (;)
    3. Rechercher tRNA; suivant, vérifier s’il n’y a pas d’autres gènes entre "CDS;" et "gene;" et les suffixer avec ";", comme ncRNA misc regulatory...
    4. Supprimer la ligne où le gène est ‘source’ puis tri croissant sur la colonne gène à partir de la ligne au-dessus de "source".
    5. Sélectionner tout ctrl+Maj+fin, copier dans txt puis dans le calc temporaire: à ce moment j'ai 3 colonnes, une contenant le nom du gène, CDS tRNA ..., à côté la colonne des adresses et à côté la note de join sauvegardée au 1er alinéa. Sauvegarder la note join dans le commentaire de la cellule correspondante de la colonne des gènes. Supprimer la note.
    6. Pour la discontinuité "complement-non complement", ajouter une colonne à gauche contenant comp pour les adresses avec "complement".
    7. Enlever les blancs dans le fichier, ctrl+H et remplacer " " par rien.
    8. Sélectionner la colonne contenant les adresses, ctrl+H et enlever les caractères ( <)> et les caractères alphabétiques avec l'expression régulière [:alpha:].
    9. Remplacer les 2 points des adresses .. en ; en copiant la colonne dans txt et ctrl H . Il ne doit y avoir qu'un seul caractère de séparation qui est le ;.
    10. Puis copier le tout en 2 colonnes dans calc en écrasant la colonne des adresses modifiée.
    - Traitement des pseudo gènes
    1. Sur la colonne à gauche de comp, numéroter en séquence gene puis CDS puis le reste : à la 1ère occurrence écrire 1 puis, à la 2ème, écrire la formule, cellule de la 1ère occurrence + 1. Couper la formule et select la plage, coller et couper coller format.
    2. Trier d’abord sur la colonne 1 des numéros, puis trier sur 1ère et 2ème adresse. À ce moment gene et CDS sont dans ce sens pour la même adresse.
    3. Dans certains cas la ligne gene n'est pas suivie par sa ligne CDS. À droite de la colonne 2ème adresse je crée une colonne de formule, "1èrme e adresse de la ligne suivante - (moins) celle de la ligne de la formule". Pour un couple "gene CDS" qui se suivent la différence est nulle. Pour un couple "CDS gene" ou "gene gene" qui se suivent la différence n'est pas nulle. Ensuite je fais la même chose sur la colonne suivante mais pour les 2èrmes adresses. Couper les 1ères cellules des 2 dernières colonnes puis select ctrl+H+fin à partir de ces cellules coupées, coller et couper coller format.
    4. En triant sur les 2 dernières colonnes à droite, toutes les lignes "gene" avec 0 et 0 dans les 2 dernières colonnes sont à supprimer.
    5. Supprimer les 2 colonnes des différences ainsi que la 1ère colonne de numérotation.
    - Calcul des intercalaires
    1. Trier le reste sur 1ère et 2ème adresse. Calculer les intercalaires avec la formule, 1ère adresse de la ligne suivante moins 2èrme adresse de la ligne moins 1. Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
    2. Rechercher et colorer les CDS de la colonne des gènes, "ctrl+H CDS". Les gènes différents de CDS apparaissent en clair.
    - Marquage des intercalaires types
    1. Marquage des discontinus : Soit G9 la cellule de la colonne comp, G, et de ligne 9, que je vais tester dans une cellule L9 dont la colonne est libre.
      + Initialiser la cellule L9 avec la fonction =SI(G9=G10,1,0). Couper la formule, sélecter ctrl+Maj+fin, coller puis couper et coller format.
      + Sélectionner la colonne résultat et supprimer les 1 avec ctrl+H, remplacer 1 par rien. La colonne des discontinus doit être en 1er et l'écraser par la colonne des * (autres gènes ci-dessous) en ignorant les cellules vides (choix dans ctrl+v).
    2. Marquage des gènes autres que CDS:
      + On peut marquer les gènes différents de CDS dans la cellule M9 avec la fonction =SI en comparant le contenu de la cellule H9 à la cellule contenant, $CDS$: =SI(($CDS$=H9) et (H9=H10),0,2). Avec cette formule un CDS suivi d'un autre gène a pour résultat un 2 qui correspondra plus loin au deb (pour début du pavé clair).
      + Faire sur la colonne adjacente N9, la formule =SI(($CDS$=H9) et (H9=H8),0,3). Avec cette formule un CDS précédé d'un gène différent de CDS a pour résultat un 3 qui correspondra plus loin à fin (pour fin du pavé clair).
    3. Cadrage des types "autres gènes" par une colonne deb-fin:
      + Dans la cellule F9 tester les cellules H9 et M9, =SI(($CDS$=H9) et (M9=2),7,0). Un résultat 7 correspond au résultat 2 de la colonne L.
      + Dans la cellule E9 tester les cellules M9 et N9, =SI((M9=0) et (N9=3),9,0). Un résultat 9 correspond au résultat 3 de la colonne N.
      + Supprimer les 0 des colonnes E et F, couper coller la colonne E sur F en ignorant les cellules vides et remplacer 7 par deb et 9 par fin.
    4. Compléter la colonne des intercalaires types: Compléter la colonne L pour les types d'intercalaires x+ x- c+ c- et * pour discontinus positifs négatifs, continus positifs négatifs et autres intercalaires. Pour cela supprimer les 0 de la colonnes M et effacer la colonne N. Remplacer les 2 dans la colonne M par * et couper coller M sur L en ignorant les cellules vides.
    - Calcul de la fréquence des intercalaires:
    1. Le tri : En triant dans l'ordre croissant, la colonne de marquage puis la colonne des intercalaires, apparaissent les discontinus négatifs suivis des discontinus positifs. Je colorie, pour repérer les erreurs lors des contrôles, les x- en vert et les x+ en cyan. Pour les x- je remplace les 0 par des 1. Ainsi après les mêmes tris j'obtiens les 0 qui sont des x+ colorés en cyan, les x- colorés en vert, les * en clair, les c- que je colorie en jaune sans caractère sur la colonne de marquage et les c+ que je laisse en clair en clair, sans caractère sur la colonne de marquage.
    2. Les fréquences : sur ces plages j'applique la fonction "fréquence" de calc pour créer les diagrammes 400 et les diagrammes 40.
    - Traitement des "autres gènes":
    1. deb-fin : Plusieurs "autres gènes" peuvent être en une séquence longue comme pour les tRNA. Ces pavés sont encadrés la colonne deb-fin.
    2. Sur la totalité du génome, trier les colonnes F G H adresse1 adresse2 intercalaire type, en 1er sur la colonne deb-fin (F) et en 2ème la colonne CDS (H),
    3. Copier les lignes avec deb et fin en supprimant les intercalaires (K) des lignes "fin", et les sauvegarder plus loin.
    4. Copier les lignes en clair qui se trouvent à la fin du génome et les coller sous les lignes du pavé deb-fin sauvegardé. Trier ce pavé sur adresse 1 puis 2.
    5. Les tableaux deb-fin sont publiés dans les chapitres "autres intercalaires" de chaque génome.

Intergen51. Décompte des autres intercalaires

modifier
  • Image:  taas
  • Regroupement des intercalaires autres que CDS-CDS. Voir le tableur de amed autres intercalaires aas.
  • Formatage du tableur (voir l'image ci-dessus pour le formatage et les calculs): La colonne des gènes est colorée comme suite,
    - tRNA en jaune
    - rRNA en orange
    - CDS en cyane
    - gene en bleu (voir eco)
    - les gènes non RNA sont en clair (blanc): ncRNA misc regulatory repeat_region ....
  • Les intercalaires tRNA-CDS. Les regroupements des intercalaires continus (c) et des discontinus (x) séparément sont faits en six colonnes avec la fonction SI() de calc au format suivant
    deb fin
    tRNA
    deb c  deb x  fin c  fin x  deb-c  deb-x
    1. - où deb fin sont recherchés sur la 1ère colonne et tRNA sur la 2ème colonne
    2. - où l'intercalaire continu "deb c" est reporté avec AT3 de la colonne des intercalaires. La colonne des deb fin est AO, la colonne des tRNAs est AQ et la colonne des comps (discontinuités) est AP. La formule appliquée est SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3=AP4),AT3,).
    3. - où l'intercalaire discontinu "deb x" est calculé avec la formule analogue SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3<>AP4),AT3,).
    4. - où l'intercalaire continu "fin c" est calculé avec la formule analogue SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP4=AP3),AT3,)
    5. - où l'intercalaire discontinu "fin x" est calculé avec la formule analogue SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP4<>AP3),AT3,).
    6. - deb-c et deb-x ont le label deb à l'intérieur d'un paquet "deb ...fin" sans le label fin correspondant. Leurs formules se trouvent à la fin de la série suivante qui regroupe les 6 formules
    deb c   SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3=AP4),AT3,)
    deb x   SI(($AX$1=AO3) ET ($AX$2=AQ4) ET (AP3<>AP4),AT3,)
    fin c   SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP3=AP4),AT3,)
    fin x   SI(($AY$1=AO4) ET ($AX$2=AQ3) ET (AP3<>AP4),AT3,)
    deb-c   SI(($AX$1=AO4) ET ($AX$2=AQ3) ET (AP3=AP4),AT3,)
    deb-x   SI(($AX$1=AO4) ET ($AX$2=AQ3) ET (AP3<>AP4),AT3,)
  • Les intercalaires contenant les rRNA et les intercalaires tRNA-tRNA: Peu nombreux mais très variés ils sont relevés manuellement.

Intergen51. Formatage des autres intercalaires

modifier

Lien tableur: Voir le tableur pour les données intercalaires de amed.

  • Légende:
    - Les décomptes sont faits pour chaque génome à partir de son tableau autres intercalaires aas, voir le chapitre précédent.
    - Les résultats sont ajoutés aux intercalaires CDS-CDS dans les données intercalaires de chaque génome.
    - Le tableau ci-dessous représente l'exemple de amed avec ses autres intercalaires plus le formatage des intercalaires CDS-CDS supérieurs à 400 pdbs pour les positifs (400-600 et sup 600).
    - De même les CDS-CDS inférieurs à -50 sont ajoutés à part dans 2 colonnes partiellement vides, CDS-CDS inf 50.
    - A la suite de inf 50, j'ai ajouté le décompte des non RNA et le total de tous les intercalaires positifs, total intercalaires, et leurs taux par rapport à la longueur des l'ADN de l'élément (donné par NCBI), ADN long.
    - A part les tRNA-CDS, j'ai ajouté une colonne (aa) pour le tRNA de l'intercalaire rRNA-tRNA, et les 2 tRNAs successifs de l'intercalaire tRNA-tRNA.
    - Les intercalaires tRNA-tRNA sont de 3 types: à l'intérieur du cluster rRNA (tRNA intra ou tRNA in), contigu au cluster (tRNA contig, non présenté ici) et enfin en dehors du cluster (tRNA hors ou tRNAh).
int51.2 Amed. Exemple du format des autres intercalaires.
tRNA CDS rRNA CDS rRNA bloc tRNA tRNA tRNA tRNA CDS-CDS 400-600 Sup 600
intercalaire intercalaire intercalaire intercalaire intercalaire frequence effectif long
c x c x c aa c aa c aa amed fx fc fx fc
47 244 CDS 16s 23s 5s tRNA tRNA hors bloc tRNA tRNA suite 400 1233 2273 602 602
252 64 518 516 2* 120 52 ttc 40 tta 410 5 6 609 605
103 363 424 596 2* 126 3 aca 35 tgc 420 8 7 612 608
116 195 432 627 2* 123 45 ttc ** ggc 430 5 3 616 609
190 556 469 626 127 ** aac 30 tac 440 6 6 645 613
881 203 599 481 124 71 ctg ** tac 450 7 6 646 613
177 132 516 122 46 ctg 104 gga 460 6 6 662 621
236 104 5s CDS 16s tRNA 46 ctg ** ggg 470 4 6 665 624
9 271 386 268 3* 72 atc 51 ctg 57 tgc 480 4 2 669 624
166 126 275 99 2* 274 gaa ** ctg ** ggc 490 1 1 674 631
235 121 164 2* 198 gaa 5 aac 32 tac 500 4 2 686 639
173 119 2* 224 gaa ** ttc 45 tac 510 4 3 700 642
131 75 tRNA 23s 29 ggc 25 cgt 530 2 1 733 660
226 248 3* 238 gca 38 ggc 25 cgt 540 6 4 740 668
301 133 252 gaa 25 ggc 26 cgt 550 5 3 744 681
460 380 3* 236 gaa 23 ggc 98 cgt 560 3 2 761 693
425 198 237 gaa ** ggc 4 cgt 570 2 1 803 695
181 126 238 gaa 28 gcc ** agc 580 2 2 887 703
83 142 5s tRNA 66 gcc 38 gga 590 1 1 907 709
83 369 98 gac 58 gcc ** tac 600 3 3 935 716
177 302 2* 106 acc 40 gcc 58 cca 28 41 938 722
146 263 98 gac ** gcc 20 ctg 1001 724
127 202 95 gac 91 ctc 49 cac 1018 724
163 258 tRNA 5s ** atgf ** cgg 1028 753
438 23 acc 8 cta 18 gta 1275 760
151 tRNA tRNA intra 38 atgj 34 aaa 1406 781
772 3* 10 atc 47 caa 18 gta 1663 794
170 ** gca 17 caa 23 aaa 815
145 35 atgj 18 gta 838
268 47 caa 23 aaa 840
350 13 caa 18 gta 881
181 ** atgj 34 aaa 884
259 2 aac 22 gta 913
87 ** gga 46 aag 936
114 CDS-CDS inf 50 123 cac 22 gta 940
318 intercalaire 36 aga 46 aag 1098
50 c- x- ** cca 32 gta 1211
230 -89 -75 36 gtc ** aaa 1501
135 -83 -71 26 gtc 2076
113 -82 -58 15 gtc 2281
213 -80 -57 11 gtc
60 -65 ** gtc
52 -53 110 atgf
171 total intercalaires 102 atgf
306 601,332 101 atgf
658 ADN long 4,777,154 101 atgf
140 % 12.6 103 atgf
174 102 atgf
233 non RNA 38 102 atgf
167 92 atgf
153 ** atgf
174
344

Intergen51. Formatage des autres intercalaires aas

modifier
  • amed Le prélèvement: alpha gama
  • amed données intercalaires
  • amed autres intercalaires aas
  • Note : c'est un ancien tableau. Le refaire avec la sauvegarde du tableur ci-dessus.
  • Tableau des autres intercalaires aas : C'est un tableau détaillé des autres intercalaires que ceux des CDS-CDS auxquels j'ai ajouté les noms des tRNA tirés du tableau de la première étude axée principalement sur les clusters à RNA, parfois sans CDS, et nommé amed opérons. La correspondance entre les 2 tableaux pour le nom du tRNA est basée sur l’exacte adresse entre celle de tRNA du 1er tableau à celle du codon de l'acide aminé du second.
  • Légende :
    - comp, le gène est sur le brin complement
    - deb, fin sont respectivement dans le sens des adresses croissantes, le cds avant le 1er tRNA et le cds après le dernier tRNA du bloc.
    - misc_f, pour misc_feature
    - regul, pour regulatory
  • Totaux : 10 regulatory 3 ncRNA 2 misc_f 1 tmRNA : à adapter à amed
tRNA-cds		tRNA-tRNA		autres-cds		total	
c+	x+	x-	c+	x+	c-	c+	x+	c-		
46	34	1	141			22	6	2	252	1 acdsx-
  • Méthode de calculs des intercalaires autres que les CDS-CDS voir le cas de amed.
amed Les autres intercalaires.
deb fin comp gene adresse1 adresse2 intercalaire autre aas
deb comp CDS 7163 8359 516 *
rRNA 8876 10415 72 * 1540
tRNA 10488 10564 10 * atc
tRNA 10575 10650 238 * gca
rRNA 10889 13778 120 * 2890
rRNA 13899 14013 386 * 115
fin CDS 14400 14717
deb CDS 45743 46576 187 *
ncRNA 46764 47150 46 *
fin CDS 47197 48777 0
deb CDS 117188 117850 47 *
tRNA 117898 117973 52 * ttc
tRNA 118026 118101 3 * aca
tRNA 118105 118180 45 * ttc
tRNA 118226 118301 252 * aac
fin CDS 118554 119573
deb comp CDS 170063 170329 103 *
comp tRNA 170433 170518 71 * ctg
comp tRNA 170590 170675 46 * ctg
comp tRNA 170722 170807 46 * ctg
comp tRNA 170854 170939 51 * ctg
comp tRNA 170991 171076 116 * ctg
fin comp CDS 171193 172653
deb CDS 318836 320692 190 *
tRNA 320883 320959 244 * atgi
fin comp CDS 321204 323780
deb CDS 386382 386732 518 *
rRNA 387251 388796 274 * 1546
tRNA 389071 389146 252 * gaa
rRNA 389399 392290 126 * 2892
rRNA 392417 392531 268 * 115
fin comp CDS 392800 394413 0
deb CDS 476261 476482 64 *
comp tRNA 476547 476622 5 * aac
comp tRNA 476628 476703 881 * ttc
fin comp CDS 477585 478565
deb CDS 500269 500814 177 *
tRNA 500992 501067 24 * ggc
tRNA 501092 501167 29 * ggc
tRNA 501197 501272 38 * ggc
tRNA 501311 501386 25 * ggc
tRNA 501412 501487 23 * ggc
tRNA 501511 501586 363 * ggc
fin comp CDS 501950 502159
deb CDS 505552 507110 236 *
tRNA 507347 507422 28 * gcc
tRNA 507451 507526 66 * gcc
tRNA 507593 507668 58 * gcc
tRNA 507727 507802 40 * gcc
tRNA 507843 507918 471 * gcc
regulatory 508390 508473 148 *
fin CDS 508622 511627 0
deb CDS 642476 642802 9 *
tRNA 642812 642896 91 * ctc
tRNA 642988 643064 166 * atgf
fin CDS 643231 643689
deb CDS 772218 774050 195 *
comp tRNA 774246 774329 8 * cta
comp tRNA 774338 774414 38 * atgj
comp tRNA 774453 774527 47 * caa
comp tRNA 774575 774649 17 * caa
comp tRNA 774667 774743 35 * atgj
comp tRNA 774779 774853 47 * caa
comp tRNA 774901 774975 13 * caa
comp tRNA 774989 775065 235 * atgj
fin comp CDS 775301 776392
deb comp CDS 779541 780488 173 *
comp tRNA 780662 780736 -21 * caa
fin comp CDS 780716 781630
deb comp CDS 1154914 1155384 131 *
comp tRNA 1155516 1155592 226 * ccc
fin comp CDS 1155819 1157162 0
deb comp CDS 1224854 1226290 301 *
comp tRNA 1226592 1226667 2 * aac
comp tRNA 1226670 1226744 460 * gga
fin comp CDS 1227205 1228818
deb comp CDS 1240786 1241733 425 *
comp tRNA 1242159 1242234 556 * aac
deb CDS 1242791 1244527 181 *
tRNA 1244709 1244796 83 * tcc
fin CDS 1244880 1246145 0
deb comp CDS 1407358 1408665 83 *
comp tRNA 1408749 1408836 177 * tcc
fin comp CDS 1409014 1409631
deb CDS 1444233 1444688 146 *
tRNA 1444835 1444922 127 * tcc
fin CDS 1445050 1446834
deb comp CDS 1461184 1462401 163 *
comp tRNA 1462565 1462640 438 * cac
fin comp CDS 1463079 1464389
deb comp CDS 1526374 1527606 151 *
comp tRNA 1527758 1527833 123 * cac
comp tRNA 1527957 1528033 36 * aga
comp tRNA 1528070 1528146 203 * cca
fin CDS 1528350 1529207 0
deb comp CDS 1587325 1589010 772 *
comp tRNA 1589783 1589858 132 * aac
fin CDS 1589991 1592003
deb CDS 1649438 1651867 104 *
comp tRNA 1651972 1652048 36 * gtc
comp tRNA 1652085 1652161 26 * gtc
comp tRNA 1652188 1652264 15 * gtc
comp tRNA 1652280 1652356 11 * gtc
comp tRNA 1652368 1652444 170 * gtc
fin comp CDS 1652615 1653994
deb comp CDS 1734629 1735525 28 *
comp misc_f 1735554 1735678 185 *
fin CDS 1735864 1736109
deb comp CDS 1931438 1932934 145 *
comp tRNA 1933080 1933156 110 * atgf
comp tRNA 1933267 1933343 102 * atgf
comp tRNA 1933446 1933522 101 * atgf
comp tRNA 1933624 1933700 101 * atgf
comp tRNA 1933802 1933877 103 * atgf
comp tRNA 1933981 1934057 102 * atgf
comp tRNA 1934160 1934236 102 * atgf
comp tRNA 1934339 1934415 92 * atgf
comp tRNA 1934508 1934584 268 * atgf
fin comp CDS 1934853 1935572
deb CDS 1977322 1978332 353 *
comp ncRNA 1978686 1978779 94 *
fin CDS 1978874 1979143 0
deb comp CDS 1980394 1981206 97 *
comp ncRNA 1981304 1981397 269 *
fin CDS 1981667 1981849 0
deb comp CDS 1997119 1998258 85 *
comp ncRNA 1998344 1998440 102 *
fin comp CDS 1998543 1999331
deb CDS 2154455 2154631 277 *
ncRNA 2154909 2155037 -9 *
fin comp CDS 2155029 2155319 0
deb CDS 2234810 2235142 16 *
ncRNA 2235159 2235341 133 *
fin comp CDS 2235475 2236674
deb comp CDS 2426470 2427675 350 *
comp tRNA 2428026 2428112 40 * tta
comp tRNA 2428153 2428226 35 * tgc
comp tRNA 2428262 2428337 181 * ggc
fin comp CDS 2428519 2429073
deb comp CDS 2546995 2547534 271 *
tRNA 2547806 2547882 259 * ccc
fin CDS 2548142 2548282
deb CDS 2658354 2659094 87 *
tRNA 2659182 2659257 114 * acg
fin CDS 2659372 2659665 0
deb comp CDS 2827175 2828170 -13 *
comp regulatory 2828158 2828297 79 *
fin CDS 2828377 2830089
deb comp CDS 2858527 2859036 126 *
tRNA 2859163 2859247 30 * tac
tRNA 2859278 2859362 121 * tac
fin comp CDS 2859484 2863335
deb CDS 2953473 2953961 121 *
tmRNA 2954083 2954442 177 *
fin CDS 2954620 2955903
deb CDS 2978639 2979358 119 *
comp tRNA 2979478 2979552 104 * gga
comp tRNA 2979657 2979730 201 * ggg
fin CDS 2979932 2981701
deb CDS 3023194 3023487 75 *
comp tRNA 3023563 3023636 57 * tgc
comp tRNA 3023694 3023769 248 * ggc
fin CDS 3024018 3027455 0
deb CDS 3044891 3045361 133 *
comp tRNA 3045495 3045584 380 * tcg
fin CDS 3045965 3046882
deb comp CDS 3052964 3053617 105 *
comp regulatory 3053723 3053869 209 *
fin CDS 3054079 3054915 0
deb comp CDS 3093394 3094776 249 *
comp regulatory 3095026 3095141 508 *
fin CDS 3095650 3096798 0
deb comp CDS 3268030 3268398 318 *
comp tRNA 3268717 3268804 198 * tca
fin CDS 3269003 3269752 0
deb comp CDS 3286866 3287465 164 *
misc_f 3287630 3287752 38 *
fin CDS 3287791 3288963 0
deb CDS 3290470 3291624 50 *
tRNA 3291675 3291751 126 * agg
fin comp CDS 3291878 3292798 0
deb CDS 3334670 3335758 230 *
tRNA 3335989 3336073 32 * tac
tRNA 3336106 3336190 45 * tac
tRNA 3336236 3336320 135 * tac
fin CDS 3336456 3336731
deb comp CDS 3382564 3385161 111 *
comp regulatory 3385273 3385359 203 *
fin comp CDS 3385563 3389024
deb comp CDS 3497173 3497463 91 *
regulatory 3497555 3497645 99 *
fin CDS 3497745 3498725
deb comp CDS 3505823 3506272 275 *
comp rRNA 3506548 3506662 123 * 115
comp rRNA 3506786 3509675 236 * 2890
comp tRNA 3509912 3509987 224 * gaa
comp rRNA 3510212 3511756 596 * 1545
fin CDS 3512353 3515220
deb comp CDS 3676304 3677323 113 *
comp tRNA 3677437 3677521 142 * ttg
fin CDS 3677664 3678182 0
deb CDS 3688045 3688872 369 *
comp tRNA 3689242 3689318 25 * cgt
comp tRNA 3689344 3689420 25 * cgt
comp tRNA 3689446 3689522 26 * cgt
comp tRNA 3689549 3689625 98 * cgt
comp tRNA 3689724 3689800 4 * cgt
comp tRNA 3689805 3689897 213 * agc
fin comp CDS 3690111 3690299
deb CDS 3886846 3887601 302 *
comp tRNA 3887904 3887980 98 * gac
comp rRNA 3888079 3888193 127 * 115
comp rRNA 3888321 3891210 238 * 2890
comp tRNA 3891449 3891524 10 * gca
comp tRNA 3891535 3891611 72 * atc
comp rRNA 3891684 3893228 424 * 1545
fin comp CDS 3893653 3894195
deb comp CDS 3912946 3913317 60 *
comp tRNA 3913378 3913454 52 * tgg
deb comp CDS 3913507 3914691 171 *
comp tRNA 3914863 3914937 38 * gga
comp tRNA 3914976 3915060 263 * tac
fin CDS 3915324 3916262 0
deb comp CDS 3962163 3963533 306 *
comp tRNA 3963840 3963916 202 * tgg
fin CDS 3964119 3964703
deb comp CDS 4024345 4026816 658 *
comp tRNA 4027475 4027551 140 * ccg
fin comp CDS 4027692 4028417
deb CDS 4109413 4111986 99 *
comp rRNA 4112086 4112200 123 * 115
comp rRNA 4112324 4115213 238 * 2890
comp tRNA 4115452 4115527 198 * gaa
comp rRNA 4115726 4117269 627 * 1544
fin CDS 4117897 4118388 0
deb comp CDS 4119290 4121155 51 *
comp regulatory 4121207 4121385 207 *
fin CDS 4121593 4122102
deb comp CDS 4149775 4150278 174 *
comp tRNA 4150453 4150529 58 * cca
comp tRNA 4150588 4150673 20 * ctg
comp tRNA 4150694 4150769 49 * cac
comp tRNA 4150819 4150895 258 * cgg
fin CDS 4151154 4151744
deb CDS 4226547 4227725 432 *
rRNA 4228158 4229702 198 * 1545
tRNA 4229901 4229976 236 * gaa
rRNA 4230213 4233102 126 * 2890
rRNA 4233229 4233343 106 * 115
tRNA 4233450 4233525 23 * acc
rRNA 4233549 4233663 164 * 115
fin CDS 4233828 4234793
deb comp CDS 4354145 4355686 626 *
rRNA 4356313 4357857 274 * 1545
tRNA 4358132 4358207 237 * gaa
rRNA 4358445 4361342 124 * 2898
rRNA 4361467 4361581 106 * 115
tRNA 4361688 4361763 233 * acc
fin CDS 4361997 4363241
deb CDS 4434674 4435198 469 *
rRNA 4435668 4437211 225 * 1544
tRNA 4437437 4437512 236 * gaa
rRNA 4437749 4440638 122 * 2890
rRNA 4440761 4440875 98 * 115
tRNA 4440974 4441050 167 * gac
fin CDS 4441218 4442054 0
deb comp CDS 4481974 4482513 481 *
rRNA 4482995 4484539 547 * 1545
misc_f 4485087 4486108 236 *
comp tRNA 4486345 4486419 224 * gaa
comp rRNA 4486644 4488189 559 * 1546
fin comp CDS 4488749 4489795
deb comp CDS 4560642 4561715 153 *
comp tRNA 4561869 4561944 18 * gta
comp tRNA 4561963 4562038 34 * aaa
comp tRNA 4562073 4562148 18 * gta
comp tRNA 4562167 4562242 23 * aaa
comp tRNA 4562266 4562341 18 * gta
comp tRNA 4562360 4562435 23 * aaa
comp tRNA 4562459 4562534 18 * gta
comp tRNA 4562553 4562628 34 * aaa
comp tRNA 4562663 4562738 22 * gta
comp tRNA 4562761 4562836 46 * aag
comp tRNA 4562883 4562958 22 * gta
comp tRNA 4562981 4563056 46 * aag
comp tRNA 4563103 4563178 32 * gta
comp tRNA 4563211 4563286 174 * aaa
fin comp CDS 4563461 4564267
deb CDS 4626091 4627785 262 *
regulatory 4628048 4628133 65 *
fin CDS 4628199 4629623
deb comp CDS 4635172 4636104 344 *
comp tRNA 4636449 4636525 95 * gac
comp rRNA 4636621 4636735 120 * 115
comp rRNA 4636856 4639749 238 * 2894
comp tRNA 4639988 4640063 10 * gca
comp tRNA 4640074 4640150 72 * atc
comp rRNA 4640223 4641767 516 * 115
fin CDS 4642284 4643480 0
deb comp CDS 4698779 4700680 360 *
comp regulatory 4701041 4701154 88 *
fin CDS 4701243 4702160

Intergen51. Formatage des intercalaires CDS-CDS et tRNA-CDS

modifier
  • Lien au tableur : amed_données_intercalaires.
  • Note: tableau de amed en exemple
  • Légende: Ce sont des effectifs bruts des
    - intercalaires entre un tRNA et un CDS, fxt pour les discontinus et fct pour les continus.
    - intercalaires entre 2 CDS, pour les fréquences de 10 en 10 fx discontinu et fc continu, pour les fréquences par unité fx40 et fc40, pour les fréquences par unité négative fx- et fc-.
    - total des intercalaires pour un diagramme, diagr, de 1 à 400, 1 à 40 et de -6 à -50.
    - total des intercalaires de 1 à 30: t30 et %t30 par rapport au total.
    - total des intercalaires qui reste après le diagramme: reste et %reste par rapport au total.
int51.1 amed. Formatage des intercalaires CDS-CDS et tRNA-CDS
CDS-tRNA CDS-CDS CDS-CDS CDS-CDS
frequence effectif frequence effectif frequence effectif frequence effectif
amed fxt fct amed fx fc amed fx40 fc40 amed fx- fc-
0 1 0 2 12 0 2 12 -1 0 91
10 1 10 38 225 1 2 26 -2 1 0
20 0 20 20 167 2 0 41 -3 0 0
30 0 30 23 110 3 4 34 -4 8 212
40 0 40 34 92 4 9 18 -5 0 0
50 2 50 43 75 5 0 12 -6 1 0
60 2 60 76 92 6 6 6 -7 0 10
70 1 0 70 90 111 7 4 12 -8 3 47
80 1 0 80 100 99 8 6 17 -9 1 0
90 3 90 59 120 9 3 34 -10 0 2
100 0 100 54 90 10 4 25 -11 2 31
110 1 1 110 58 112 11 1 21 -12 0 0
120 1 3 120 50 96 12 3 18 -13 2 6
130 3 1 130 35 81 13 2 20 -14 1 7
140 2 3 140 30 74 14 2 22 -15 1 0
150 1 2 150 25 72 15 1 14 -16 0 8
160 2 160 33 70 16 3 13 -17 0 4
170 4 170 29 32 17 2 20 -18 1 0
180 6 180 35 50 18 1 17 -19 1 1
190 3 190 25 44 19 2 6 -20 1 7
200 2 0 200 37 53 20 3 16 -21 1 0
210 3 0 210 39 48 21 3 11 -22 2 1
220 1 220 25 34 22 0 8 -23 0 1
230 2 230 30 26 23 1 16 -24 0 0
240 3 240 26 30 24 3 10 -25 1 2
250 2 0 250 20 26 25 3 13 -26 0 1
260 1 2 260 21 25 26 1 7 -27 0 0
270 1 1 270 22 36 27 4 10 -28 0 0
280 1 0 280 25 28 28 2 11 -29 1 1
290 0 290 13 24 29 2 15 -30 0 0
300 0 300 8 14 30 4 9 -31 0 1
310 1 2 310 19 17 31 3 9 -32 0 0
320 1 320 12 14 32 3 11 -33 2 0
330 0 330 8 15 33 4 11 -34 0 2
340 0 340 9 8 34 1 9 -35 2 2
350 2 350 13 13 35 1 12 -36 1 0
360 0 360 15 8 36 1 5 -37 0 0
370 2 0 370 7 5 37 5 4 -38 1 0
380 1 0 380 8 7 38 7 13 -39 0 0
390 0 390 7 9 39 7 10 -40 0 0
400 0 400 10 9 40 2 8 -41 0 0
reste 1 6 reste 110 109 reste 1226 1776 -42 0 0
total 25 54 total 1343 2382 total 1343 2382 -43 0 0
%reste 4.0 11.1 %reste 8.2 4.6 diagr 115 594 -44 0 1
t30 0 1 t30 81 502 -45 0 0
%t30 0 1.9 %t30 6.0 21.1 -46 3 0
diagr 24 47 diagr 1231 2261 -47 0 0
-48 0 0
Récapitulatif des effectifs -49 0 0
>0 <0 zéro total * -50 1 0
x 1341 42 2 1385 reste 4 6
c 2370 444 12 2826 total 42 444
4211 239 %reste 9.5 1.4
total 4450 diagr 29 135

Les intercalaires tRNA-cds

modifier

Les intercalaires en continu-discontinu

modifier
comparaison continu-discontinu
modifier
  • Lien tableur: comparaison continu-discontinu
  • Légende:
    - Tableau tRNA-cds01, les intercalaires tRNA-cds positifs : Ils sont comptabilisés pour chaque génome dans intercalaires tRNA, par exemple abra. Les intercalaires inférieurs à 201 sont reportés dans les colonnes deb, fin (début et fin d'une transition continue cds-tRNA, complement ou non) et les colonnes deb'-fin' (changement de sens entre cds et tRNAs, direct-complement ou complement-direct). La colonne total est la somme de tous les intercalaires, les >200 aussi.
    - Tableau tRNA-cds01, les intercalaires cds-cds négatifs, l'ensemble: 3 colonnes sont extraites du tableau des fréquences cds-cds (exemple abra, cds le total des intercalaires cds-cds, <0 (continu + discontinu) le total des négatifs et r32 correspondant au reste du label fréquence-1. Deux colonnes sont des rapports extraits du tableau des détails tRNA-cds02, comp'% (discontinu sur les négatifs) et min% (200*différence/somme, en valeur absolue, de min-min').
    - Tableau tRNA-cds02, détail des cds-cds négatifs: Les effectifs sont tirés du tableur au paragraphe intercalaires négatifs de chaque génome exemple abra. Pour les continus con et les discontinus comp' j'ai mis 3 colonnes total, le minimum (min' pour comp') et le reste des effectifs après la fréquence (-50), r50. Pour les continus seulement, car con1 des comp' est toujours nul, j'ai ajouté 2 colonnes, les effectifs de la fréquence (-1), con1, et ceux de la fréquence (-4), con4.
  • Note : erreur sur eco, intercalaire 233 (voir eco intercalaires tRNA). corrigé ici.
  • MAJ du 23.2.22: les 2 colonnes ensemble sont maj d'après le tableau positif-négatif. Restent les autres colonnes de négatifs à faire avec les maj de tous les négatifs.
tRNAs-cds0. Comparaison continu-discontinu des intercalaires des tRNA-cds positifs et des cds-cds négatifs.
tRNAs-cds01. Détail des tRNA-cds et l'ensemble des cds-cds négatifs.
détail tRNA-cds positifs ensemble cds-cds négatifs
gen deb fin deb’ fin’ total cds <0 r32 r32% comp’% min%
abra 7 12 5 4 41 1 667 417 20 4,8 1,4 117
ade 20 16 7 9 69 4 464 815 40 4,9 11,9 6
afn 20 17 2 5 53 2 038 307 21 6,8 1,3 31
ant 11 12 4 1 34 3 095 762 17 2,2 10,9 11
ase 18 16 12 12 101 8 197 1 652 128 7,7 19,3 1
blo 15 15 5 6 78 1 772 228 8 3,5 7,0 17
bsu 3 5 7 5 28 4 213 608 52 8,7 4,9 182
cbei 9 5 4 1 47 5 622 400 24 6,0 2,8 59
cbn 12 12 2 2 40 2 491 176 6 3,4 4,5 54
cvi 22 20 7 9 78 4 282 756 26 3,4 8,2 5
eco 10 11 5 7 65 4 024 738 55 7,5 12,3 107
mba 9 8 7 4 90 3 943 329 26 7,9 5,5 23
mja 6 15 8 1 43 1 729 219 17 7,8 24,2 29
myr 18 15 12 10 79 3 555 302 12 4,0 6,6 37
pmg 16 17 13 8 67 1 800 253 12 4,7 36,0 3
pmq 8 11 2 5 42 7 223 795 52 6,5 4,3 45
pub 13 14 11 11 50 1 307 473 14 3,0 19,0 41
rru 15 18 10 11 83 3 786 683 32 4,7 10,1 12
rtb 9 12 0 2 56 793 102 7 6,9 2,9 35
scc 13 8 11 5 67 1 805 347 14 4,0 7,8 47
spl 9 9 4 3 62 4 213 426 10 2,3 2,8 61
total 263 268 138 121 1 273 72 019 10 788 593 5,5 10,6
tRNAs-cds02. Détail des cds-cds négatifs.
con cds-cds négatifs continus comp’ cds-cds négatifs discontinus
gen total min con1 con4 c1/c4 r50 r50% total min’ r50 r50%
abra 411 -92 68 142 0,48 13 3,2 6 -24 0
ade 718 -109 70 540 0,13 10 1,4 97 -116 14 14,4
afn 303 -113 38 129 0,29 9 3,0 4 -83 1 25,0
ant 679 -71 164 221 0,74 6 0,9 83 -79 1 1,2
ase 1333 -119 168 892 0,19 32 2,4 319 -120 49 15,4
blo 212 -86 52 109 0,48 2 0,9 16 -102 2 12,5
bsu 578 -7 616 72 233 0,31 17 2,9 30 -361 7 23,3
cbei 389 -110 71 82 0,87 4 1,0 11 -60 1 9,1
cbn 168 -47 34 28 1,21 0 8 -27 0
cvi 694 -97 118 377 0,31 4 0,6 62 -102 6 9,7
eco 647 -2 400 163 261 0,62 22 3,4 91 -723 11 12,1
mba 311 -59 33 119 0,28 7 2,3 18 -74 2 11,1
mja 166 -83 25 52 0,48 7 4,2 53 -62 0
myr 282 -47 71 60 1,18 0 20 -68 1 5,0
pmg 162 -65 36 72 0,50 2 1,2 91 -67 2 2,2
pmq 761 -119 80 387 0,21 17 2,2 34 -75 4 11,8
pub 383 -65 152 81 1,88 3 0,8 90 -43 0
rru 614 -137 81 396 0,20 13 2,1 69 -122 7 10,1
rtb 99 -50 10 33 0,30 0 3 -35 0
scc 320 -74 39 156 0,25 6 1,9 27 -120 1 3,7
spl 414 -98 126 136 0,93 5 1,2 12 -52 1 8,3
total 9 644 1 671 4 506 0,37 179 1,9 1 144 110 9,6
Notes, comparaison continu-discontinu
modifier
  • Les intercalaires tRNA-cds: tableau tRNA-cds01
    - Pour les intercalaires positifs les totaux deb et fin sont à égalité de même que les deb' et les fin' (notation des intercalaires tRNA, par exemple abra). Cependant les deb-fin sont 2 fois plus nombreux que les deb'-fin' car les plages des adresses direct ou complement sont très étendues, sous-tendues par l'architecture globale du chromosome et la discontinuité ne concerne que le passage d'une plage à l'autre. Dans les intercalaires négatifs, qui sont rares, ce sont les discontinus qui prennent l'avantage comme si la discontinuité ajoutée à la difficulté de réparation due aux appariements des tRNAs provoquait le chevauchement, il y a 2 continus contre 6 discontinus négatifs (voir 1er petit tableau parmi ceux qui suivent). C'est ce résultat partiel qui m’a poussé à étudier les intercalaires cds-cds négatifs.
    - Les intercalaires tRNA-cds négatifs, 8/1273 soit 0.6%, sont rares alors que les négatifs représentent environ 15% (10 788/72 023) des intercalaires cds-cds. Je les ai comparés à la rareté des tRNA-cds nuls: il semblerait que ceux-ci soient aussi rares, 4/1273 soit 0.3% (voir le 2ème petit tableau parmi ceux qui suivent). Mais les nuls sont aussi très faibles chez les cds-cds. Le décompte des nuls des 21 génomes avec cds donne 510 nuls pour 72 023 intercalaires cds-cds, soit 0,7% (voir "génome" les fréquences: exemple abra) et la comparaison des nuls/négatifs des cds-cds pour 8 génomes donne 210/24482 soit 0.9%, et en plus le rapport comp'/con égale à 39/171 soit 0.23 est du même ordre de grandeur et même 2 fois plus élevé que celui des cds-cds négatifs de 0.11 = 346/3035 (Les effectifs des nuls sont obtenus en même temps que les relevés des négatifs, mais seulement pour ces 8 génomes. Les effectifs des négatifs sont extraits du tableau tRNA-cds02).

Fin cds01

tRNA-cds intercalaires négatifs
gen 	deb 	fin 	deb’ 	fin’ 	total 
mba	-	-	-12	-	1
spl	-	-	-23	-	1
myr	-	-	-38	-	1
pmg	-30	-	-	-	1
ase	-	-	-	-12	1
blo	-17	-	-39	-8	3

tRNA-cds intercalaires nuls
mba	-	1	-	-	1
pmg	-	-	1	-	1
pub	-	-	2	-	2
total	-	1	3	-	4

cds-cds intercalaires nuls/négatifs
nuls 	-	-	<0	-	-
gen	con	comp’	con	comp’	cds
myr	14	4	282	20	3 555
pmg	34	12	162	91	1 800
pmq	26	5	761	34	7 223
pub	58	13	383	90	1 307
rru	11	2	614	69	3 786
rtb	4	1	99	3	793
scc	7	1	320	27	1 805
spl	17	1	414	12	4 213
total	171	39	3035	346	24 482
  • Les intercalaires cds-cds négatifs: tableau tRNA-cds01 partie de droite pour les caractéristiques de l'ensemble des négatifs et tableau tRNA-cds02 pour les détails.
    1. Les intercalaires négatifs tRNAs-cds sont très rares par rapport aux cds-cds négatifs
      - Suite à la constatation de la quasi absence des intercalaires négatifs chez les tRNA-cds (note du début) j'ai entamé l'étude détaillée des cds-cds, positifs-négatifs, continus-discontinus. J'ai regroupé le tout dans le tableau récapitulatif des taux discontinu/continu, dans le tableau par classe génomique et dans le tableau des cds-cds positifs-négatifs.
      + Les intercalaires cds-cds négatifs S-: Le taux Sx-% des discontinus négatifs varie beaucoup d'un génome à l'autre et suit le classement par génome basé notamment sur le taux de négativité, S-%. Cependant la corrélation n'est pas totale puisque abra a le taux parmi les plus faibles, 1.4%, alors qu'il a un taux élevé de négativité de 25%; de même pour afn de la classe moyenne (II) a respectivement 1.3% et 15%. La classe I regroupe donc 4 forts en Sx-% et 1 génome très faible, la classe II est un mélange de 4 forts de 3 moyens et de 2 faibles et la classe III 2 faibles et 5 moyens. La classe III est l'opposée de la classe I puisqu'elle regroupe aussi les plus faibles taux S-%. Au total les Sx- sont 10 fois plus faibles que les Sc- varient fortement avec un écart supérieur à 50% par rapport à la moyenne.
      + Les intercalaires cds-cds positifs S+: Le taux Sx+% par contre est très homogène avec un écart de seulement de 10% par rapport à la moyenne. Au total les Sx+ ne sont que 3 fois plus faibles que les continus Sc+.
      + Les intercalaires tRNA-cds positifs R+: Ils se comportent exactement comme les S+, le taux Rx+% est homogène avec un écart de 20% par rapport à la moyenne et il y a 3 fois plus de continus que de discontinus. Cependant leur moyenne de 37% est supérieure de 20% à la moyenne des Sx+% de 31%.
      - Les tRNAs-cds négatifs pour 43 génomes restent très rares, 0.7%, mais le rapport c- / x- tend vers l'unité, 9/10. Si les cds-cds négatifs sont beaucoup plus abondants que les tRNA-cds négatifs, 15% contre 0.7%, ce sont surtout les Sc- qui les représentent. En ramenant au total des S, les Sx- ne représentent que 1144/72023 soit 1.6% et en ramenant au total des R, les Rx- représentent 10/2688 soit 0.4% et donc les Sx- sont peu fréquents mais sont 4 fois plus abondants que les Rx- dans leur catégories respectives.
      - Les intercalaires tRNA-tRNA discontinus positifs x+ (1% pour 50 génomes et 1745 intercalaires) sont aussi rares que les tRNA-cds négatifs et les x- sont quasi inexistants, 1 seul cas et d'une seule paire de base. En plus sur 18 intercalaires discontinus relevés 5 sont tellement grands (supérieurs à 400 pbs) qu'ils résulteraient plutôt d'un remaniement du chromosome que d'une propriété des blocs à tRNAs seuls, 9 entre 130 et 290 pbs et 4 entre 50 et 90 pbs. Voir le tableur du même lien.
      - Les intercalaires discontinus dans les blocs à rRNAs sont inexistants pour 50 génomes et 1984 intercalaires.
      - Les intercalaires positifs de 1 à 40 pbs:
      + La comparaison des tRNA-cds aux cds-cds (tRNA-cds1), avec intervalle de confiance, m'a montré que les 1ers ont un comportement propre aux tRNA et surtout que la fréquence attendue des "petit" était inférieure à la borne inférieure de l'intervalle. Cela veut dire que les petits intervalles sont moins fréquents que les grands, relativement aux cds-cds. Ceci m'a poussé à comparer les moyennes des cds-cds et des tRNA-cds dans le sous tableau tRNA-cds2 (même lien). Et effectivement les moyennes des tRNA-cds sont toujours et nettement supérieures à celles des cds-cds (colonne diff). De même les grands intercalaires (grd%) sont encore plus grands que la moyenne cds-cds et les petits intercalaires (pet%) plus petits (14 génomes) qu'elle, ou égaux (4) et pour 3 génomes légèrement supérieurs (bsu spl scc).
      + Ce résultat va dans le même sens que la faible fréquence des tRNA-cds négatifs et donc de l'orientation des blocs à tRNAs seuls, sans rRNA. Aussi j'ai comparé les fréquences des petits intercalaires positifs cds-cds (S) et tRNA-cds (R) de 1 à 40 pbs. Les R sont au moins 3 fois plus faibles que les S (colonne taux) pour 13 génomes et 7 ont si peu de R (0 1 2) que leur taux doit être supérieur à 3. Un seul génome pub a un taux proche de l'unité, mais son taux approche 3 quand je compare les 10 plus petits intercalaires. J'ai calculé aussi le taux des R40 discontinus R40x% sur le total R40, il est du même ordre de grandeur que celui des Sx+% et Rx+% calculés sur la totalité des intercalaires, 26% contre respectivement 31 et 37 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser.
      - En conclusion:
      • Les intercalaires tRNA-tRNA, à l’intérieur des blocs à tRNA, avec rRNA ou non, sont toujours continus. Ils peuvent être discontinus dans les blocs sans rRNA, jusqu'à 1%, sous la forme positive Rx+ seule et sont souvent très longs. Ceci suggèrent qu'ils sont plutôt le résultat des remaniements du chromosome que du processus de la formation du bloc.
      • Les intercalaires tRNA-cds, en contact avec les gènes protéiques, orientent les blocs à tRNAs seuls. L'orientation n'est pas définie par la disposition des tRNA dans le bloc comme le font les rRNAs dans les blocs les contenant, mais par la difficulté (faible fréquence) à réaliser des intercalaires courts d'un côté et la facilité à en réaliser des longs de l'autre côté (forte fréquence). La différence avec les blocs à rRNA, comme je le montrerai plus loin, c'est que le côté long varie peu en longueur pour ceux-ci alors qu'il est très variable pour les blocs sans rRNA.
    2. Comparaison entre les intercalaires cds-cds négatifs continus et discontinus:
      - Comparaison avec les positifs: quand on voit les minima des négatifs on a l'impression que leur étendue est très grande, mais en fait les négatifs ont des intercalaires inférieures à 32 pbs dans 95% des cas alors que les positifs ne dépassent pas les 27% dans la plage 1-40 pbs. Voir ici les comparaisons positifs-négatifs dans le 1er sous-tableau. Les négatifs supérieurs à 140 pbs ne représentent que 0.2% du total, 21/10788, et ne concernent que 2 génomes dans mon étude de 21, bsu et eco. Voir en fin de chapitre la liste des intercalaires négatifs supérieurs à 140 pbs.
      - Comparaison entre continus et discontinus: Maintenant, quand on voit les minima des négatifs entre continus et discontinus (voir la comparaison dans les colonnes min et min' dans le 2ème sous-tableau et leurs taux dans le 1er sous-tableau ainsi que leur liste en fin de chapitre), on a l'impression qu'ils sont similaires, 9 de plus de 360 pbs chez les continus et 5 chez les discontinus. Et même les négatifs seraient plus fréquents puisque le rapport c-/x- est de 2 alors qu'il est de 10 pour le total des négatifs. Or des recouvrements longs pour les discontinus me posaient problème: à l'instar d'un tRNA où son complément n'est pas un tRNA à cause de la dissymétrie des tRNAs, je pensais que le complément d'un cds ne pouvait être que rarement un cds et que s'il y avait recouvrement il ne pourrait être que court. C'est ce qui expliquerait par ailleurs la rareté des discontinus.
      - Aussi j'ai étudié les recouvrements réels chez les continus et les discontinus. Ce qui en ressort c'est que les intercalaires longs ont un recouvrement total et les courts ont un recouvrement partiel. Et ceci que les intercalaires soient continus ou non. Et il y a ainsi 2 intercalaires discontinus à recouvrement total long, 297 et 486 pbs, et un 3ème discontinu partiel de 210 pbs. Sur 6 discontinus les autres ont un recouvrement inférieur à 75 pbs. Le taux des recouvrements longs pour les discontinus parait donc très élevé, 33 à 50%. Mais sur les 10788 de négatifs ils sont extrêmement rares 2 à 3 pour 10 000 intercalaires. On pourrait suggérer que ce sont des accidents dus aux remaniements du chromosome mais l'étude des fréquences de tous les négatifs qui suit montre que le processus sous-tendu par les intercalaires continus s'apparente au processus de traduction et de transcription basé sur une périodicité de 3 bases ou triplet qui défini les aas, et que le processus sous-tendus par les intercalaires discontinus s'apparente au processus de réparation qui ne concerne que les propriétés physiques de l'ADN double brin mais qui néanmoins fait apparaître une périodicité de 3 paires de bases différente de celle ces continus.
    3. Les fréquences des intercalaires négatifs cds-cds, c- et x-
      - Les c- reproduisent dans l'ADN le processus traductionnel des triplets mais décalés.
      - Les x- mettent en évidence 2 processus de réparation, un qui reproduit partiellement le processus traductionnel des triplets auquel se superpose le 2ème par des triplets décalés
  • Les intercalaires cds-cds négatifs inférieurs à -140
Les intercalaires cds-cds négatifs inférieurs à -140 pbs: continu, le chevauchement se fait sur le même brin et comp' pour discontinu, le chevauchement se fait sur 2 brins.
continu		continu		comp’
eco		bsu		eco
-2400		-7616		-723
-2130		-500		-530
-1295		-492		-527
-897		-164		-436
-729		-154		-210
-448		-143		-
-242		-		bsu
-212		-		-361
-153		-		-
Rareté des tRNA-cds négatifs et petits positifs
modifier
  • Lien tableur: Rareté des tRNA-cds négatifs et petits positifs.
  • Légende:
    1. Les tRNA-cds négatifs: Les décomptes et la dénomination du tRNA sont faits à partir des "génome"-opérons quand ils ont des cds sinon à partir de "génome"-autres-intercalaires. Aux 21 génomes étudiés avec les discontinuités (comp') s'ajoute 22 autres génomes avec un total de 11 intercalaires négatifs. Ces derniers sont en gras et le total de tRNA-cds négatifs, 1407 pbs, est reporté dans le tableur (lien ci-dessus). Le taux des négatifs passe donc à 19 pour un total de 2688 intercalaires (1407 plus ceux des 21 génomes, 1281), soit 0.7%, 2 fois plus faible que les discontinus positifs entre tRNA dans les blocs sans rRNA.
      - Note: le rapport c-/x- maintenant est proche de l'unité, 9c- / 10x- pour 43 génomes. Voir les 1ères estimations avec les 21 génomes.Ce rapport et la rareté des tRNA-cds négatif suggèrent que le processus est aléatoire avec une probabilité de 0.5.
      - tga*, cette adresse n'apparaît pas dans spl opérons du 30.6.19 mais apparaît dans fréquences de spl du 24.9.20 dont est issu spl-autres-intercalaires.
      - blo*, dans blo opérons il n'y a pas de cds. Voir dans blo autres intercalaires qui est du 15.10.20 (voir blo-fréquences) alors que blo-opérons est du 30.6.19.
    2. Les tRNA-cds positifs: les génomes gen pointent sur les intercalaires des tRNA-cds des 21 étudiés pour les discontinuités.
      - S40% voir les intercalaires cds-cds 1-40 colonne 1-40% du 1er tableau, pourcentage des Sx+ sur le total, (100*Sx+ / S+).
      - total, total des tRNA-cds du génome reporté dans l'encadré au-dessus de son tableau.
      - R40 est le total des intercalaires positifs de 1 à 40 pbs des 2 parties du tableau de chaque génome (gen): continu pour Rc+ et comp' ou discontinu pour Rx+. Le pourcentage du total des Rx+, Rx+%, égale à (100*Rx+ / R+), est le même que celui des Sx+% et Rx+% calculés sur le total, soit 100*33/129 = 25,6 contre respectivement 31 et 36 %. Donc la rareté des petits tRNA-cds positifs, taux s40%/R40% égale 2.9, ne s'explique pas par la contrainte des changements de brin qui est la même que pour les cds-cds, mais par les caractéristiques propres aux tRNAs c'est à dire l'auto-appariement et la petitesse. Cette constatation me ramène à la problématique de l'orientation des blocs de tRNAs sans rRNA, orientation effective dans les blocs à rRNAs grâce à ces derniers, car le bloc à tRNAs aura à une extrémité un intercalaire plus petit donc plus difficile à réaliser et de l'autre un intercalaire plus grand donc plus facile à réaliser. En effet quand je compare les moyennes (tableau tRNA-cds2) des intercalaires positifs des cds-cds à celles des tRNA-cds ces dernières sont toujours et nettement plus élevées que les 1ères. Et quand j'oriente les blocs de tRNA sans rRNA les grands sont donc normalement tous plus élevés que cds-cds mais pour les petits 7 génomes à égalité ou presque (spl et bsu), 7 sont nettement plus petits ( différence supérieure à 40%) 7 moyennement petits (différence de 16 à 40%).
      - R40%, pourcentage des 1-40 par rapport au total des tRNA-cds;   taux, S40% / R40%.
      - Note:
      + les taux de cbn et bsu sont calculés avec R40=1. Quand j'enlève pub le taux du total passe à 3.6 au lieu de 2.9 et le pourcentage à 7.5 pour un cumulé de 1213 et un R40 total de 91.
      + Ce tableau est à comparer aux moyennes des tRNA-cds.
génomes. Rareté des tRNA-cds négatifs et des petits positifs
génomes. Les tRNA-cds négatifs
genome adresse tRNA inter
Intercalaire continu nc
vha chrII 1842556 ctc -36
amed 779541 caa -21
oan 1945985 aag -38
oan 34057 gcc -40
ppm plasm 7953 gac -24
hmo 2497882 gtg -10
mfi 314088 caa -1
pmg 1600898 gta -30
blo* 207388 tgg -17
Intercalaire discontinu xc comp’
rpm 1941413 agc -30
oan 1639492 atgj -44
aua 1350534 cgt -30
npu 3439846 gca -19
mba 1315521 cgc -12
spl 552630 tga* -23
myr 1926118 tta -38
ase 1249593 aag -12
blo* 440078 aac -39
blo* 1424907 gag -8
total 19
génomes. Les poisitifs de 1 à 40
gen S40% total R40 R40% taux Rc+ Rx+
abra 37,3 41 2 4,9 7,6 2
ade 32,6 69 8 11,6 2,8 7 1
afn 35,8 53 4 7,5 4,7 4
ant 45,1 34 5 14,7 3,1 3 2
ase 23,9 100 14 14,0 1,7 11 3
blo 19,1 75 1 1,3 14,4 1
bsu 34,6 28 0 0 9,7
cbei 19,0 47 3 6,4 3,0 1 2
cbn 29,3 40 0 0 11,7
cvi 26,9 78 8 10,3 2,6 8
eco 29,1 65 4 6,2 4,7 1 3
mba 13,3 88 4 4,5 2,9 2 2
mja 39,4 43 5 11,6 3,4 5
myr 30,8 78 7 9,0 3,4 5 2
pmg 42,9 65 11 16,9 2,5 8 3
pmq 19,1 42 1 2,4 8,0 1
pub 59,6 48 27 56,3 1,1 18 9
rru 26,1 83 3 3,6 7,2 1 2
rtb 20,3 56 6 10,7 1,9 6
scc 31,0 67 4 6,0 5,2 2 2
spl 20,0 61 1 1,6 12,2 1
total 27,1 1261 118 9,4 2,9 86 32
Les cds-cds positif-négatif
modifier
  • Lien tableur: Les cds-cds positif-négatif
  • Légende:
    1. Les intercalaires cds-cds positifs de 1 à 40: Les liens des génomes gen pointent sur les fréquences des intercalaires cds-cds.
      - <0%: intercalaires négatifs / total des intercalaires cds-cds, extrait du sous-tableau génomes3. De même total est extrait du sous-tableau génomes2.
      - <1 reste: sont extraits du tableau des fréquences de chaque génome (lien dans la colonne gen de gauche) et concernent la colonne frequence1. <1 est la somme des fréquences (-1) et (0), et reste est à la fin de la colonne. Leur somme est soustraite du total pour donner le total des intercalaires positifs (>0).
      - >0: total des intercalaires positifs, égale à total - <1.
      - 1-40 et 1-40%: 1-40, le total des intercalaires positifs de 1 à 40 est égale à >0 - reste et son taux, 1-40%, à 1-40 / >0.
      - 1-32%: taux des négatifs de -1 à -32, extrait du tableau tRNA-cds02, après avoir retranché la colonne reste32% de 100%.
      - Note: Tous les taux calculés pour chaque génome (lien à la colonne gen) sont faits par rapport au total des intercalaires cds-cds. Dans le tableau tRNA-cds02 reste32% est calculé par rapport au total des négatifs seuls. Pour ne pas refaire tous les calculs des intercalaires positifs de 1 à 32 la comparaison de 1-40% à 1-32% me paraît pertinente puisque leur différence est très forte, que la différence des effectifs est très faible (40 contre 32) et que leurs calculs sont faits de la même façon, par rapports à leur totaux.
    2. Les intercalaires continu-discontinu: voir ici la méthode de ces décomptes.
      - S R a pour intercalaires cds-cds, tRNA-cds, autres
      - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S.
      - total, total de tous les gènes
      - nc, intercalaires entre 2 gènes non marqués CDS
      - lien a, vers autres intercalaires, lien S vers les décomptes sous forme de nombres séparés par des points virgules à remplacer lors de la copie vers le tableur.
    3. tRNA-cds positifs: mêmes notations que précédemment. Les liens des génomes gen pointent sur les intercalaires tRNA-cds. Les génomes avec * (ase*) ont des R- contenus dans les R+ pour retrouver les totaux de tRNA-cds01 précédents.
      - attention correction pour eco, 37 28 et non 37 27. corrigée ici.
génomes. Les intercalaires cds-cds, comparaison positif négatif.
gen1. Les intercalaires cds-cds positifs de 1 à 40
gen <0 % <1 reste total 1-40 >0 1-40% 1-32%
abra 25 430 776 1667 461 1237 37 95
ade 18 844 2440 4464 1180 3620 33 95
afn 15 318 1104 2038 616 1720 36 93
ant 25 827 1246 3095 1022 2268 45 98
ase 20 1687 4956 8197 1554 6510 24 92
blo 13 231 1246 1772 295 1541 19 97
bsu 14 635 2341 4213 1237 3578 35 91
cbei 7 419 4214 5622 989 5203 19 94
cbn 7 187 1628 2491 676 2304 29 97
cvi 18 771 2566 4282 945 3511 27 97
eco 18 767 2310 4024 947 3257 29 93
mba 8 351 3113 3943 479 3592 13 92
mja 13 240 902 1729 587 1489 39 92
myr 9 320 2239 3555 996 3235 31 96
pmg 14 298 857 1800 645 1502 43 95
pmq 11 826 5173 7223 1224 6397 19 94
pub 36 544 308 1307 455 763 60 97
rru 18 696 2285 3786 805 3090 26 95
rtb 13 107 547 793 139 686 20 93
scc 19 355 1001 1805 449 1450 31 96
spl 10 444 3017 4213 752 3769 20 98
total 11297 72019 16453 60722 27 94.5
écart 27±7 95±3
gen2. Les intercalaires cds-cds, continu - discontinu
lien a total nc ac ax lien S Sc- Sx- Sx-% Sc+ Sx+ Sx+% S-% total S
abra 1795 37 78 13 abra 409 8 1.9 979 271 22 25 1667
ade 4569 22 57 26 ade 713 102 12.5 2339 1310 36 18 4464
afn 2192 44 88 22 afn 303 4 1.3 1385 346 20 15 2038
ant 3190 47 37 11 ant 679 83 10.9 1702 631 27 25 3095
ase 8380 65 69 49 ase 1300 352 21.3 3866 2679 41 20 8197
blo 1900 24 71 33 blo 210 18 7.9 1045 499 32 13 1772
bsu 4537 99 205 20 bsu 573 35 5.8 2515 1090 30 14 4213
cbei 5814 106 68 18 cbei 390 10 2.5 4010 1212 23 7 5622
cbn 2638 87 45 15 cbn 167 9 5.1 1773 542 23 7 2491
cvi 4487 79 85 41 cvi 687 69 9.1 2424 1102 31 18 4282
eco 4700 65 580 31 eco 644 94 12.7 2211 1075 33 18 4024
mba 4071 22 54 52 mba 307 22 6.7 2381 1233 34 8 3943
mja 1828 21 41 37 mja 163 56 25.6 1071 439 29 13 1729
myr 3754 87 69 43 myr 282 20 6.6 2274 979 30 8 3555
pmg 1884 v5 45 34 pmg 158 95 37.5 950 597 39 14 1800
pmq 7479 185 51 20 pmq 753 42 5.3 4543 1885 29 11 7223
pub 1386 7 44 28 pub 381 92 19.5 599 235 28 36 1307
rru 3946 23 79 58 rru 614 69 10.1 2140 963 31 18 3786
rtb 868 5 51 19 rtb 98 4 3.9 506 185 27 13 793
scc 1909 20 47 37 scc 319 28 8.1 1001 457 31 19 1805
spl 4466 141 70 42 spl 414 12 2.8 2486 1301 34 10 4213
total 75793 1191 1934 649 9564 1224 11.3 42200 19031 31 15 72019
écart 10±9 30±5 16±7
gen3. tRNA-cds positifs
gen Rc+ Rx+ Rx%
abra 31 10 24
ade 47 22 32
afn 43 10 19
ant 29 5 15
ase* 60 41 41
blo* 52 26 33
bsu 12 16 57
cbei 35 12 26
cbn 30 10 25
cvi 52 26 33
eco 37 28 43
mba* 48 42 47
mja 25 18 42
myr* 48 31 39
pmg* 41 26 39
pmq 27 15 36
pub 28 22 44
rru 49 34 41
rtb 40 16 29
scc 35 32 48
spl* 39 23 37
total 808 465 37
écart 37±7
Récapitulatif des taux discontinu/continu
modifier
  • Lien tableur: Récapitulatif des taux discontinu/continu.
  • Légende: >0, intercalaires positifs zéro compris. <0, intercalaires négatifs
    - S R a nc pour intercalaires cds-cds, tRNA-cds, autres cds et non cds.
    - c x + - % pour continu, discontinu, positif, négatif, taux x/(c+x) ou (S-)/S
    - Liens: S RS t1,  Scx- RS t2,  Scx+ S+ t2,  nc,acx a t2,  Rcx R+ t3  et  R-. (t1 t2 t3 pour les sous-tableaux des liens).
    - Voir les tRNA-cds négatifs, Rcx-, dans Notes.
  • Note: Les autres intercalaires contiennent ceux des tRNA-tRNA qui ne produisent pas de discontinuités. En enlevant ces intercalaires, environ 500 (spl 133, bsu 60, pmq 138, cbn 22, cbei 140) j'arrive à un rapport ax% de 463/1500 soit 31%, celui de Sx+%. En plus eco contient 129 pseudo-gènes comptés dans autres intercalaires et qui se comportent comme les cds S+. Donc sans eco et les tRNAs le reste doit avoir un rapport ax% semblable à celui des Sx%.
Récapitulatif continu - discontinu
>0 <0 total taux <0
tRNA-cds tRNA-cds
Rc+ Rx+ Rx+ % Rc- Rx- Rx- % R- %
808 465 36,5 2 6 75 1 281 0,6
cds-cds cds-cds
Sc+ Sx+ Sx+ % Sc- Sx- Sx- % S- %
42 200 19 031 31,08 9 564 1 224 11,3 72 019 15,0
nc ac ax ax% a% intercal Sx%
1 191 1 934 649 25,1 3,4 75 793 28,1
Les taux de discontinus par classe génomique
modifier
génomes. Les taux de discontinus par classe génomique
gen Sx-% Sx+% S-% Rx+% ax%
I
abra 1,4 22 25 24 6
ant 10,9 27 25 15 8
mja 24,2 30 13 42 36
pmg 36,0 39 14 39 41
pub 19,0 29 36 44 45
II
ade 11,9 36 18 32 13
afn 1,3 20 15 19 11
ase 19,3 42 20 41 11
bsu 4,9 30 14 57 16
cbn 4,5 23 7 25 5
cvi 8,2 32 18 33 18
eco 12,3 33 18 43 35
rru 10,1 31 18 41 33
spl 2,8 34 10 37 11
III
blo 7,0 32 13 33 18
cbei 2,8 23 7 26 6
mba 5,5 34 8 47 28
myr 6,6 30 8 39 9
pmq 4,3 29 11 36 4
rtb 2,9 27 13 29 25
scc 7,8 32 19 48 18
total 10,6 31 15 37 19
écart 10±6 31±4 15±5 37±7 19±10
Les fréquences des intercalaires négatifs cds-cds
modifier
Les fréquences des intercalaires négatifs cds-cds. Tableau
modifier
  • Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Voir aussi les détails à la suite du tableau dans le tableur.
  • Légende: inter, intercalaire; comp', pour discontinu.
    - nc, nombre de continus; nc%, proportion par rapport au total des continus; pc%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des continus.
    - xc, nombre de discontinus; xc%, proportion par rapport au total des discontinus; px%, rapport de la somme des 2 faibles par rapport au maximum du pas de trois des discontinus.
    - Le 1er pas de 3 intercalaires comprend les fréquences, inter, 6 7 8. Le rapport des continus est alors pc%=(4 + 139)/945=0.15. Pour les discontinus px%=(35+19)/51=1.06.
    - diff différence entre la fréquence 6 et 7.
cds-cds. Les fréquences des intercalaires négatifs cds-cds
continu comp’
inter nc nc% pc% nx nx% px% diff
-1 1671 17.5 0 0
-2 4 0.0 40 3.3
-3 5 0.1 0 0
-4 4476 46.8 0.38 410 33.5 0.10
-5 9 0.1 3 0.2
-6 4 0.0 35 2.9 16
-7 139 1.5 19 1.6
-8 945 9.9 0.15 51 4.2 1.06
-9 3 0.0 25 2.0 14
-10 93 1.0 11 0.9
-11 498 5.2 0.19 52 4.3 0.69
-12 2 0.0 23 1.9 8
-13 94 1.0 15 1.2
-14 329 3.4 0.29 45 3.7 0.84
-15 1 0.0 25 2.0 12
-16 58 0.6 13 1.1
-17 235 2.5 0.25 42 3.4 0.90
-18 5 0.1 13 1.1 1
-19 43 0.4 12 1.0
-20 162 1.7 0.30 24 2.0 1.04
-21 0 0 11 0.9 3
-22 22 0.2 8 0.7
-23 107 1.1 0.21 20 1.6 0.95
-24 1 0.0 19 1.6 8
-25 34 0.4 11 0.9
-26 101 1.1 0.35 21 1.7 1.43
-27 2 0.0 6 0.5 -2
-28 19 0.2 8 0.7
-29 61 0.6 0.34 10 0.8 1.40
-30 0 0 5 0.4 -3
-31 16 0.2 8 0.7
-32 45 0.5 0.36 18 1.5 0.72
-33 0 0 3 0.2 -4
-34 15 0.2 7 0.6
-35 35 0.4 0.43 19 1.6 0.53
-36 0 0 3 0.2 0
-37 9 0.1 3 0.2
-38 31 0.3 0.29 12 1.0 0.50
-39 0 0 3 0.2 -4
-40 5 0.1 7 0.6
-41 34 0.4 0.15 8 0.7 1.25
-42 0 0 4 0.3 -2
-43 16 0.2 6 0.5
-44 24 0.3 0.67 4 0.3 2.50
-45 0 0 2 0.2 -1
-46 5 0.1 3 0.2
-47 11 0.1 0.45 4 0.3 1.25
-48 0 0 2 0.2 -2
-49 11 0.1 4 0.3
-50 9 0.1 1.22 6 0.5 1.00
reste 169 1.8 120 9.8
total 9558 100.0 1223 100.0
  • Totaux: voir les restes des cds-cds négatifs (14.8.21).
14.8.21	c50	creste	ctotal	x50	xreste	x80	xtotal
6 mod3	18	2	20	179	14	16	209
7 mod3	579	65	644	135	12	19	166
8 mod3	2627	87	2714	336	19	34	389
autres	-	15	15	-	6	-	6
1 à 5			6165				453
total			9558				1223
  • Notes:
    - Exception pour les discontinus: si les continus ont des pas avec les 2 1ères fréquences toujours très faibles par rapport à la 3ème fréquence, chez les discontinus les 2 1ères sont toujours plus faibles que la 3ème mais leur somme peut être supérieure à elle, ce qui donne des px% supérieurs à l'unité et un seul cas (fréquence 44) où la 3ème n'est pas la plus grande. Le dernier pas des continus, 48 49 50, 49 et 50 sont égaux.
    - Les fréquences 1 2 3 4 5: Les 2 lots continu et comp' ont en commun les fréquences 3 4 5, avec la proportion la plus élevée de la fréquence 4 (47% en continu et 34% en discontinu), les fréquences 3 et 5 sont quasiment nuls. Par contre les 2 lots se différencient nettement pour les fréquences 1 et 2: la 1 des continus a la 2ème proportion la plus élevée et rivalise avec le 1er pas (17% contre 10%) et la fréquence 2 est quasiment nulle et portée par un seul génome, bsu (effectif de 4 en gras); la 1 des discontinus est nulle, par contre la fréquence 2 rivalise avec le 1er pas avec un effectif de 40 contre 47.
    - Les restes après la fréquence 50: D'après la 1ère note la progression des continus est plus rapide que celle des comp' ce qui fait que les restes sont 5 fois plus élevés chez les comp' 9,6% contre 1.9% pour les continu. Mais la progression s'annule presque au-delà de la fréquence 100, voir le tableau des caractéristiques globales de ces 2 lots (tRNA-cds02 les colonnes des minima).
    - Chez les discontinus une seconde périodicité apparaît avec les -8 (modulo 3): les 3 1ères sont constantes entre 44 et 48 puis 39, suivent 3 autres de 17 à 22 puis 10, suivent 3 autres de 12 à 17 puis 8 et enfin la queue qui diminue lentement avec des 3 et 4, dépassant rarement 7 (voir la suite dans -80).
    - Les courbes de progression de chaque fréquence modulo 3 sont des exponentielles.
  • périodicité supérieure des discontinus, modulo 9.
-6	35 25 23	-7	19 11 15	-8	51 52 45	-8	51 52 45   42
-15	25 13 11	-16	13 12 8		-17	42 24 20	-20	24 20 21   10
-24	19 6 5		-25	11 8 8		-26	21 10 18	-32	18 19 12
-33	3 3 3		-34	7 3 7		-35	19 12 8		-41	8 4 4
-42	4 2 2		-43	6 3 4		-44	4 4 6		-50	6 3 5
-51	5 1 2		-52	1 2 5		-53	4 5 7		-59	7 3 6
-60	1 1 1		-61	2 1 4		-62	3 6 3		-68	3 1 3
-69	2 2 1		-70	1 1 0		-71	1 3 0		-77	0 2 ?
-78	0 ? ?		-79	2 ? ?		-80	2 ? ?		-86	-
Les fréquences des intercalaires négatifs cds-cds. Diagrammes
modifier
  • Lien tableur: Les fréquences des intercalaires négatifs cds-cds. Diagrammes. Voir aussi les détails à la suite du tableau dans le tableur.
  • Légende:
    - droite exp p4 coefficient de détermination R2 de la courbe de tendance, respectivement, d'une droite, de la fonction exponentielle, du polynôme de d° 4.
    - Paramètre des courbes, -a pente b constante pour la droite; -x exposant multiplié par 1000, x' constante pour l'exponentiel; w constante du polynôme.
    - fréquence: 6 6' 6" pour les fréquences -6 modulo 3; 7 7' 7" pour -7 modulo 3; et 8 8' 8" pour -8 modulo 3. Les diagrammes sont faits avec la valeur absolue de la fréquence.
    - abscisse modulo 3, abscisse 1: abscisse des diagrammes pour modulo 3 de fréquence ci-dessus, et abscisse modulo 1 de 1 à 15 pour les fréquences jusqu'à 50 et de 1 à 25 pour les fréquences jusqu'à 80. -x1 et x'1 pour l'exponentielle en abscisse1, à comparer avec les exponentielles des génomes.
    - moyennes: pour m e m/e respectivement moyenne écart type et leur rapport des fréquences modulo 3.
    - continu 50 et discontinu 50 80, diagrammes pour les cds-cds continus jusqu'à la fréquence 50 et les cds-cds discontinus jusqu'aux fréquences 50 et 80.
  • Note: Les fréquences des continus 8 et 7 progressent rapidement par rapport aux discontinus qui s'étalent sur une plus grande plage. Aussi les diagrammes sur 80 fréquences améliorent les paramètres des courbes des discontinus. En effet les R2 des droites 6" et 8" sont nettement inférieures à ceux de leurs exponentielles avec les facteurs x1 élevés quoiqu'ils aient diminués par rapport à la série -50. Par contre pour 7" les R2 des 2 courbes sont identiques ce qui milite pour une courbe de tendance linéaire quoique le facteur -x1 et le m/e soient supérieurs à ceux des génomes en discontinu.
cds-cds. Diagrammes des fréquences des intercalaires négatifs cds-cds
R2 abscisses modulo 3 abscisses 1 moyennes
fréquence droite exp p4 -a b -x x’ w -x1 x’1 m e m/e
continu 50
6 537 190 585 0,1 4 36 4 6 107 3.5 1.2 1.66 0.72
7 735 855 971 2,6 111 72 176 245 215 132 38.6 40.2 0.96
8 608 973 987 14,8 603 100 1389 2611 301 841 175.1 253.9 0.69
discontinu 50
6’ 820 912 913 0.7 32 72 54 45 217 43 11.9 10.8 1.11
7’ 806 779 835 0.3 17 36 22 26 109 19 9.0 4.5 1.99
8’ 857 888 933 1.2 56 61 97 56 184 71 22.4 17.0 1.32
discontinu 80
6” 667 834 931 0.4 23 51 32 45 152 28 7.8 9.76 0.80
7” 806 769 887 0.2 15 38 22 21 115 19 6.2 5.04 1.22
8” 739 874 949 0.6 42 48 70 80 144 55 14.8 16.14 0.92
Les intercalaires négatifs cds-cds, recouvrements
modifier
  • Lien tableur: Les intercalaires négatifs cds-cds, recouvrements.
  • Légende:
    - add1 add2 adresse du début et de fin d'un cds. Je nomme pour les opérations qui suivent add11 add12 le 1er cds de la 1ère ligne. La ligne suivante contient les adresses du cds suivant que je nomme add21 add22.
    - Les opérations:
    + intercal, intercalaire entre un cds et le suivant. Il est calculé comme add12-add21-1.
    + shift, différence entre les extrémités des 2 cds, add22-add12. Quand le shift est nul (à droite ou à gauche) il est coloré en jaune.
    + couvre, le recouvrement des 2 cds. Quand le shift est négatif (cyan) le cds est complètement recouvert et la longueur du recouvrement est égale à la longueur du 2ème cds, soit add22-add21+1, inférieure à l'intercalaire. Si le shift est positif le recouvrement est partiel et sa longueur est add12-add21+1, égale à l'intercalaire. Si le shift est nul (à droite ou à gauche) le recouvrement d'un des 2 cds est total.
  • Note:
    - Donc la longueur du recouvrement ne peut pas être supérieure à l'intercalaire.
    - Tous les longs intercalaires ont un recouvrement total. Sur les 21 intercalaires de longueur supérieure à 140 pbs, 17 ont un recouvrement total dont 16 ont des intercalaires supérieurs à 212 pbs et 4 ont un recouvrement partiel avec des intercalaires inférieurs à 210 pbs. J'ai étudié plusieurs cds-cds négatifs de plus en plus courts, inférieurs à 140 pbs, que je n'ai pas représentés ici, et à part le -127 de bsu tous se sont révélés des recouvrements partiels comme certainement les 97% des intercalaires négatifs de moins de 50 pbs.
    - Les continus ont de longs recouvrements allant jusqu'à 2400 et ne descendent pas en dessous de 140. 9 sur 15 génomes ont plus de 200 pbs de recouvrement.
    - Les discontinus, à l'inverse, ne dépassent pas les 500 pbs de recouvrement et 5 sur 8 sont en dessous de 100 pbs. 3 sur 8 génomes ont plus de 200 pbs.
cds-cds0. Les intercalaires cds-cds négatifs, les recouvrements.
cds-cds01. Recouvrements chez bsu
intercal add1 add2 shift couvre
intercalaire continu
-7616 387744 398495 -7475 141
390880 391020
-500 3717238 3717825 -20 480
3717326 3717805
-492 2909520 2910011 735 492
2909520 2910746
-164 1252815 1253021 52 164
1252858 1253073
-154 2466721 2467953 209 154
2467800 2468162
-143 1916663 1917097 205 143
1916955 1917302
intercalaire discontinu
-361 2601528 2603339 -64 297
2602979 2603275
-127 3666841 3667059 -43 84
3666933 3667016
-93 2652993 2653463 1410 93
2653371 2654873
cds-cds02. Recouvrements chez eco
intercal add1 add2 shift couvre
intercalaire continu
-2400 164730 167264 0 2400
164865 167264
-2130 2731600 2733729 444 2130
2731600 2734173
-1295 492092 493386 637 1295
492092 494023
-897 4577958 4578854 483 897
4577958 4579337
-729 1179520 1180359 0 729
1179631 1180359
-448 1639030 1639527 -193 255
1639080 1639334
-242 578107 578568 -59 183
578327 578509
-212 508875 511379 0 212
511168 511379
-153 16751 16903 57 153
16751 16960
intercalaire discontinu
-723 3111128 3111988 -663 60
3111266 3111325
-530 3838248 3839171 -470 60
3838642 3838701
-527 10643 11356 -41 486
10830 11315
-436 3796948 3798207 -361 75
3797772 3797846
-210 3993739 3994059 276 210
3993850 3994335
Classement des génomes par les fréquences des cds-cds négatifs discontinus
modifier
  • Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs discontinus.
  • Légende:
    - couleurs,
    + Les colonnes en jaunes: rouge pour les rapports non significatifs, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes et soulignées pour les extrêmes.
    + Le classement, ordre décroissant de x6 x7 x8: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 x7.
    - clde, ordre des génomes en 9 forts et 12 faibles par rapport à x‰. Ils sont séparés par la ligne très grasse.
    - r80, total des effectifs des fréquences négatives supérieures à 80.
    - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
    - "6 "7 "8, somme des effectifs des fréquences -6 -7 -8 modulo 3 jusqu'à -80.
    - "p pour périodique, somme des 3 modulo 3, "6 "7 "8
    - "80, somme des effectifs de ("5 "6 "7 "8)
    - cds, total des intercalaires cds-cds décomptés pour un génome, gen.
    -x5, % par rapport au total ("80 + r80).
    - x6 x7 x8, pourcentage d'un modulo 3 par rapport au total "p des 3 modulo 3, "6 "7 "8.
    - x‰, pour 1000 cds-cds, somme de "80 et r80 divisée par la colonne cds
cds-cds-x. Intercalaires négatifs discontinus. Classement
clde gen r80 “6 “7 “8 “p x6 x7 x8 x‰ cds “5 x5 “80
1 pub 0 17 3 25 45 38 7 56 70.4 1307 47 51 92
2 pmg 0 16 9 30 55 29 16 55 48.9 1800 33 38 88
3 ase 17 48 55 123 226 21 24 54 42.9 8197 109 31 335
4 mja 0 19 3 8 30 63 10 27 32.4 1730 26 46 56
5 ant 0 20 5 18 43 47 12 42 26.8 3095 40 48 83
6 eco 10 15 6 18 39 38 15 46 23.4 4024 45 48 84
7 ade 9 4 17 36 57 7 30 63 22.8 4464 36 35 93
8 rru 5 6 13 22 41 15 32 54 19.5 3786 28 38 69
9 cvi 1 7 16 20 43 16 37 47 16.1 4282 25 36 68
10 scc 1 9 3 12 24 38 13 50 15.5 1805 3 11 27
11 blo 2 1 4 8 13 8 31 62 10.2 1772 3 17 16
12 bsu 4 5 7 5 17 29 41 29 8.3 4215 14 40 31
13 myr 0 5 1 5 11 45 9 45 5.6 3555 9 45 20
14 pmq 1 8 5 14 27 30 19 52 5.8 7223 14 33 41
15 mba 0 3 3 10 16 19 19 63 5.6 3943 6 27 22
16 rtb 0 0 0 3 3 0 0 100 5.0 793 1 25 4
17 abra 0 3 0 3 6 50 0 50 4.8 1667 2 25 8
18 cbn 0 5 0 4 9 56 0 44 3.6 2491 0 0 9
19 spl 0 1 1 3 5 20 20 60 2.8 4213 7 58 12
20 cbei 0 2 2 3 7 29 29 43 2.0 5622 4 36 11
21 afn 1 1 1 0 2 50 50 0 2.0 2039 1 25 3
total 51 195 154 370 719 27 21 51 17.0 72023 453 37 1172
  • Note: Le tableau est construit à partir du tableau détaillé dans le tableur ainsi que les restes des cds-cds négatifs (14.8.21).
    - Classement: Le classement est fait suivant l'ordre décroissant de x6 x7 x8. Il y a ainsi 3 catégories: vert clair x8 x6 x7, vert foncé x8 x7 x6, bleu x6 x8 avec x7 quelconque. Chaque catégorie est divisée en x‰ fort, faible et rouge ou incetain. Ainsi le classement indique la couleur, l'ordre, l'effectif de la sous-catégorie et la fourchette du taux de x6.
    - Les forts x‰: Le taux de négatifs discontinus x‰ dépasse pour 8/9 le taux du total, 17.0 et le 9ème fait 16.1‰; 4 taux sont les plus élevés des 21, dépassant les 30‰. Le total de cds ne les impacte pas, il y a 5 grands cds pour 4 petits (inférieurs à 3100). Le taux des fréquences 1-5 varie peu et est très élevé, entre 31 et 51%. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds.
    1. bleu ordre x6 x8, deux, 47-64:   mja 32‰   1730  ant 27‰   3095
    2. v.clair ordre x8 x6 x7, trois, 29-38:   pub 70‰   1 307   pmg 49‰   1 800   eco 23‰   4 024
    3. v.foncé ordre x8 x7 x6, quatre, 7-21:   ase 43‰   8 197   ade 23‰   4 464   rru 19‰   3 786   cvi 16‰   4 282
    - Les faibles x‰: Le taux de négatifs discontinus x‰ ne dépasse pas 7‰ pour 10/12 d'entre eux; blo fait 10‰ et seul scc égale celui du fort cvi; j'ai gardé scc parmi les faibles à cause du faible taux des fréquences 1-5. Le total de cds ne les impacte pas, il y a 6 grands cds pour 6 petits (inférieurs à 2 500). Le taux des fréquences 1-5 varie beaucoup, est impacté par le total de cds; les 6 taux 1-5 les plus petits ont un cds inférieur à 2500; tandis que 5 grands ont un cds supérieur à 3555 et rtb est ambigu du à sa faiblesse en cds. Le taux des "6 par rapport au total des "p n'est impacté ni par le total cds ni par le taux des 1-5. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par le taux des 1-5 en %.
    1. v.clair ordre x8 x6 x7, trois, 30-45:   scc 15‰   1 805-11   myr 6‰   3 555-45   pmq 6‰   7 223-33
    2. v.foncé ordre x8 x7 x6, cinq, 8-29:   blo 10‰   1 772-17   mba 6‰   3 943-27   spl 3‰   4 213-58   cbei 2‰   5 622-36   bsu 8‰   4 215-40
    - Les rouges ou incertains, en x‰: Les effectifs sont très faibles d'où les ? pour zéro. Leurs cds ne dépassent pas 2500. Chaque génome est suivi de son taux de négatifs discontinus en ‰ et du total de cds accompagné par l'effectif des 1-5.
    1. bleu ordre x6 x8, trois, 50-56:   afn 2‰   2 039-1   abra 5‰   1 667-2   cbn 4‰   2 491-?
    2. v.clair ordre x8 x6 x7, un ?, 0:   rtb 5‰   793-1
  • Coefficient de détermination, moyenne et corrélation des taux des périodiques par rapport au total des cds-cds. Les colonnes ‰. (pour 10 000) sont à faire d'après le tableau ci-joint extrait des discontinus et des continus, x6‰. pour "6/cds des discontinus et c7‰. pour "7/cds pour les continus par exemple. Ainsi le coefficient de détermination R2 (ici multiplié par 1000 et correspond à la progression croissante de 1 à 21 des taux) est nettement à l'avantage d'une exponentielle chez les discontinus avec une différence minimale de 106 points pour x7‰. et plus de 200 points pour les 4 autres; la fonction exponentielle est très prononcée avec une constante de l'exposant a, b*exp(-ax), proche de 0.2. Les variances très élevées des taux vont dans le même sens avec des rapports moyenne/écartype, m/e, inférieurs à l'unité. Chez les continus l'avantage vers la linéarité est très prononcé en comparaison avec les discontinus: R2 linéaire supérieur à celui de l'exponentielle pour c7‰. et c5‰. avec le coefficient a 4 fois inférieur pour c7‰. et 2 fois inférieur pour c5‰.; pour c8‰. et c‰. très grande ressemblance avec x8‰. et x‰. pour le R2 mais les coefficients a sont analogues à ceux de c7‰. et c5‰. militant plutôt pour la linéarité car plus a tend vers zéro plus l'exponentielle tend vers 1+ax [63]; enfin les très faibles variances des taux, m/e entre 1.7 et 3.9 vont dans le même sens. On retrouve ces comportements de l'exponentielle avec les fréquences des intercalaires où -x1 et x'1 correspondent à -a et b avec les mêmes abscisses que les génomes après tri (suite de 1 à 15 ou 25). Cependant le classement des continus en fonction de c‰, pour 1000, (voir cds-cds-cx) avait montré au moins 4 groupes dont un plateau et 2 pentes de progression élevées, une de 7 et l'autre de 37 (voir note) et apparemment cette hétérogénéité est supportée par les c5‰ (pas de classe avec un intrus) et c8‰ (une seule avec blo comme intrus) mais pas par c7‰ (les 4 classes ont au moins un intrus, dans l'ordre, cbei mja (ade eco) abra ). Enfin les fortes corrélations entre 2 colonnes de taux des discontinus et celles très faibles entre les taux des continus confirment respectivement leur parentés à la fonction exponentielle et à la fonction linéaire.
14.8.21		discontinu					continu				
		x6‰.	x7‰. 	x8‰. 	x5‰. 	x‰. 		c7‰. 	c8‰. 	c5‰. 	c‰. 
moyenne		32.4	18.2	52.8	69.5	178.3		84.2	427.9	859.9	1398.9
écart		37.6	18.2	53.8	86.6	181.3		22.4	248.2	422.8	592.4
m/e		0.9	1.0	1.0	0.8	1.0		3,9	1,7	2,0	2,4
R2 progrès											
droite		753	850	758	687	783		978	793	967	888
exponentiel	980	956	961	969	986		975	941	957	967
a		0.195	0.183	0.165	0.202	0.171		0.043	0.081	0.089	0.065
b		1.98	1.44	5.37	3.75	16.4		50	153	283	629
corrélation, pour coefficient de détermination de 2 colonnes.											
5-6	5-7	5-8	6-7	6-8	7-8			5-7	5-8	7-8	
788	244	728	154	569	555			37	176	177	
Classement des génomes par les fréquences des cds-cds négatifs continus
modifier
  • Lien tableur: Classement des génomes par les fréquences des cds-cds négatifs continus.
  • Légende: voir le tableau des détails dans le tableur ainsi que les restes des cds-cds négatifs.
    1. Les continus
    - couleurs des continus, jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, gras pour très faibles et soulignées pour les extrêmes.
    1. - c5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs continus.
      - c‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
      - cont, total des continus négatifs
      - r50, reste des continus après la fréquence -50.
      - "6 "7 "8, somme des effectifs continus des fréquences -6 -7 -8 modulo 3 jusqu'à -50.
      - "5, somme des effectifs des fréquences -1 -2 -3 -4 -5.
      - "p, somme de "6 "7 "8
      - c7 en % somme des effectifs continus de la fréquence -7 modulo3 jusqu'à -50, sur la somme des mêmes sommes -6 -7 -8 modulo 3.
      - c1/c4, en %, rapport de la fréquence -1 sur la fréquence -4 des négatifs continus, tiré du tableau comparaison continu-discontinu
    2. Les discontinus voir leur chapitre
      - c‰ c5‰ c7‰ c8‰ pour 1000 cds-cds, total des intercalaires négatifs continus divisé par cds (total des cds-cds).
      - x5, en %: somme des effectifs des fréquences -1 -2 -3 -4 -5 sur le total des négatifs discontinus.
      - x‰, pour 1000 cds-cds, total des intercalaires négatifs discontinus divisé par cds (total des cds-cds). Pour x5 et x‰ les couleurs sont celles des continus avec le rouge pour les effectifs peu significatifs.
      - x6 en %, somme des effectifs des discontinus de la fréquence -6 modulo 3 jusqu'à -80, sur la somme des mêmes sommes -6 -7 -8 modulo 3. Les couleurs des 3 classes de discontinus basés sur x6, sont dans l'ordre décroissant, bleu (x6 x8 x7), vert clair (x8 x6 x7) et vert foncé (x8 x7 x6).
cds-cds. Intercalaires négatifs. Classements
cds-cds-c. Intercalaires négatifs continus. Classement
gen r50 cont “6 “7 “8 “p c8 c7 “5 c5 c‰ cds
cbn 0 167 23 82 105 78 21.9 62 37 67 2 491
cbei 4 389 32 200 232 86 13.8 153 39 69 5 622
mba 6 307 7 34 108 149 77 22.8 152 50 78 3 943
myr 0 282 22 127 149 85 14.8 133 47 79 3 555
pmg 2 158 10 41 51 80 19.6 105 66 88 1 800
mja 6 163 17 62 79 79 21.5 78 48 94 1 730
spl 5 414 30 117 147 80 20.4 262 63 98 4 213
pmq 16 753 1 44 226 271 84 16.2 466 62 104 7 223
blo 2 210 1 10 36 47 79 21.3 161 77 119 1 772
rtb 0 98 9 46 55 84 16.4 43 44 124 793
bsu 17 573 42 209 251 83 16.7 305 53 136 4 215
afn 9 303 2 20 105 127 84 15.7 167 55 149 2 039
ase 28 1300 3 70 145 218 68 32.1 1054 81 158.6 8 197
ade 9 713 25 72 97 74 25.8 607 85 159.7 4 464
eco 22 644 47 152 199 76 23.6 423 66 160.0 4 024
cvi 4 687 38 152 190 80 20.0 493 72 160.4 4 282
rru 11 609 26 97 123 79 21.1 475 78 160.9 3 786
scc 6 319 1 22 95 118 81 18.6 195 61 177 1 805
ant 6 679 1 33 252 286 89 11.5 387 57 219 3 095
abra 13 409 11 174 185 94 5.9 211 52 245 1 667
pub 3 381 2 14 129 145 90 9.7 233 61 292 1 307
total 169 9558 18 579 2627 3224 82 18.0 6165 64 134 72 023
cds-cds-cx. Intercalaires négatifs. Classement
gen c5‰ c7‰ c8‰ c‰ c1/c4 cds x6 x5 x‰
cbn 25 9.2 33 67 121 2 491 56 0 3.6
cbei 27 5.7 36 69 87 5 622 29 36 2.0
mba 39 8.6 27 78 28 3555 19 27 5.6
myr 37 6.2 36 79 118 3943 45 45 5.6
pmg 58 5.6 23 88 52 1 800 29 38 48.9
mja 45 9.8 36 94 49 1 730 63 46 32.4
spl 62 7.1 28 98 93 4213 20 58 2.8
pmq 65 6.1 31 104 21 7 223 30 33 5.8
blo 91 5.6 20 119 48 1 772 8 17 10.2
rtb 54 11.3 58 124 30 793 0 25 5.0
bsu 72 10.0 50 136 31 4215 29 40 8.3
afn 82 9.8 51 149 29 2 039 50 25 2.0
ase 129 8.5 18 158.6 19 8 197 21 31 42.9
ade 136 5.6 16 159.7 13 4464 7 35 22.8
eco 105 11.7 38 160.0 63 4024 38 48 23.4
cvi 115 8.9 35 160.4 31 3786 16 36 16.1
rru 125 6.9 26 160.9 21 4282 15 38 19.5
scc 108 12.2 53 177 25 1 805 38 11 15.5
ant 125 10.7 81 219 74 3095 47 48 26.8
abra 127 6.6 104 245 48 1 667 50 25 4.8
pub 178 10.7 99 292 190 1 307 38 51 70.4
total 86 8.0 36 134 37 72023 27 37 17.0
  • Note: voir la note des discontinus seuls. Ici les couleurs ont été harmonisées pour le tri et pour comparer rapidement 2 génomes: jaune pour valeurs supérieures, cyan pour faibles, sans pour moyennes, en gras pour très faibles et soulignées pour les extrêmes.
    - Les négatifs continus se distinguent des discontinus par 3 points essentiels:
    1. Le taux des intercalaires, voir le petit tableau en bas de cette note.
      - c‰: La courbe de détermination des négatifs continus triés est une droite à forte pente de 9. Elle a un palier à pente nul de 5 génomes avec un taux de 160 ‰. Ce palier sépare une queue de 12 génomes avec une droite de pente 7 (R2 99), d'une tête de 4 génomes de pente 37 (R2 97). Les cds ne semblent pas impacter ce taux, la queue a 6 faibles cds contre 6 forts, le palier est un palier aussi pour 4 cds moyens et le 5ème fort extrême, la tête de la courbe a un cds moyen pour 3 faibles. Les c5 impactent différemment les 3 parties, les 4 1ers c‰ de la queue semblent être corrélés positivement aux c5 alors que la tête est corrélée négativement, le palier est aussi un palier c5 et les 8 génomes restant ne semblent pas être corrélés entre eux.
      - x‰: La courbe de détermination des négatifs discontinus triés est une exponentielle nette et régulière. J'ai détaillé ses fréquences dans le chapitre précédent. La fonction exponentielle dénote la difficulté physique d’établir la discontinuité entre 2 cds, on passe d'un état vibratoire à l'autre en les chevauchant. Les intercalaires négatifs continus répondent, eux, à une logique fonctionnelle, le chevauchement ne peut pas être à l'identique (0 modulo 3) sinon on tombe dans les domaines protéiques communs à plusieurs gènes et qui ont un rôle fonctionnel; le chevauchement doit être décalé (-1 -2 modulo 3) et c'est pour cela qu'on n'a que rarement des -6 modulo 3 ("6).
    2. Les intercalaires de -1 à -5: voir le petit tableau en bas de cette note et les fréquences périodiques. Ces intercalaires ont une moyenne de 60% et 33% par rapport au total respectivement des continus et des discontinus négatifs, avec des écarts identiques faibles. Ceci s'explique par la difficulté des discontinus à s'ancrer avec une seule paire de bases, ils n'ont aucun intercalaire de ce genre, alors qu'il y en a 17% chez les continus (le rapport c1/c4 ne concerne donc que les continus et varie beaucoup d'un génome à l'autre). Par contre les discontinus ont un taux de fréquence -2 équivalent à celui de -8 comme s'ils initialisaient cette périodicité, alors que les continus malgré qu'ils soient 10 fois plus nombreux n'en présentent que 4 et pour le seul génome bsu.
    3. Les intercalaires périodiques - 6 -7 -8 modulo 3
      - "6 continu (voir le tableur): cas de mba avec 7 occurrences 1 pour 9 27 et 5 pour 18. Au total les continus ont 26 occurrences jusqu'à -50 et 5 sur les 179 restants avec eco (66 75) ase (51 57) et mba (51) pour les occurrences inférieures à 140. Pour les discontinus, les 6 modulo 3 apparaissent régulièrement, ainsi pour ase il y a 7 au-delà de -80 jusqu'à une occurrence de -120 soit 40 aas! De même pour eco 2 occurrences après -80, 102 129 avant les plus grands; de même bsu a une occurrence à 93, mais ade qui a 9 au-delà de -80 n'en a pas. Jusqu'à -50 il y a 171 discontinus et 13 de -51 à -80.
      - Les rapports entre les périodiques "6 "7 "8: Chez les continus ils sont complémentaires puisque "6 est quasi nul (26 contre 171 chez les discontinus). Ils sont très homogènes (m/e de 3.2 et 14 respectivement et un R2 de 91) avec une pente de progression de 0.89 contre 2.15 et 2.70 pour les discontinus. Ces pentes fortes et leur faible homogénéité (m/e 1.7 1.4 2.6 pour "6 "7 "8 respectivement et un R2 des "8 de 79) rapprochent les discontinus des courbes exponentielles en pourcentage du total.
      - Les pourcentages par rapport au total des cds: Dans cette comparaison on retrouve l'homogénéité des continus avec un m/e entre 1.7 et 3.9 et l'hétérogénéité des discontinus avec un m/e inférieur à 1.0. Par contre les courbes de tendance de progression des discontinus sont nettement exponentielles (R2 de la droite très inférieur à celui de l'exponentielle sauf pour x7‰) alors que celles des continus sont nettement linéaires (R2 de la droite supérieur ou presque égale à celui de l'exponentielle). Cette tendance à l'exponentielle explique la corrélation forte, comparaison entre 2 à 2 colonnes, chez les discontinus (80 76 58 54 27 15) et très faible chez les continus (5 15 18) où la corrélation entre ces derniers est réduite à leurs différences de pente. Il ne faut confondre l'exponentielle des fréquences qui est fonction de la longueur des recouvrements valable pour les continus et les discontinus, des tendances des génomes qui reflètent chez les continus la facilité à établir le recouvrement et sa difficulté chez les discontinus.
    - Le classement des continus voir en bas du chapitre: Les classes sont ordonnées sur le taux par rapport au total c‰. Il est suivi de /pas pour l'écart entre 2 taux successifs, ça correspond à la pente que j'ai signalé au paragraphe ci-dessus c‰. On remarque le palier de 5 génomes avec un /pas de 1. Il y a ainsi 5 classes dont 4 sont quasiment des paliers et la dernière avec une pente très forte. Les colonnes c5 et c7 présentent une plage avec éventuellement une exception après la virgule. Cette exception ne s'écarte réellement de l'homogénéité que dans 2 cas sur 5 pour c5 dans les classes 3 (43-55,76) et 5 (6-12,18). Cette écart est du à l'hétérogénéité du c1/c4. La colonne cds montre clairement que les cds n'impactent pas l'homogénéité d'une classe tant l'écart dans une classe est très grand. Le classement des 21 génomes en continu et discontinu (2ème tableau) montre la différence entre les 2 types de négatifs: dans chaque classe de continus il y a au moins 2 classes de discontinus sur les 3, v.clair v.foncé et bleu. Le palier de 5 en continus a 4 v.foncés et 1 v.clair, ce qui confirme sa grande homogénéité en plus de ses 4 cds.
    - Les caractéristiques communes aux continu-discontinu: Voir le récapitulatif en fin de chapitre.
    + Ces 2 types d'intercalaires ont en commun la périodicité modulo 3 des occurrences -6 -7 -8, les occurrences uniques -3 -4 -5 et les taux de ces occurrences cumulées pour -8 (respectivement continu discontinu 28 32 %), pour -4 (respectivement continu discontinu 47 34 %) et enfin -3 et -5 qui sont quasiment nulles.
    + Ils diffèrent par les taux des occurrences cumulées des -6 d'un facteur 50 (respectivement continu discontinu 0.3 17 %), des occurrences cumulées -7 d'un facteur 2 (respectivement continu discontinu 6.8 13 %), des occurrences -1 (respectivement continu discontinu 17 0 %) et des occurrences -2 (respectivement continu discontinu 0 3.5 %) et enfin ils diffèrent par les totaux des effectifs d'un facteur 10 (respectivement continu discontinu 9644 1144).
    + Une caractéristique commune entre les 2 types d'intercalaires apparaît après une analyse approfondie de la corrélation entre -7 et -8: Le taux moyen en % des continus, c7, ("7)/("7+"8) et celui des discontinus, x7, ("7)/("6+"7+"8) sont équivalents 18.6% contre 19.2%. Certes les c7 sont plus beaucoup plus homogènes (m/e de 3.2) que les x7 (m/e de 1.4) mais ceci est du au fait que les taux individuels en (‰.) par rapport au total des cds des c7 ont une progression linéaire alors que les x7 ont une progression exponentielle. Et la corrélation entre les taux individuels x7-x8 est forte avec un coefficient de détermination de 0.54. C'est comme si, quelle que soit la longueur de l'intercalaire, le taux "7/"8 était toujours le même. Ce rapport commun aux 2 types d'intercalaires renforce l'idée que la périodicité commune aux deux est un processus lié aux propriétés physiques de l'ADN et non aux fonctionnalités des 2 cds. Les corrélations fortes chez les discontinus, 5-6 (0.80) 5-8 (0.76) 6-8 (0.58) vont aussi dans ce sens grâce aux coefficients de détermination de leurs courbes exponentielles de progression listés dans le même tableau. Chez les continus les corrélations sont très faibles parce que leurs moyennes sont très homogènes ou autrement dit leurs taux sont presque constants. Ce qui va toujours dans le même sens de la propriété physique de l'ADN pour 2 processus différents, un linéaire pour les continus et l'autre exponentiel pour les discontinus.
  • Les taux entre périodiques: Les calculs sont faits à partir du tableau des continus. Comme c7 et c8 sont complémentaires ils ont même ecartype, même pente et même R2. Avec une moyenne de 81.5 (100-18.5) c8 obtient donc un m/e de 14.
14.8.21	c5	c7	c‰	x5	x6	x7	x8	x‰ 
moyenne	59,7	18,6	140,9	34,0	30,8	19,6	49,6	17,8
ecart	13,4	5,9	59,5	14,0	17,2	13,9	18,5	18,1
m/e	4,4	3,2	2,4	2,4	1,8	1,4	2,7	1,0
a	2,16	0,88	9	2,17	2,74	2,19	2,55	x0,17
b	35,9	8,82	40,91	10,17	0,62	-4,47	21,46	1,64
r2	98	91	89	92	98	96	74	99
			pal 5	pal 5				expo
  • Les classes des continus,14.8.21
classe				c‰ /pas			c5		c7		cds
					
cbn cbei mba myr:  		67-79 /3		37-50		14-23		2 491 - 5 622
					
pmg mja spl pmq:		88-104 /4		62-66,48	16-21		1 730 - 7 223
					
blo rtb bsu afn: 		119-149 /7		44-55,77	16-21		 793 - 4 215
					
eco ade rru cvi ase:		159-161 /1		72-85,66	20-26,32	3 786 - 8 197
					
scc ant abra pub: 		177-292 /29		52-61		6-12,19		1 307 - 3 095
  • Récapitulatif continus discontinus du 14.8.21: Les compilations sont tirées des -50 des continus, des -80 des discontinus et les occurrences négatives supérieures à 130 dans les restes. Période: "6 "7 "8 pour les -6 -7 -8 modulo 3; 1,2 pour -1 -2; 4 pour -4; et 3,5 pour -3 et -5; reste pour les occurrences négatives supérieures à 130.
période	cont	%	discont	%
6	20	0.21	209	17.09
7	644	6.74	166	13.57
8	2714	28.4	389	31.8
reste	15	0.16	6	0.49
1	1671	17.5	0	0
2	4	0.04	40	3.27
3,5	14	0.15	3	0.25
4	4476	46.8	410	33.5
total	9558	100	1223	100
Les fréquences des intercalaires positifs cds-cds
modifier
Les fréquences des intercalaires positifs cds-cds. Diagrammes 400
modifier
  • Lien tableur: Les fréquences des intercalaires positifs cds-cds. Diagrammes 400.
  • Légende: Ces tableaux sont suivis par les corrélations et fréquences faibles, cds-cds.31 et cds-cds.32.
    - gen: pour génome. Le 1er tableau cds-cds.11 pointe sur le génome au chapitre "gen intercalaires positifs S+". Au lien du tableur de ce dernier se trouvent les effectifs, dont eff eff3 teff de ces diagrammes 400. Le total eff représente le total de la fréquence 1 à 400 (cds-cds.11 et 21), eff3 de 31 à 400 (cds-cds.12 et 22) et de 51 à 400 pour bsu (colonne f3, tF51) et teff le total du génome, positifs, zéros et négatifs compris. Le total teff est la somme des 2 colonnes x et c du tableau cds-cds.32 sous la rubrique teff. Le x+ correspond aux diagrammes des discontinus et le c+ aux continus. La colonne "gen de cds-cds.11" pointe sur la fiche du génome pour ses diagrammes. La colonne "gen de cds-cds.12" pointe sur ses diagrammes. Sur les diagrammes sont indiqués eff et eff3.
    - Pour la construction des diagrammes et leurs symboles,   -7  -5  R2  flex   R2’  f3, pour les corrélations du tableau cds-cds.31 et les fréquences faibles du tableau cds-cds.32, voir la légende de cvi.
    - m50x: Les polynômes Sx+ présentent soit un maximum (max) soit un minimum (min) à l'abscisse 50 (ou bien proches de 50,40 60) soit ni l'un ni l'autre et ils paraissent réguliers.
    - m50c: comme m50x mais ce sont tous des minima.
    - f3: c'est la forme de la courbe du polynôme. Quand le coefficient de la variable x3 est négatif (colonne -7) la courbe a la forme d'un S majuscule, d'abord concave ensuite convexe. Quand ce coefficient est positif la forme est un tilde (t), convexe puis concave. Si la forme f3 est nette avec un R2' élevé, elle est suivie de F pour fort, de m si R2' est moyen et de f si R2' est faible.
    - clx+: c'est le classement des génomes à partir du tableau cds-cds.11, d'abord avec R2' puis f3. Dans la classe a les génomes ont un minimum et de forme S. Dans la classe b les génomes sont réguliers et de forme tilde. Dans la classe c les génomes ont un mmaximum et de forme tilde sauf pour bsu dont la forme Sf (R2' 18) très faible peut être confondue avec un tilde. Ce classement est reporté tel quel dans les autres tableaux.
cds-cds-d. Diagrammes 400 des intercalaires cds-cds.
cds-cds.11 Intercalaires positifs discontinus. Fréquences Sx+ 1-400
Polynome de d°3
gen m50x -7 -5 R2 flex x+ R2’ eff f3 clx+
rru min 50 -13 90 818 231 20 874 Sf b1
rtb max 80 45 -332 496 246 191 118 tF c3
pub min 20 -58 495 853 284 249 218 SF a1
cvi max 70 29 -174 611 200 30 1008 tf b2
ade min 50 -20 145 782 242 39 1229 Sf b1
ant min 50 -25 209 680 279 70 601 Sm a2
eco max 50 22 -151 532 230 43 1003 tm c2
spl max 80 47 -333 611 236 336 1071 tF c5
bsu max 40 -6.4 69 458 359 18 1028 Sf c1
pmq régulier 31 -283 878 304 813 1614 tF d2
cbn max 50 16 -109 454 227 27 489 tf c1
cbei régulier 32 -258 712 269 708 946 tF d2
afn max 4-14 29 -227 486 261 183 328 tF c4
ase max 70 19 -108 872 189 25 2398 tf b2
blo régulier 33 -233 728 235 138 448 tF d3
mja min 50 -16 150 660 313 78 406 Sm a2
mba régulier 4.9 -71 350 483 348 705 tF d1
myr max 70 33 -213 708 215 68 828 tm c2
pmg min 40 -67 515 607 256 179 559 SF a1
abra max 50 53 -314 734 197 96 256 tF c3
scc régulier 30 -200 690 222 71 416 tm d3
cds-cds.21 Intercalaires positifs continus. Fréquences Sc+ 1-400
Polynome de d°3
gen m50c -7 -5 R2 flex c+ R2’ eff clx+
rru 50 -34 275 878 270 139 2056 b1
rtb 50 -36 279 569 258 82 Sm 402 c3
pub 50 -236 1732 559 245 338 537 a1
cvi 50 -44 372 852 282 203 2320 b2
ade 50 -61 489 843 267 232 2242 b1
ant 40 -135 1021 664 252 306 1616 a2
eco 50 -74 565 805 255 265 2130 c2
spl 50 -47 363 806 257 192 2215 c5
bsu 50 -41 352 790 286 173 2444 c1
pmq 70 -29 229 946 263 140 4164 d2
cbn 50 -50 394 855 263 203 1701 c1
cbei 50 -46 338 779 245 213 3399 d2
afn 50 -95 712 722 250 297 1323 c4
ase 50 -43 352 910 273 216 3558 b2
blo 40 -5.7 69 868 404 41 Sf 993 d3
mja 50 -94 719 856 255 319 1047 a2
mba 50 -50 359 823 239 287 1651 d1
myr 50 -94 717 742 254 290 2081 c2
pmg 60 -107 844 869 263 368 895 a1
abra 60 -99 750 702 253 277 934 c3
scc 60 -86 660 830 256 331 961 d3
cds-cds.12 Intercalaires positifs discontinus. Fréquences Sx+ 31-400
Polynome de d°3
gen teff -7 -5 R2 flex x+ R2’ eff3 f3 clx+
rru 3786 12 -97 833 269 36 726 tf b1
rtb 793 c3
pub 1307 -49 437 918 297 256 149 SF a1
cvi 4282 b2
ade 4464 32 -228 874 238 67 958 tm b1
ant 3095 60 -400 785 222 112 432 tF a2
eco 4024 c2
spl 4213 c5
bsu 4216 48 -359 861 249 167 645 tF 51 c1
pmq 7223 d2
cbn 2493 c1
cbei 5623 d2
afn 2039 c4
ase 8197 b2
blo 1773 d3
mja 1729 47 -300 711 213 88 309 tF a2
mba 3943 d1
myr 3555 c2
pmg 1800 23 -124 774 180 48 377 tm a1
abra 1667 c3
scc 1805 d3
cds-cds.22 Intercalaires positifs continus. Fréquences Sc+ 31-400
Polynome de d°3
gen f3 -7 -5 R2 flex c+ R2’ eff3 clx+
rru tm 13 -61 957 156 41 1509 b1
rtb tF 70 -478 788 228 190 284 c3
pub SF -48 403 945 280 365 200 a1
cvi tF 5.3 22 915 -138 107 1621 b2
ade tF 2.5 38 957 -507 103 1490 b1
ant tF 4.8 28 888 -194 142 833 a2
eco tm 7.6 -18 934 79 61 1389 c2
spl tf 10.3 -50 915 162 30 1618 c5
bsu tF 12 -27 954 75 104 1424 c1
pmq Sm -13 112 937 287 51 3257 d2
cbn tm 8.8 -32 932 121 41 1171 c1
cbei Sf -13 15 935 38 8 2571 d2
afn tm 9.5 -42 904 147 45 791 c4
ase SF -18 182 976 337 149 2619 b2
blo tf 28 -174 897 207 36 786 d3
mja SF -6.2 87 964 468 105 623 a2
mba SF -6.7 100 789 495 209 2156 d1
myr tF 7.8 -12 897 51 86 1265 c2
pmg SF -35 327 973 311 286 510 a1
abra tF 21 -104 912 165 85 548 c3
scc SF -17 162 949 318 162 622 d3
  • Diagrammes 400 note: Cette note analyse le tableau des diagrammes 400 et son annexe des corrélations et faibles fréquences.
  • Classement: J’ai classé les 21 génomes suivant la pente des fréquences faibles des x+ de 1 à 30 pbs et suivant la forme de leurs diagrammes après la fréquence 30. J'ai obenu 4 groupes a b c d.
    1. Le groupe a: La pente des fréquences faibles est fortement négative et aboutit au minimum local d'abscisse 40 50. Il n'y a pas de maximum local supérieur à celui des faibles fréquences au-delà de ce minmum. La forme des 4 polynomes de d°3 sont tous de forme S, de force supérieure à 70, égale à la différence R2', R2 polynome moins R2 droite. Ce sont les génomes pub pmg mja ant. Les 2 1ers sont de forme S forte et les autres de forme S moyenne. Les génomes mja et ant ont un maximum à la fréquence 10 avec les taux respectifs de 121 et 136 ‰ et le maximum local à la fréquence 90 avec respectivement 69 et 58 ‰. Leur taux total des 1-30 ‰ sont respectivement 239 et 281 ‰ bien plus faibles que ceux de pub et pmg avec 317 et 326.
    2. Le groupe b: Ce sont dans l'ordre ade rru ase cvi. Ils présentent tous un minimum local vers 40-50 après une forte pente négatve comme le groupe a. Je les présentent ici comme mja et ant, fréquence du maximum des faibles suivie de son taux puis fréquence du maximum local au-delà du minimum des faibles suivie de son taux puis total du taux des faibles (1-30‰) puis la forme S ou tilde du diagramme suivi de sa force:
      - groupe a2, mja 10-121 90-69 239 Sm78, ant 10-136 90-58 281 Sm70.
      - groupe b1, ade 20-85 80-48 221 Sf39, rru 30-58 110-43 169 Sf20.
      - groupe b2, ase 10-59 70-57 135 tf25, cvi 10-62 70-91 112 tf30.
      + Note: dans la colonne m50x j'ai mis un minimum pour les b1 qui correspond au local 40-50 et un maximum pour les b2 qui ont aussi un minimum local à 40-50 mais leur maximum à 70 dépasse ou égalise celui des faibles. Ensuite les b2 changent de forme en passant du Sf des b1 au tf. Les formes faibles peuvent être rassemblées parce que très proches les unes des autres, il suffit d'un petit changement dans les effectifs pour passer de l'une à l'autre.
    3. Le groupe c: Ils sont caractérisés par un taux 1-30 ‰ très faible, inférieur à 71 ou par une pente positive des faibles, comme bsu et abra, quand le taux est élevé respectivement, 140 et 94 ‰. A ces taux très bas des fréquences faibles sont associés des pyramides à 3 ou 4 fréquences supérieures ou égales à 40 avec des taux maximum. Le groupe c est classé par la forme du diagramme dans l'ordre croissant Sf tf tm tF et non par la différence R2' entre le R2 du polynome et le R2 de la droite. R2' n'est pas adéquat pour ordonner la totalité des 21 génomes car il ne peut distinguer entre une forme S et une forme t, il ne représente que la force de la forme. Ainsi les ruptures naturelles apparaissent quand on change de forme, entre rru Sf et ase tf, entre cvi tf et bsu Sf et entre pmq tF et scc tm. Dans ce dernier cas la rupture est due au changement du classement de scc et blo (en gras) basé sur le taux élevé des fréquences faibles, 1-30 ‰, au lieu d'être nul comme pour les autres de la classe d. J'interprête scc et blo comme ayant leur pyramide à la fréquence 20, cad que les fréquences 10 et 30 ont des taux élevés aussi, ce qui les rend aussi réguliers comme mba cbei pmq. J'ai provoqué volontairement une seule rupture, celle entre rtb et afn, qui sont tous les 2 tF, mais afn se distingue par 2 pyramides au lieu d'une seule.
      - groupe c1, bsu cbn. Pyramide à 40 et 50. Taux 1-30 ‰ fort pour bsu à 140 mais avec une pente des 1-30 positive, taux faible pour cbn à 65 ‰. Le R2' est très faible, respectivement 18 Sf et 27 tf.
      - groupe c2, eco myr. Pyramide à 50 et 70. Taux 1-30 ‰ faibles 63 et 71 ‰. Le R2' est moyen, tm, respectivement 43 et 68.
      - groupe c3, abra rtb. Pyramide à 50 et 80. Taux 1-30 ‰ fort pour abra à 94 mais avec une pente des 1-30 positive, taux faible pour rtb à 51 ‰. Le R2' est fort, tF, respectivement 96 et 191.
      - c4 afn. Caractérisé par 2 pyramides à 40 et 140 au taux de 64 ‰ alternant avec 2 trous à 70 et 180 avec des taux très faibles, respectivement 15 et 6 ‰. Taux 1-30 ‰ faible 46 et R2' fort tF de 193.
      - c5 spl. Caractérisé par une pyramide à 80 et une forme régulière comme le groupe d puisque le passage de la fréquence 30 à 80 se fait doucement au contraire de tous les autres génomes du groupe c. Taux 1-30 ‰ faible 37 et un R2' le plus fort du groupe, tF, de 336 juste avant le 348 de mba du groupe d régulier, ce qui confirme sa régularité.
    4. Le groupe d: se caractérise par une abscence de pyramide et une progression lente de la fréquence 10 à la fréquence du maximum.
      - d1 mba. Il se caractérise par des déterminants du polynome et de la droite très faibles, 350 et 2, d'où le R2' de 348. Ceci est du au reste très élevé des effectifs au-delà de 400, 527 contre 705 pour 1-400. Le diagramme de 1 à 600 donne des valeurs plus conséquentes, respectivement, 465 156 309, avec un reste de 295 contre 937 pour 1-600. Ce dernier diagramme améliore le point d'inflexion qui devient normal avec un effectif de 354 pour 4823 sur 1-400. Le génome associe une forme tilde forte de 309, qui dénote sa régularité, tout en ayant un R2 très faible de 465 qui dénote une grande variabilité au contraire de cbei, qui a aussi un reste élevé au-delà de la fréquence 400, mais un R2' de 708 et un R2 de 712 sur 1-400 et 783 sur 1-600. Taux 1-30 ‰ faible de 45 seulement.
      - groupe d2, cbei pmq. Ils vont de pair, clostridia bacilli, comme pour le groupe c1 de cbn bsu, mêmes clades. Ces 2 paires se distinguent par leurs effectifs doubles en d2 par rapport à c1, respectivement, 946 1614 contre 489 1028. Alors que les c1 ont une pyramide chacun, les d2 n'en ont pas et sont réguliers avec des R2 élevés 712 878 contre 454 458. De même pour R2' qui passent de tF 708 813 à tf 27 pour cbn et Sf 18 pour bsu. Mais les taux 1-30 ‰ sont tous faibles sauf pour bsu qui a une pente positive, respectivement, 26 32 et 65 140.
      - groupe d3, scc blo. J'ai regroupé ces 2 génomes avec le groupe d à cause de leur régularité mais leurs taux 1-30 ‰ sont forts 118 89, non pas à cause d'une pente positive comme bsu et abra, mais parce que blo a une pyramide à 10 et scc à 30. C'est ce qui donne l'impression de régularité avec un R2 moyen, 690 728, malgré un R2' faible pour scc, tm 71 et fort pour blo, tF 138.
  • mnemo
    - forme: Classement par la forme de la courbe, à la place du classement génomique par la pente a37 de la droite. L'utilisation du polynôme de d°3 sert à repérer un renflement après le minimum local des diagrammes c+ 1-400. J'obtiens alors les diagrammes c+ 31-400 que je peux comparer à ceux de x+ 31-400. Les diagrammes c+ 40 montrent la préférence de certaines longueurs autour de 12 pbs pour les contrôles des gènes. C'est dans les diagrammes 31-400 qu'on peut deviner qu'il y a d'autres séquences privilégiées pour d'autres types de contrôle, cela se présente par des pointes au niveau des renflements mais ne désigne pas une fréquence déterminée parce que les abscisses sont des plages de 10 fréquences.
    + détailler chaque classe et comparer les classes.
    - formes du tableau 22, c+31-400: Les c+1-400 sont toutes S, sur ce tableau 8 conservent cette forme, mja pmg pub scc mba pmq ase et cbei avec un R2' de 8, les 13 autres génomes sont de forme tilde. Le taux des x+ sont nettement améliorés dans les diagrammes 31-400 par rapport à celui des 1-400. Et avec la forme tilde chez 13/21 de 31-400, ceci montre que c+ apporte aussi des renflements comme les x+.
    - Le classement effectué lors de l'étude des pentes a37 et fait sur les 3 critères suivants:
    + in%, %positifs/total ADN
    + moy, moyenne des fréquences sur 0-200
    + rap, rapport des totaux des fréquences 10-370/0-100
    + a donné l'équivalent des classes a b c d des formes x+1-400, suivant l'ordre du critère moy: à la classe inférieure de a37, pub pmg ant mja correspond la classe a, pub pmg ant mja; à la classe supérieure de a37, myr rtb spl - cbei mba blo pmq, correspondent les classes c - d, myr rtb spl - mba cbei pmq blo; à la classe intermédiaire de a37, rru ase cvi ade - eco bsu cbn afn - scc, correspondent, respectivement, la classe b ade rru ase cvi, la classe c bsu cbn eco afn et la classe d avec scc.
    - bornes: pourquoi la plage de 1 à 400, alors que j'ai étudié 1 à 600 pour les courbes puissances, 1 à 370 pour le classement génomique? Au delà de 400 le profile ne change pas et 400 est la plupart du temps un intercalaire cds-rRNA23.
    - statistiques: Les diagrammes 400 ne cherchent pas à définir une statistique mais juste à nommer et comparer 2 génomes avec le signe du coefficient de x3 (forme S ou tilde), R2' obtenu en faisant la différence de R2 du polynôme avec celui de la droite et enfin le point d'inflexion du polynôme. Les diagrammes d'un génome reflète une organisation de l'ADN qui devrait restée la même de génération en génération. Ceci est à confirmer en analysant plusieurs séquençages puisque j’ai pu constater avec bsu et lmo que les intercalaires entre gènes de tRNA varient beaucoup entre les 2 génomes alors que les clusters des gènes rRNA et tRNA ont la même configuration.
    - corrélations: Une forte corrélation c+/x+ indique que le changement de brin pour constituer le complément ne modifie la longueur des intercalaires, une corrélation nulle qu'il y a beaucoup de modifications et une corrélation fortement négative que le processus de changement de brin prélève un intercalaire cds-cds en continu et le met en discontinu.
    - Conséquences pour les clusters rRNA-tRNA, intercalaires tRNA-cds et cds-rRNA23
    - au départ les cumuls des intercalaires tRNA-cds par génome, et recherche de cds intra cluster rRNA-tRNA.
    - comparaison entre 2 génomes semblables:   rru ade   rtb cvi   pub seul   cvi ase   ade pmg   ant ade   eco cbn   spl myr   bsu eco   pmq cbei   cbn cvi   cbei afn   afn rtb   ase pmg   blo abra   mja pmg   mba cbei  myr abra  pmg pub  abra pmg  scc ase.
Les fréquences des intercalaires positifs cds-cds. Corrélations 400 et faibles fréquences
modifier
  • Lien tableur: Les fréquences des intercalaires positifs cds-cds. Corrélations 400 et faibles fréquences.
  • Légende: ces tableaux sont la suite de ceux des diagrammes 400, cds-cds.11 12 21 22.
    - gen: pour génome. Le 1er tableau cds-cds.31 pointe sur le génome au chapitre "gen intercalaires positifs S+". Au lien du tableur de ce dernier se trouvent les effectifs, dont eff eff3 teff de ces diagrammes 400. Le total eff représente le total de la fréquence 1 à 400 (cds-cds.11 et 21), eff3 de 31 à 400 (cds-cds.12 et 22) et de 51 à 400 pour bsu (colonne f3, tF51) et teff le total du génome, positifs, zéros et négatifs compris. Le total teff est la somme des 2 colonnes x et c du tableau cds-cds.32 sous la rubrique teff. Le x+ correspond aux diagrammes des discontinus et le c+ aux continus. La colonne "gen de cds-cds.11" pointe sur la fiche du génome pour ses diagrammes. La colonne "gen de cds-cds.32" pointe sur son diagramme 40 de la fréquence 1 à 40, voir le tableau synthétique des diagrammes 40 des cds-cds positifs continus.
    - pour les corrélations du tableau cds-cds.31 et les fréquences faibles du tableau cds-cds.32, voir la légende de cvi.
    - clx+: c'est le classement des génomes à partir du tableau cds-cds.11, d'abord avec R2' puis f3. Dans la classe a les génomes ont un minimum et de forme S. Dans la classe b les génomes sont réguliers et de forme tilde. Dans la classe c les génomes ont un mmaximum et de forme tilde sauf pour bsu dont la forme Sf (R2' 18) très faible peut être confondue avec un tilde. Ce classement est reporté tel quel dans les autres tableaux.
  • Calculs des corrélations: Le coefficient de corrélation est fait avec LibreOffice calc sur les colonnes fx fc des effectifs du lien du génome, de la ligne 50 à ligne n ce qui va de la fréquence 41 à n, avec n égale 200 250 400 600. Les colonnes effectifs ici correspondent à la ligne diagr de fx et fc. Les références à ce tableau utilisent surtout la colonne 250.
    - J’ai fait les corrélations pour les 21 génomes entre c+/x+ 41-400, 41-250 et 41-200. Avec 41-400 les corrélations peuvent être très fortes car elles font intervenir la queue de la courbe où les effectifs sont faibles et la distance par rapport à la discontinuité direct/complement est si grande que le mécanisme de formation a peu d’influence. Avec 41-200 le nombre de points de comparaison, de 16, est faible. Aussi j’utilise les corrélations entre c+/x+ 41-250 avec 21 lignes de comparaison. Il y a ainsi 13 génomes faiblement corrélés ou carrément anti corrélés avec un coefficient inférieur à 0.611 et 8 fortement corrélés avec un coefficient supérieur à 0.758.
cds-cds-c. Diagrammes 400 des intercalaires cds-cds. Corrélations et faibles fréquences.
cds-cds.31 Intercalaires positifs. Diagrammes 400. Corrélations x+/c+.
eff Corrélations
gen x+ c+ 41-250 41-200 diff 1-250 mini clx+
rru 874 2056 611 193 418 792 min40 b1
rtb 118 402 148 -105 253 -165 min30 c3
pub 218 537 883 857 26 852 min20 a1
cvi 1008 2320 891 858 33 549 min30 b2
ade 1229 2242 758 624 134 897 min50 b1
ant 601 1616 538 271 267 886 min40 a2
eco 1003 2130 440 296 144 -64 min20 c2
spl 1071 2215 784 735 49 -202 min10 c5
bsu 1028 2444 282 8 274 257 min10 c1
pmq 1614 4164 -651 -832 181 -825 min10 d2
cbn 489 1701 508 548 -40 -112 min20 c1
cbei 946 3399 -377 -510 133 -646 min10 d2
afn 328 1323 101 -26 127 -407 min10 c4
ase 2398 3558 940 922 18 725 min40 b2
blo 448 993 537 406 131 255 min20 d3
mja 406 1047 571 326 245 857 min30 a2
mba 705 1651 -221 -330 109 -477 min10 d1
myr 828 2081 764 649 115 41 min20 c2
pmg 559 895 802 728 74 915 min40 a1
abra 256 934 797 716 81 59 min10 c3
scc 416 961 530 440 90 49 min10 d3
cds-cds.32 Intercalaires positifs. Diagrammes 400. Faibles fréquences.
1-30 ‰ teff 0 ‰ <0 ‰ eff40 corel40 classe
gen x+ c+ x+/c+ x c x c x- c- x+ c+ x+/c+ clx+
rru 169 266 0.64 1037 2749 1 4 71 222 175 630 17 b1
rtb 51 294 0.17 189 604 5 7 21 162 8 131 -81 c3
pub 317 628 0.50 327 980 40 59 281 389 88 367 715 a1
cvi 112 301 0.37 1171 3111 4 3 59 221 130 815 582 b2
ade 221 335 0.66 1412 3052 8 6 72 234 304 876 459 b1
ant 281 485 0.58 714 2381 13 24 116 285 186 836 575 a2
eco 63 348 0.18 1169 2855 11 6 80 226 126 821 -119 c2
spl 37 270 0.14 1313 2900 1 6 9 143 69 683 -342 c5
bsu 140 333 0.42 1125 3091 2 8 31 186 302 936 -432 c1
pmq 32 218 0.15 1927 5296 3 5 22 140 68 1156 -207 d2
cbn 65 312 0.21 553 1940 2 5 17 86 56 620 -382 c1
cbei 26 244 0.11 1219 4404 0 4 9 88 35 954 272 d2
afn 46 402 0.11 350 1689 6 5 11 179 36 580 -369 c4
ase 135 264 0.51 3031 5166 7 3 116 252 389 1165 346 b2
blo 89 208 0.43 518 1255 4 1 35 167 54 241 -109 d3
mja 239 405 0.59 495 1234 20 9 113 132 113 474 502 a2
mba 45 214 0.21 1255 2688 1 8 18 114 51 428 -74 d1
myr 71 392 0.18 999 2556 5 5 20 110 97 899 -78 c2
pmg 326 430 0.76 692 1108 16 31 137 143 196 449 703 a1
abra 94 413 0.23 279 1388 4 9 29 295 41 420 -243 c3
scc 118 353 0.33 485 1320 4 5 58 242 60 389 -177 d3
  • Note:
    - corrélations fortes
    - ade cvi ase min40 les corrélations sont élevées et constantes ade Sf39 ase tf25 cvi tf30
    - pmg pub idem mais SF
    - myr abra spl corrélations fortes mais nulles avec 1-30 myr tm68 abra tF96 spl tF336. Donc myr est à la limite des tF parce que avant eco tm43
    - corrélations 500
    + rru ant mja S 20 70 78
    + scc blo t 71 138
    + cbn eco t 27 43
    - corrélations faibles
    + bsu afn rtb 282 148 101 Sf18 tF328 tF118
    - corrélations négatives
    + mba cbei pmq 221 377 651 tF > 348
    - Les fréquences faibles
    + Classe a: Par la construction de la classe a le rapport x+/c+ de leurs fréquences faibles est très élevé compris entre 0.50 et 0.76. Les taux des zéros suivent avec un maximum de 99 ‰ pour pub, puis 47 37 29 pour pmg ant mja
    + Classe b: Se comporte comme la classe a pour le rapport x+/c+, très élevé 0.66 0.64 0.51 pour ade rru ase, seul cvi descend à 0.37. Par contre les zéros ne suivent pas, leurs taux sont inférieurs à 14 ‰ (ade) contre 29 ‰ pour le plus bas de la classe a, et descendent jusqu'à 5 ‰ pour rru.
    + Classe c: Les x+/c+ sont tous faibles, inférieurs à 0.23 sauf pour bsu avec 0.42 mais qui s'explique par la pente positive des 1-30. Les zéros ne suivent pas, tous inférieurs à 17 ‰ (eco) et 2 sur 8 ont 7 ‰, cbn et spl.
    + Classe d: Les sous classes d1 d2 se comportent comme les c1 puisqu'ils des taux des fréquences 1-30 peu élevé comme eux. Le rapport x+/c+ est inférieur à 0.21 et les zéros ne suivent pas, moins de 9 ‰. La sous classe d3 se comporte comme la sous classe b2 avec des rapports x+/c+ équivalents, 0.43 0.33 contre 0.51 0.37 pour b2. La différence avec b2 c'est que les 1-30 constituent une pyramide alors que celles de b2 sont sur une pente négative. Pour les d3 et b2 les zéros ne suivent pas, moins de 10 ‰.
Les fréquences des intercalaires positifs cds-cds. Taux des x+ dans les diagrammes 400
modifier
  • Lien tableur: Les fréquences des intercalaires positifs cds-cds. Taux des x+ dans les diagrammes 400.
  • Légende: Les effectifs x+ et c+ des 1-400 (x+% 1) sont les colonnes eff des tableaux 11 et 21 des diagrammes 400. Ceux des 31-400 (x+% 31) sont les colonnes eff3 des tableaux 12 et 22. Pour les génomes n'ayant pas de 31-400 voir leur tableur au paragraphe des effectifs (derrière ligne, t30) en point sur le lien de la colonne gen du tableau 11. Les effectifs x+ et c+ des totaux (x+% t) sont extraits du tableau des positifs et négatifs.
  • Note:
    - colonne t-1, différence des taux calculés sur le total et non de la fréquence 1-400. Les génomes rtb et mba ont beaucoup d'intercalaires supérieurs à 400, voir leurs fiches.
    - colonne 31-1, différence des taux calculés sur les fréquences 1-400 et 31-400: Le génome pub a la différence la plus élevée parce que le taux de x+1 est affaibli par les faibles fréquences et notamment les zéros, voir sa fiche. En 31-400 il se comporte comme pmg de la même classe a3, mais aussi comme ase et eco. Après pub ce sont les classes c2 et c3 qui sont affaiblies par les fréquences faibles, différence 31-1 de 8.2 à 9.3.
cds-cds-t.23 Diagrammes 400 des intercalaires cds-cds. Taux des x+
gen x+ c+ %x+ 1 x+ c+ %x+ 31 x+ c+ %x+ t t-1 31-1 clx+
rru 874 2056 30 726 1509 32 972 2131 31 1.5 2.7 b1
rtb 118 402 23 112 284 28 189 505 27 4.5 5.6 c3
pub 218 538 29 149 200 43 239 595 29 -0.2 13.9 a1
cvi 1008 2320 30 895 1621 36 1115 2410 32 1.3 5.3 b2
ade 1229 2242 35 958 1490 39 1320 2325 36 0.8 3.7 b1
ant 601 1616 27 432 833 34 639 1694 27 0.3 7.0 a2
eco 1003 2130 32 940 1389 40 1076 2210 33 0.7 8.3 c2
spl 1071 2215 33 1031 1618 39 1304 2482 34 1.8 6.3 c5
bsu 1028 2444 30 884 1629 35 1092 2513 30 0.7 5.6 c1
pmq 1614 4164 28 1562 3257 32 1893 4535 29 1.5 4.5 d2
cbn 489 1701 22 457 1171 28 543 1776 23 1.1 5.7 c1
cbei 946 3399 22 921 2571 26 1213 4011 23 1.4 4.6 d2
afn 328 1323 20 313 791 28 349 1386 20 0.2 8.5 c4
ase 2398 3558 40 2072 2619 44 2726 3819 42 1.4 3.9 b2
blo 448 993 31 408 786 34 502 1044 32 1.4 3.1 d3
mja 406 1047 28 309 623 33 447 1063 30 1.7 5.2 a2
mba 705 1651 30 673 1297 34 1237 2378 34 4.3 4.2 d1
myr 828 2081 28 769 1265 38 981 2270 30 1.7 9.3 c2
pmg 559 895 38 377 510 43 604 942 39 0.6 4.1 a1
abra 256 934 22 232 548 30 273 977 22 0.3 8.2 c3
scc 416 961 30 367 622 37 462 993 32 1.5 6.9 d3
Les fréquences des intercalaires cds-cds positifs continus. Diagrammes 40
modifier
  • Lien tableur: Les fréquences des intercalaires cds-cds positifs continus. Diagrammes 40.
  • Diagrammes:   propro1bacbac1pr-bc1totalLes données.
  • Légende:
    - ase: mini3, tous les modulos 3 de 6 à 33 sont des minina locaux.
    - pub: Sa courbe de tendance est comme celle du diagramme Sc+ 400, un polynôme de d° 3 avec un R2 de 899 et un coefficient de la variable x3 de -0.0039 donc de forme S.
    - Les polynômes de d° 15: sont propres aux fc40 et présentent un creux brutal à l'abscisse 7 environ, min1 et de coordonnée min, suivi d'un sommet élevé d'abscisse max1 et de coordonnée max. La pente entre ces 2 points varie peu d'un génome à l'autre avec une moyenne de 7.8 et un écart de 2.4 (m/e=3.2). Sont écartés de cette moyenne blo rtb et pub. Le génome ant présente un max très élevé, ramené à l'abscisse 10 au lieu de 9 son ordonnée baisse à 48 au lieu de 88 pour l'abscisse 9 et la pente devient moyenne comme pour les autres génomes à 11.3. L'autre versant du creux est aussi abrupt de pente pente0, avec un sommet élevé d'abscisse mx1 et de coordonnée mx.
    - type: c'est le type de courbe de tendance, pro ou pr pour proteobacteria, bac ou bc pour les bacilli et les clostridia.
    - R2: coefficient de détermination de la courbe de tendance.
cds-cds.2 Intercalaires cds-cds positifs continus. Diagrammes 40
Sc+ 40 Diagrammes polynôme de d° 15 Pourcentage des tranches de 7 fréquences Effectif des tranches de 7 fréquences
gen R2 min1 max1 min max pente mx1 mx pente0 diagr type gen 1-7 8-14 15-21 22-28 29-35 1-7 8-14 15-21 22-28 29-35 total
rtb 721 5 8 2 7 1.7 4 13 -10.7 131 pr1 rtb 39 27 18 10 6 48 33 22 13 8 124
pub 981 6 8 13 13 0 2 58 -11.0 367 pr2 pub 63 17 8 6 6 223 61 27 21 20 352
rru 882 7 11 11 34 5.8 4 43 -11.3 630 pro1 rru 32 28 13 15 11 191 167 78 86 66 588
cvi 897 6 10 13 50 9.3 1 58 -9.0 815 pro cvi 30 30 17 11 11 230 232 133 80 86 761
ade 929 5 9 19 51 8.0 2 63 -14.7 876 pro ade 30 32 15 12 11 247 267 122 95 93 824
ant 923 7 9 14 88 37.0 1 109 -15.8 836 pro ant 37 39 14 5 6 297 316 112 40 45 810
eco 894 5 9 13 61 12.0 2 54 -13.7 902 pro eco 27 35 17 12 8 232 295 146 103 71 847
spl 881 6 10 13 33 5.0 2 53 -10.0 683 pro1 spl 30 31 15 13 11 193 202 94 86 73 648
bsu 897 8 12 7 53 11.5 1 41 -4.9 935 bac bsu 22 25 28 15 11 189 220 245 128 96 878
pmq 758 9 14 10 45 7.0 1 52 -5.3 1155 bac1 pmq 25 19 22 18 17 255 192 224 181 177 1029
cbn 891 8 12 9 32 5.8 1 37 -4.0 620 bac1 cbn 23 24 23 18 12 134 136 133 101 67 571
cbei 873 7 12 8 51 8.6 1 55 -7.8 954 bac cbei 22 27 25 15 11 194 242 220 138 101 895
afn 829 7 12 5 46 8.2 1 38 -5.5 580 bac afn 25 30 26 13 7 138 167 143 71 37 556
ase 827 6 10 28 67 9.8 1 60 -6.4 1165 bac-a ase 29 28 15 12 16 307 298 158 131 166 1060
blo 636 7 10 4 11 2.3 2 15 -2.2 241 bc1 blo 28 23 22 17 10 62 52 50 37 23 224
mja 670 6 9 4 32 9.3 4 32 -14.0 474 pro-a mja 23 31 22 13 10 104 143 102 61 45 455
mba 732 7 10 4 19 5.0 2 31 -5.4 428 bac1-a mba 32 22 20 13 12 124 87 79 50 48 388
myr 922 7 12 23 46 4.6 2 78 -11.0 899 pro1-a myr 42 25 16 11 7 355 213 133 93 61 855
pmg 776 7 9 10 27 8.5 2 27 -3.4 449 bac-b pmg 35 25 16 12 11 146 105 65 50 46 412
abra 895 7 12 4 33 5.8 1 58 -9.0 420 pro1 abra 41 30 14 10 6 165 119 56 39 24 403
scc 855 6 9 4 20 5.3 1 31 -5.4 389 bac1-b scc 31 30 18 13 8 113 110 66 46 29 364
Les fréquences des intercalaires cds-cds positifs discontinus. Diagrammes 40
modifier
Poly 3	-	-4	-4	-	-
fx40	R2	x3	x2	flex	f3°
rru	253	3	-289	32	t
cvi	499	3	-108	12	t
ade	443	4	-337	28	t
ant	574	-2	167	28	S
eco	646	202	-7426	18	Cc
bsu	789	7	-231	11	S
ase	315	71	-5211	37	Cc
mja	467	-4	313	26	S
pmg	831	-10	808	27	S
cds-cds.1 Intercalaires cds-cds positifs discontinus, Diagrammes 40
gen poly3 mod3 tot diagr note
rru 253 5 12 175
rtb 8
pub 88
cvi 499 8 11 130
ade 443 8 11 304
ant 574 1 9 186
eco 647 6 11 129 parabole
spl 69
bsu 789 5 9 302 croit
pmq 68
cbn 56
cbei 35
afn 36
ase 315 10 17 389 P15 611
blo 54
mja 467 4 12 113
mba 51
myr 97
pmg 831 5 7 196 décroit
abra 41
scc 60

Les intercalaires tRNA-cds synthèse

modifier
  1. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir cheminement de ma réflexion dans la genèse des gènes de tRNA et la référence à E.Coli dans Notes.
  2. Une autre idée c'est que les cds-rRna-cds sont orientés, est-ce que c'est le cas des cds-tRNA-cds aussi? Il ne faut pas oublié que les tRNAs s'auto apparient ce qui crée des contraintes lors de la gestion de l'ADN: réplication transcription réparation recombinaison et insertion des éléments mobiles contenant des tRNAs.
Les intercalaires tRNA-cds, dans les cumuls des génomes
modifier
- Exemple de vha
- Quand j'ai commencé à étudier les tRNAs (voir le cheminement ci-dessus) je listais séquentiellement juste les blocs de tRNAs avec ou sans rRNA, sans les cds bordant ces blocs.
- Les caractéristiques des blocs à rRNAs m'ont poussé augmenter de plus en plus le nombre de génomes à étudier et du coup j'ai commencé à trouver des cds à l'intérieur de ces blocs. Mais souvent c'était de petites protéines hypothétiques. Le lien avec l'opéron d'E.coli associant une protéine et un tRNA devenait évident. La 1ère question qui s'est imposée à moi, alors, est: est-ce que les gènes protéiques ne seraient pas créées dans ces blocs lors des remaniements chromosomiques? De nombreux remaniements des blocs à rRNAs me sont apparus quand j'ai trouvé 2 génomes très proches dont l'un des 2 présente de nombreux blocs identiques avec l'autre, mais cassés et souvent les séquences de tRNAs sont conservées. Ceci me confortait dans mon hypothèse de genèse. Et les tRNAs peuvent, aussi, intervenir dans ce processus puisqu'ils peuvent créer des contraintes comme les rRNAs puisqu'ils peuvent s'auto apparier. Aussi j'ai commencé à border mes blocs de tRNAs, avec ou sans rRNAs avec 2 cds.
- Du coup, étant donné que les blocs à rRNA sont orientés dans le sens 16s-23s-5s, qu'ils soient en direct ou en complément, j'ai pu constater rapidement que les intercalaires cds-16s étaient quasiment, tout le temps, plus grands que les intercalaires avec le cds dans 5s-aas-cds, où aas désigne l'absence ou la présence d'un ou plusieurs gènes de tRNAs.
- Comme les blocs à tRNAs, seuls, présentaient aussi cette dissymétrie des intercalaires avec les 2 cds, les bordant, se posait aussi la question de leur orientation. Mais on ne peut pas décider de cette orientation puisqu'il n'y a pas de repère interne au bloc comme pour les blocs avec les 3 rRNAs.
- Au début j'ai commencé à faire la moyenne de ces intercalaires et à établir leurs fréquences pour chaque génome. Puis j'ai fait de même avec les petits intercalaires en supposant que l'orientation allait du grand au petit comme pour les blocs à rRNAs. C'est ainsi que j'ai créé la colonne cds pour les 2 intercalaires confondus et la colonne cdsd des petits seulement, pour cds dirigé. A l'époque je ne prenais pas en compte les négatifs, ne distinguais pas les continus des discontinus et les tRNA-cds des rRNA-cds. Voici l'exemple de vha.
- Quand j'ai voulu synthétiser les résultats de ces intercalaires avec les moyennes je trouvais de grandes variations entre les génomes (voir ici le récapitulatif des 51 génomes). Ces intercalaires semblaient dépendre des génomes, donc de leurs processus de gestion de l'ADN, et du coup l'orientation que je supposait n'avait plus de sens. Il fallait à tout prix comparer ces intercalaires à tout autre intercalaire et notamment les plus nombreux, les intercalaires cds-cds.
Les intercalaires tRNA-cds, récapitulatif
modifier
Les méthodes de prélèvement dans NCBI
modifier

Le lien du texte NCBI avec sa date est indiqué dans chaque "génome.fréquences". J'applique la méthode sur ce texte pour ne laisser qu'une ligne par gène, ce qui correspond à l'étape 8 de cette méthode. J'ai sauvegardé ces textes épurés dans les annexes Artb génomes (rtb pub abra mja pmg blo scc afn), Acbn génomes (cbn ant myr rru mba), Aspl génomes (spl cvi bsu ade eco), Apmq génomes (pmq cbei ase).

  1. - méthode initiale: méthode sans tenir des compléménts. Ce sont les 1ers tableaux,
  2. - méthode des discontinus, méthode avec les compléments. Elle est utilisée dans tous les autres tableaux ainsi que pour la comparaison cds-cds / tRNA-cds.
  3. - méthode pour tout intercalaire: autres, cds-cds et tRNAs-cds (+ - c x). Le tableau de la méthode. Les tableaux contenant les autres intercalaires (ac ax):
Les intercalaires cds-cds
modifier
Classement des génomes, périodicité et recouvrement chez les négatifs.
  1. - Les fréquences par génome: intercalaires positifs et négatifs, continu-discontinu confondus
    • Exemple rtb après traitement par la méthode initiale, jusqu'à l'étape 24. Ce tableau "genome les fréquences" contient
      + La date du NCBi se trouve à la fin de la légende,
      + Sous tableau des plages des intercalaires (leurs historiques sont dans la légende 2 du tableau des fréquences) avec leurs effectifs, pourcentages, moyennes et variances. Ce sous-tableau contient aussi la taille du chromosome en pbs (ADN) et le total et pourcentage des intercalaires cds-cds positifs, indiquant les espaces inutilisés.
      + 3 colonnes de fréquences avec leurs 3 colonnes des effectifs par fréquence. Ces fréquences m'ont permis d'apprécier leurs courbes et notamment j'ai repéré la tranche de fréquences 26-370 (fréquence5) qui caractérise par une droite le génome et non par une courbe puissance. En utilisant le tableur on peut reproduire la droite et les puissances jusqu'à la fréquence 600 (fréquence6) ou 1200 (fréquencez) suivant l'importance du génome. Une colonne de pourcentage est accolée à frequence6 qui reprend ceux du sous-tableau, et j'y ait ajouté le pourcentage des intercalaires de 1 à 100 qui est utilisé pour le classement des génomes qui suivent.
      + 2 colonnes des fréquences unité avec leurs 2 colonnes des effectifs. Fréquence-1 m'a permis de repérer la périodicité ternaire des négatifs et la fréquence1 dont j'ai cherché la périodicité mais paraît plutôt apériodique, elle me servira plus tard pour comparer ces effectifs à ceux des tRNA-cds positifs dans la même gamme.
      + 2 colonnes d'adresses avec leurs intercalaires, pour les extrêmes des positifs et des négatifs. Les négatifs comportent une colonne de discontinuité (comp). Ils m'ont permis d'aborder les recouvrements de 2 cds étudiés plus en détail dans le chapitre suivant des discontinuités. Pour compléter toutes les adresses j'ai ajouté une colonne, fréquencef, qui fait le lien entre les extrêmes positifs et les fréquences de frequencez ou frequence6.
    • Les droites des diagrammes fréquence5: Pendant la construction des tableaux des fréquences de chaque génome, comme indiqué ci-dessus, j'ai fait les diagrammes frequence6 et il m'est apparu rapidement que je pouvais les diviser la courbe de tendance, proche d'une hyperbole, en 3 parties distinctes: la gamme de 0 à 30 de pente très élevée et proche de la branche de l'hyperbole, la gamme de 30 à 370 très accidentée ressemblant plutôt à une droite qu'au milieu de l'hyperbole, et enfin la gamme à partir de 370 jusqu'à 600 de pente très faible et proche de la branche de l'hyperbole. Comme cette dernière gamme peut être prolongée au-delà de 600 et même de 1200 pour certains génomes, la gamme du milieu existe pour tous les génomes, c'est une droite facile à comparer avec sa pente et pourrait contenir la plupart des séquences de contrôle et donc avoir un sens fonctionnel. Effectivement d'après le tableau des fréquences,
      + Les coefficients de détermination de ces droites sont très confortables puisque 18 sont supérieurs à 0.75 jusqu'à 0.91 et seulement 3 sont inférieurs à 0.64, 0.63 pour pub, 0.58 pour rtb et 0.46 pour mba.
      + Cinq clades à 2 génomes chacun ont souvent des pentes très proches. Le seul clade à 2 génomes avec les 2 pentes très différentes est celui des actinomycètes, ase pente 43 et blo pente 10. Trois clades ont les 2 pentes presque identiques, gamma 20 (eco spl), bacilli 29 (bsu pmq) et clostridia 15 (cbn cbei). Deux clades diffèrent légèrement pour leurs pentes, alpha rtb 3 et pub 6, archées mja 10 et mba 6.
      + Sur les 6 clades à 2 génomes un seul, gamma, a les 2 nombres de cds (n-cds) presque équivalents, les 5 autres ont des cds très dissymétriques. Ce qui pourrait laisser croire que la pente est indépendante de la taille du génome, en tout cas à l'intérieur de chaque clade.
      + Une seule discordance à ce schéma, dans le clade alpha, rru (pente 19) est très différent de pub (6) et rtb (3).
      + En considérant la totalité des 21 génomes la pente se révèle en fait proportionnelle à la taille du génome
      + Les courbes puissance
    • Le classement des génomes.
  2. - Les fréquences par génome: intercalaires négatifs continus et discontinus, symboles Sc- Sx- .
    • Caractéristiques et comparaison avec les tRNA-cds, Notes
    • Les recouvrements
    • La périodicité ternaire des petits intercalaires inférieurs à 80 paires de bases met en exergue l'état vibratoire des 2 cds en recouvrement.
  3. - Les fréquences par génome: intercalaires positifs continus et discontinus, symboles Sc+ Sx+ .
  4. - Récapitulation de tous les intercalaires

Les intercalaires tRNA-tRNA

modifier

Intercalaires entre tRNA et rRNA en continu discontinu

modifier
  • Lien tableur: Intercalaires entre tRNA et rRNA en continu discontinu.
  • Légende
    - c x + - % pour continu, discontinu, positif, négatif, x+/total ou nombre de génomes à x+ et c- sur le total.
    note: c-, 1 seul continu négatif, son intercalaire est d'une paire de base seulement (-1)
    - type:
    tRNA, intercalaires entre tRNAs dans un bloc sans rRNA;
    t-rRNA, intercalaires entre tRNAs à l'extérieur d'un bloc rRNA
    rRNA, intercalaires rRNA-rRNA et tRNA-rRNA d'un bloc rRNA
    aa interne, tRNA-tRNA interne d'un bloc rRNA
    4*: Ces 4 intercalaires x+ sont dus au grand nombre de remaniements des blocs rRNA du génome cdc8. 23s' et 16s' sont des rRNA fonctionnels mais tronqués.
tRNA. Intercalaires entre tRNA et rRNA en continu discontinu
tRNA1. Les totaux de 50 génomes
type total c+ x+ c- x- x+%
tRNA 1745 1714 19 1 0 1,1
t-rRNA 814 810 4* 0 0
rRNA 1043 1043 0 0 0
aa interne 127 127 0 0 0
genomes 50 50 13 26
4* cdc8 aaa-5s 23s’-16s 16s’-16s’ 16s-5s
adresse 4229303 4229975 4189696 4179150
tRNA2. discontinus
gen x+ gen x+
ase 1 -
ksk 1 vpb 1
mja 2 rtb 2
mba 1 rpl 2
mfe 1 agr 2
fps 1 aua 4
npu c- lbu 1

Intergen51. Intercalaires entre gènes pour 51 génomes

modifier

Intergen51. Introduction

modifier
  • Liens aux réflexions sur la genèse des gènes tRNA:
    - Réflexion sur la genèse des gènes tRNA
    - genèse et duplication dans les 3 domaines
    - Duplications dans les clusters RNA chez les bactéries, étude de 16 génomes. L'étude de départ avec la comparaison bsu-lmo et eco-eal auxquels j'ai ajouté 12 autres regroupés par leur taux de %GC,   cbc cbn cle lam  spl lmo bsu vpb  eal eco afn blo  cvi ade sma ksk.
    - organisation de l'opéron tac-tac-tpr chez eco-eal
    - Comparaison entre les 2 types de duplication.
    - Similitude des comportements des codons dans les 3 domaines
    - tRNA-cds: recherche de l'équivalent de l'opéron tac-tac-tpr. D'où les génomes avec les cds autres que les 1ers 16 étudiés pour les duplication cités ci-dessus. Exemple de rru avec la note que j'ai copié pour tous ces nouveaux génomes:
    + Note: Pour les génomes des annexes j'ai relevé les intercalaires entre tRNAs et entre ceux-ci et les cds qui leur sont adjacents. L'exemple est celui de rru du clade alpha. L'idée de départ de ces prélèvements est la recherche d'opérons formés de tRNA et de protéine comme dans le cas d'E.coli: l'intercalaire entre le tRNA et la protéine devrait être faible. Voir l'exemple d'eco (remarque @3) avec tac-tac-tpr et aca-tac-gga-acc-tufB.
    - tRNA-cds dans les cumuls: voir les réflexions dans Les intercalaires tRNA-cds synthèse et les cumuls.
    - Les calculs: La faiblesse des tRNA-cds est abordée dans comparaison continu-discontinu et sa note ainsi que le chapitre sur leurs raretés. Les calculs sont faits dans tRNA-cds calcul suivi de la comparaison avec les moyennes. J'ai supprimé ces calculs puisqu'ils se fondaient sur l'hypothèse que les intercalaires CDS-CDS et tRNA-CDS étaient analogues.Ce qui n'est pas le cas puisque les courbes montrent clairement la gamme de fréquence de 1 à 30 pdbs est quasiment nulle chez les seconds et majoritaires chez les 1ers. En plus les CDS-CDS sont la somme de continus et de discontinus.
  • Intercalaires entre gènes pour 51 génomes:
    - J'ai commencé à étudier les intercalaires entre gènes quand je me suis intéressé aux longs clusters de rRNA et tRNA chez bsu et lmo, 2 génomes qui reproduisaient à peu près les mêmes séquences dans leurs clusters mais dont les intercalaires courts entre gènes tRNA variaient beaucoup d'un génome à l'autre. J'attribuais ce comportement à la structure en trèfle des tRNAs dont les gènes pourraient s'auto-apparier lors des réparations, des transcriptions et de la réplication. La contrainte pour conserver le gène et éviter l'auto appariement devrait se résoudre par la modification des intercalaires entre les gènes de tRNA. Article qui introduit les opérons longs de tRNA et les opérons mixtes de tRNA et de protéines, page 17 [64].
    - Cette étude des clusters de rRNA et tRNA est la suite de ma réflexion sur les 1ères étapes de l'évolution moléculaire à l'origine de l'émergence de la vie. Le cheminement qui m'a conduit à l'étude de ces clusters est détaillé dans l'article sur la genèse des gènes de tRNA.
    - L'étude des clusters de tRNA et rRNA comprend l'étude de ces séquences, c'est ce que j'ai fait dans les fiches, mais aussi l'étude des intercalaires que j'ai fait dans les annexes. Or l'article qui m'a poussé à étudier ces clusters s'intéressait au fait qu'un opéron chez E.Coli contenait 2 tRNAs et un gène protéique. Ceci m'a poussé à étendre mes investigations sur les intercalaires, à ceux entre tRNA et CDS. Et pour apprécier les longueurs des intercalaires tRNA-CDS j'ai du les comparer à ceux entre 2 CDS.
    - J'ai rencontré de nombreuses difficultés dans les décomptes des intercalaires car au début je ne savais pas ce que je devais rechercher et donc les décomptes étaient au début manuels, puis petit à petit j'utilisais de plus en plus les traitements par lot. Et l'erreur qui m'a obligé à tout refaire, pour les décomptes que je présente dans ce chapitre, c'est que je ne distinguais pas entre les décomptes avec ou sans complément. Or la rareté des intercalaires tRNA-CDS de petites tailles et nuls ou négatifs m'a poussé à considérer la discontinuité lors du passage au complément. Et en étendant cette notion de discontinuité il s'est avéré qu'il peut y avoir modifications des intercalaires lors du changement de brin. C'est ce qui me paraît maintenant évident puisqu'il doit y avoir de nombreux processus de réparation à ce moment là.
    - Tous les gènes d'un génome ne sont pas considérés ici, notamment les gènes de contrôle, les pseudo gènes et ceux non définis par NCBI (miscellaneous). Leurs intercalaires ne représentent que 1% du total.

Intergen51. Historique des pré-études

modifier
Intergen51. Les clusters avec les intercalaires tRNA-CDS
modifier
  • Ce sont 43 génomes, 8 génomes du début n'ont pas été encadrés par des CDS: vpb eal lmo lam cbc cle sma ksk. Les 8 autres du début ont été sélectionnés pour les 21 génomes à intercalaires CDS-CDS: bsu spl eco cbn cbei afn ase blo. Donc j'ai ajouté 22 génomes, en plus, encadrés avec des CDS.
  • Les 51 génomes ont servis à étudier le typage des clusters à rRNA et l'étude des clusters à tRNAs seuls qui n'ont pas été inclus dans les fiches et présentent des processus de duplication différent des 1ers.
  • Les 43 génomes encadrés par des CDS ont permis de repérer des cds dans les 2 types de clusters, cds candidats pour l'étude de leur création par la contrainte des clusters à RNA.
  • Les 43 ont permis de mettre en évidence la faible fréquence des intercalaires tRNA-CDS nuls, négatifs et petits positifs. C'est ce qui m'a poussé à les comparer aux intercalaires CDS-CDS.
  • Les génomes du début avaient permis d'étudier les remaniements des clusters sans créer de chaos: eal eco et bsu lmo
  • Avec l'encadrement par CDS sont apparus des génomes avec des remaniements chaotiques:  rpmabq-abscdc-cdc8. Ce sont les annotations de bouts de rRNA, alors que la localisation des tRNAs est maintenue, qui m'ont permis d'émettre l'hypothèse de la création de gènes protéiques lors de ces remaniements provoqués par le comportement des rRNAs.
Intergen51. Les 21 génomes avec les intercalaires CDS-CDS
modifier
  • Cette étude des intercalaires m'a permis de mettre en évidence une périodicité chez les petits négatifs malgré le mélange continu/discontinu et de pouvoir interpréter les grands négatifs qui correspondent à des recouvrements. La périodicité sera reprise en séparant les continus des discontinus et les grands intercalaires, positifs et négatifs, qui constituent les restes des diagrammes, seront étudiés ou simplement listés dans chaque génome.
  • Cette étude m'a permis aussi d'apprécier le taux des séquences non protéiques et différentes des clusters à RNA, en calculant le taux de la somme des intercalaires positifs par rapport à la longueur total du génome donné par NCBI. Pour calculer ce taux avec l'intergen51 il faudrait refaire la somme des intercalaires positifs, mais avant, je vais reprendre les taux calculés pour seulement les 21 génomes traités pour les intercalaires CDS-CDS.
  • Tout le reste du formatage de chaque génome des 21 sera éliminé puisque c'est un mélange de continu et de discontinu, notamment les diagrammes.
  • Les 21 génomes de cette 1ère étude d'intercalaires CDS-CDS sont: abra myr pmg scc mba mja cvi ade ant rtb rru pub pmq bsu spl eco cbn cbei afn ase blo.

Intergen51. Vue de l'ensemble

modifier

Intergen51. La longueur totale des intercalaires d'un génome

modifier
  • Note: 46 génomes ont entre 8.9 et 16.3% du génome en intercalaires, soit 79% des cas étudiés avec une médiane de 12.6%. Il reste 4 faibles, 3.4 6.4 8.1 8.3 et 8 forts, 5 de 22.8 à 27.7 et 3 de 17.9 à 18.8%.
Nom	intercalaires	génome		taux en %	Nom	intercalaires	génome		taux en %	Fréquence des taux	
alpha							clostridia							
abq	356,439		3,064,393	11.6		cbc	696,513		3,892,029	17.9		taux	effectif
abqp	217,409		1,901,707	11.4		cbei	1,199,672	6,485,394	18.5		6	1
abs	363,304		3,023,440	12.0		cbn	330,729		2,773,157	11.9		7	1
absp	211,208		1,766,028	12.0		cdc	636,447		4,110,554	15.5		8	0
agrc	332,177		2,823,930	11.8		cdc8	663,874		4,308,325	15.4		9	3
agrl	225,474		2,148,289	10.5		cle	615,068		4,714,237	13.0		10	3
aua	449,307		3,742,793	12.0		hmo	396,940		3,075,407	12.9		11	9
auap	-						psor	450,598		3,550,458	12.7		12	10
oan	364,228		2,887,297	12.6		negativicutes						13	10
oan2	199,249		1,895,911	10.5		afn	242,270		2,329,769	10.4		14	5
pub	44,276		1,308,759	3.4		actino							15	4
rpl	252,952		1,109,301	22.8		ase	1,100,127	9,239,851	11.9		16	3
rpm	461,433		3,876,289	11.9		blo	267,098		2,256,640	11.8		17	1
rru	461,427		4,352,825	10.6		ksk	1,255,749	8,783,278	14.3		18	1
rtb	264,633		1,112,957	23.8		sma	1,241,224	9,025,608	13.8		19	2
beta							archeo							20	0
cvi	481,477		4,751,080	10.1		mba	1,341,425	4,837,408	27.7		21	0
ade	445,108		5,029,329	8.9		mfe	987,074		3,914,091	25.2		22	0
ant	203,179		3,192,235	6.4		mfi	403,834		2,478,074	16.3		23	1
gama							mja	168,865		1,664,970	10.1		24	2
amed	601,332		4,777,154	12.6		bacilli							25	0
eal	594,081		4,701,875	12.6		ban	749,857		5,321,900	14.1		26	1
eco	501,283		4,641,652	10.8		bsu	434,723		4,215,606	10.3		27	0
ecoN	646,219		5,441,200	11.9		lam	210,907		2,078,001	10.1		28	1
spl	789,212		5,174,581	15.3		lbu	222,489		1,856,951	12.0			0
vha1	499,733		3,765,351	13.3		lmo	288,032		2,944,528	9.8			58
vha2	317,649		2,204,018	14.4		pmq	1,228,719	8,739,048	14.1			
vpb1	403,530		3,297,305	12.2		ppm	791,310		5,728,392	13.8			
vpb2	242,529		1,806,219	13.4		ppmp	119,608		510,118		23.4			
bacteriodites						cyano							
fps	351,518		2,860,382	12.3		pmg	149,500		1,641,879	9.1			
myr	538,974		4,155,464	13.0		npu	1,547,626	8,234,322	18.8			
tenericutes						spirochete							
abra	151,700		1,877,792	8.1		scc	214,658		2,227,296	9.6			
apal	128,786		1,554,229	8.3

Intergen51. Formatage des résultats pour 51 génomes

modifier
  • Lien au tableur: Intergen51. Formatage des résultats pour 51 génomes.
  • Légende: Ce sont des effectifs brutes des
    - intercalaires entre un tRNA et un CDS, fxt pour les discontinus et fct pour les continus
    - intercalaires entre 2 CDS, pour les fréquences de 10 en 10 fx discontinu et fc continu, pour les fréquences par unité fx40 et fc40, pour les fréquences par unité négative fx- et fc-.
    - total des intercalaires pour un diagramme, diagr, de 1 à 400, 1 à 40 et de -6 à -50.
    - total des intercalaires de 1 à 30: t30 et %t30 par rapport au total.
    - total des intercalaires qui reste après le diagramme: reste et %reste par rapport au total.
int51.1 Total des effectifs des intercalaires de 51 génomes
CDS-tRNA CDS-CDS CDS-CDS CDS-CDS
frequence effectif frequence effectif frequence effectif frequence effectif
fxt fct fx fc fx40 fc40 fx- fc-
0 14 14 0 228 919 0 228 919 -1 4 4,140
10 15 29 10 1746 12728 1 173 1972 -2 85 11
20 19 37 20 1378 11017 2 157 2034 -3 3 12
30 6 32 30 1475 6338 3 248 1557 -4 717 10,938
40 38 47 40 1715 4716 4 213 1317 -5 5 19
50 25 50 50 1838 3974 5 125 1057 -6 59 6
60 32 54 60 1877 4135 6 174 736 -7 41 351
70 34 75 70 1855 4194 7 205 641 -8 89 2,362
80 42 76 80 1880 4182 8 125 836 -9 47 7
90 25 74 90 1723 3967 9 169 1265 -10 29 213
100 57 84 100 1734 3737 10 157 1313 -11 94 1,255
110 32 84 110 1605 3690 11 115 1404 -12 39 3
120 27 79 120 1594 3438 12 149 1577 -13 35 242
130 41 72 130 1599 3154 13 131 1218 -14 97 788
140 56 71 140 1489 2883 14 116 1282 -15 43 6
150 30 78 150 1406 2828 15 154 1126 -16 28 123
160 35 75 160 1466 2552 16 133 939 -17 68 537
170 27 64 170 1338 2356 17 116 904 -18 35 9
180 36 54 180 1211 2127 18 154 969 -19 29 107
190 37 44 190 1304 2031 19 181 785 -20 51 408
200 25 46 200 1201 1818 20 129 813 -21 17 2
210 43 45 210 1163 1656 21 168 774 -22 21 61
220 32 31 220 1074 1602 22 165 701 -23 42 264
230 26 33 230 979 1470 23 127 652 -24 28 5
240 28 32 240 914 1363 24 177 716 -25 22 91
250 30 33 250 896 1206 25 125 597 -26 43 246
260 30 25 260 847 1139 26 119 617 -27 13 3
270 19 35 270 842 1144 27 173 615 -28 21 54
280 14 25 280 741 984 28 155 546 -29 43 158
290 17 20 290 658 927 29 115 550 -30 17 0
300 20 20 300 632 881 30 151 570 -31 20 48
310 25 14 310 586 823 31 135 559 -32 39 125
320 17 21 320 595 703 32 122 518 -33 14 0
330 17 13 330 523 710 33 173 494 -34 15 32
340 17 6 340 507 595 34 167 457 -35 31 108
350 20 16 350 435 599 35 150 460 -36 9 0
360 14 15 360 447 567 36 165 481 -37 8 27
370 19 13 370 396 530 37 174 414 -38 27 71
380 10 15 380 398 497 38 187 442 -39 15 0
390 14 14 390 341 484 39 233 461 -40 14 21
400 6 13 400 334 429 40 209 430 -41 24 58
reste 182 267 reste 6,624 8,284 reste 45,052 77,659 -42 7 0
total 1,253 1,945 total 51,594 113,377 total 51,594 113,377 -43 10 31
%reste 14.5 13.7 %reste 12.8 7.3 diagr 6,314 34,799 -44 14 47
t30 40 98 t30 4,599 30,083 -45 6 0
%t30 3.2 5.0 %t30 8.9 26.5 -46 15 14
diagr 1,057 1,664 diagr 44,742 104,174 -47 19 43
-48 12 0
Récapitulatif des effectifs -49 13 23
>0 <0 zéro total * autres -50 15 55
x 51,366 2,456 228 54,050 reste 264 420
c 112,458 23,544 919 136,921 total 2,456 23,544
190,971 9,555 %reste 10.7 1.8
total 200,526 diagr 1,378 8,004

Intergen51. Les différents types d'intercalaires

modifier
  • Lien au tableur: Intergen51. Les différents types d'intercalaires.
  • Légende:
    - S pour intercalaire CDS-CDS et R pour tRNA-CDS,
    - c pour intercalaire continu (les 2 gènes sont sur le même brin) et x pour discontinu (les 2 gènes sont sur 2 brins différents, le brin et son complément)
    - %reste = 100*reste/total, le reste étant ce qui reste du total après la fin du diagramme, gamme.
    - %t30 = 100*t30/total, t30 étant le total des fréquences 10 20 30
    - %t5 = 100*t/total, t5 étant le total des fréquences de -1 à -5 dans le diagramme des S-.
  • Note:
    - total de tous les intercalaires étudiés ici, 190,971 + 9,555 + 6 = 200,532
    - taux des R-: c-/c = 100*8/1945 = 0.4 et x-/x = 100*11/1253 = 0.9.
Int51.2 Les différents types d'intercalaires entre gène de 51 génomes
Int51.21 Les différents types
intercalaires CDS-CDS * autres intercalaires
continu S+ S- S0 total c/x RNA-RNA CDS-rRNA total
c 112,458 23,544 919 136,921 2.5 3,136 348 3,484
x 51,366 2,456 228 54,050 18 196 214
t 163,824 26,000 1,147 190,971 3,154 544 3,698
% 85.8 13.6 0.6
Int51.22 Détail des * autres intercalaires
intercalaires tRNA-CDS récapitulatif des * autres intercalaires
continu R+ R- R0 total c/x * autres total %
c 1,931 8 6 1,945 1.6 tRNA-CDS 3,198 33
x 1,239 11 3 1,253 RNA-RNA 3,154 33
t 3,170 19 9 3,198 CDS-rRNA 544 6
% 99.1 0.6 0.3 non RNA 2,665 28
total 9,561 9,555+6 aua
Int51.23 Les taux remarquables
taux %reste %t30 %t5 %0
type S+ R+ S- S+ R+ S- S+ R+
gamme 400 400 6-50 - - - - -
c 7.3 13.7 4.8 26.5 5.0 64 0.7 0.3
x 12.8 14.5 15.9 8.9 3.2 33 0.4 0.2

Intergen51. Détail des intercalaires RNA-RNA et CDS-rRNA

modifier
RNA-RNA		c	x		CDS-RNA		c	x
23s 5s		286			CDS 16s		210	93
16s 23s		150			5s CDS		101	89
16s tRNA	155			16 CDS		6	1
tRNA 23s	173			CDS 5s		2	4
5s tRNA		155	1		23s CDS		12	6
tRNA in		140			CDS 23s		5	1
tRNA contig	731			5s 16s		11	2
tRNA hors	1254 	17		16s16s		1	
tRNA 16s	20			total		348	196
23s tRNA	25					
tRNA 5s		23					
16s 5s		21					
5s 23s		1					
5s 5s		2					
total		3136	18				

Intergen51. Les intercalaires rares

modifier
  • Note: Ce n'est pas la peine d'ajouter les adresses pointant sur le tableau autres intercalaires aas, je n'ai pas trouvé d’ambiguïté en cherchant sur l'intercalaire.
tRNA-CDS					tRNA hors		
gen	x-	c-	zéro x	zéro c	gen	x+	c-
oan1	-44				rtb	60	
oan2	-44					1051	
aua	-30				rpl	49	
pub			2			830	
spl	-23				agrl	793	
ecoN				2	aua	161	
vha2		-36				173	
amed		-21				270	
ppmp		-24				404	
cdc				1	lbu	151	
cdc8				1	hmo	293	
ase	-12				ase	130	
blo	-8, -39	-17			sma	153	
sma	-3	-10			ksk	151	
ksk	-3	-13			mfe	227	
mfi		-1			fps	296	
mba	-12			1	npu		-1
mfe				1	total	17	1
myr	-38				__	__	__
pmg		-30	1		5s tRNA		
total	11	8	3	6	cdc8	353	x+
__	__	__	__	__	16s16s		
5s5s					vha1	0	c+
cvi	89	c+			5s23s		
mfi	748	c+			hmo	230	c+

Intergen51. Les intercalaires non RNA

modifier
  • Note: ce sont les intercalaires autres que CDS-CDS et ceux contenant un RNA. Ici leur décompte sert à vérifier le total des intercalaires. gen pour génome, l'astérisque pour le total de la colonne autres du tableau autres intercalaires aas du génome, ft pour le total des tRNA-CDS, RNA pour les intercalaires contenant un RNA. ft RNA et non RNA sont reportés dans le tableau des données intercalaires de chaque génome.
gen	 *	ft	RNA	non RNA		gen	 *	ft	RNA	non RNA
abq	104	64	20	20		ban	173	22	142	9
abqp	65	26	27	12		bsu	324	28	106	190
abs	110	66	14	30		lam	152	43	55	54
absp	54	25	23	6		lbu	198	48	108	42
agrc	109	66	15	28		lmo	101	25	76	0
agrl	40	15	19	6		pmq	256	42	202	12
aua	117	80	13	24		ppm	190	43	139	8
auap	6	0	6	0		ppmp	62	20	40	2
oan1	105	70	15	20						
oan2	46	24	12	10		cbc	88	38	50	0
pub	79	50	11	18		cbei	192	48	130	14
rpl	75	58	9	8		cbn	147	42	101	4
rpm	243	100	51	92		cdc	282	13	113	156
rru	160	83	28	49		cdc8	348	16	141	191
rtb	75	58	9	8		cle	273	69	120	84
						hmo	223	54	118	51
ade	105	65	24	16		psor	226	19	158	49
ant	95	34	53	8						
cvi	205	76	93	36		afn	154	57	55	42
										
amed	239	79	122	38		ase	183	101	74	8
eal	537	77	74	386		blo	128	82	30	16
eco	712	65	77	570		ksk	171	103	62	6
ecoN	217	104	101	12		sma	164	115	43	6
spl	253	62	159	32						
vbp1	203	47	124	32		fps	114	54	46	14
vbp2	32	13	11	8		myr	199	79	96	24
vha1	190	47	115	28		npu	156	96	52	8
vha2	33	15	12	6		pmg	84	67	7	10
						abra	128	41	40	47
mba	128	90	28	10		apal	96	29	27	40
mfe	122	79	28	15		scc	104	67	25	12
mfi	87	56	27	4						
mja	99	43	22	34		total	9 561	3 198	3 698	2 665

Intergen51. Les diagrammes de la totale

modifier

Intergen51. Les diagrammes CDS-CDS et tRNA-CDS

modifier
Intergen51. Les diagrammes CDS-CDS et tRNA-CDS positifs
modifier
Courbes de tendances pour les diagrammes en pour 1000			Calculs pour f.41 et autres R2 f.1		
R2	x3		x2		x		c		Inflexion poly3	x	c	
0.974	1.57E-06	-1.06E-03	1.16E-01	30.0	fx1	abscisse	201.9	120.9
0.865	-4.49E-06	3.51E-03	-9.26E-01	93.9	fc1	ordonnée	22.7	28.8
									poly3/droite	22.9	27.9
0.995	7.53E-07	-4.56E-04	-1.81E-02	38.7	fx41			
0.989	8.19E-07	-2.97E-04	-1.12E-01	45.2	fc41	R2 f.1		x	c
									Poly 3		974	865
0.988					-9.43E-02	41.9	fx41	Poly 6		979	978
0.938					-1.06E-01	40.7	fc41	Poly 9		993	985
0.924					-8.21E-02	38.5	fx1
0.656					-1.60E-01	55.8	fc1
  • Note CDS-CDS positifs (tableau des 51 génomes):
    - J'ai représenté en diagrammes les 6 courbes correspondants aux effectifs des colonnes fxt fct fx fc fx40 fc40 sans la fréquence 0 du tableau présenté pour le formatage. Chaque abscisse est le total des effectifs de 10 fréquences successives (freq 10) et va de 1 à 400 pour les 4 premiers tandis que pour fx40 et fc40 elle est réduite à une seule fréquence (freq 1) et va de 1 à 40. La légende est détaillée dans les images  t1  t2  de wikimédia. Les 2 derniers diagrammes de l'image t1, fx41 et fc41, vont de l'abscisse 50, qui regroupe les fréquences de 41 à 50, à l'abscisse 400. Je les ai présentés avec un polynôme de degré 6 pour montrer l'adéquation nette du diagramme fc41 avec sa courbe de tendance (R2 0.999). La courbe de tendance linéaire (R2 0.938) met en valeur sa courbure alors que celle de fx41 (R2 0.988) se confond avec son diagramme (R2 0.995). Je les ai comparés entre eux avec leurs équations de courbe de tendance de polynôme de d° 3, présentées ci-dessus avec des ordonnées en pour 1000 du total des effectifs (les données sont dans le tableur du tableau des 51 génomes).
    - La netteté de fc41 va de pair avec la netteté de fc40 comparées aux diagrammes en dents de scie de fx40 et à ceux des diagrammes fxt1 et fct1 (abscisse en unité de fréquence), non présentés mais dont les données sont dans le tableur.
    - Les calculs avec les polynômes de d° 3: les points d'inflexion de fc41 (120) et fx41 (200) montrent que fx41 est au-dessus de fc41 mais se rejoignent à la fin. L'équation de fc a le coefficient de x3 négatif alors que ceux de fct fxt fx fx41 fc41 sont tous positifs. Les fréquences en pour 1000 sont identiques, au ‰ près, de la freq10 50 à la freq10 130, entre fx et fc, avec un taux moyen de 33‰.
    - Le diagramme fx est une droite, nettement différent de ceux de fct et fxt. Ces derniers représentent un seul processus avec un seul mode d'un maximum d'abscisse 133 pour fxt et 113 pour fct à comparer aux points d'inflexion de fx41 et fc41. Leurs équations en effectifs sont:
    + f(x)= 3.16E-06*x3 - 2.46E-03*x2 + 0.487*x + 9.58, pour fxt et
    + f(x)= 1.04E-05*x3 - 7.10E-03*x2 + 1.21*x + 13.5 pour fct.
    - La variance de fct et fxt est due seulement aux génomes étudiés avec un processus commun alors que dans fx chaque génome devrait avoir son processus propre avec un mode différent. L'homogénéité de fc est le reflet d'un comportement de chaque génome qui varie peu à chaque fréquence. Alors que chaque génome, dans fx, a un mode propre à chaque fréquence.
    - L'homogénéité de fc se retrouve dans fc40 avec une adéquation nette à la courbe de tendance alors que fx40 présente un diagramme en dents de scie qui montre encore que chaque génome procède d'un processus différent. Le diagramme fc40 montre que tous les génomes ont le même processus. Et quand je compare fct1 et fxt1 (abscisse en unité de fréquence) à fx40, les dents de scie des 2 premiers ont leurs courbes de tendances des droites croissantes (voir les équations au tableur, R2 respectif de 0.347 0.239) qui sous-tendent un seul processus dont la variance est due à la variance des génomes, alors que les dents de scie de fx40 est une droite horizontale (R2 0.001) combinant la variance des processus et des génomes.
    - Le processus sous-tendant fc étant tout à fait différent de celui de fct les fréquences de fct ne peuvent être déduites statistiquement de celles de fc. On ne peut pas comparer 2 choses incomparables.
    - Le diagramme de fc40 laisse penser qu'il y a un mode prépondérant à la fréquence 12, cela correspondrait aux séquences de contrôle cis des gènes protéiques.
    - Le diagramme fct est régulier et présente des motifs avec un semblant de symétrie (R2 0.923) contrairement au chaos de fxt (R2 0.600). Les 3 diagrammes fc40 fc fct montrent la caractéristique régulière des intercalaires continus, bien que sous-tendus par 2 processus différents, comparée au chaos des intercalaires discontinus de fxt, fx40 et de probablement de fx comme je l'ai mentionné ci-dessus.
Intergen51. Classement des courbes CDS-CDS positifs discontinus.
modifier
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs discontinus..
  • Légende:
    - Les classes sont séparées par une bordure bleue fine. Elles sont ordonnées sur x=0, intersection de la courbe avec l'axe oy.
    - Les clades sont séparés par une ligne à blanc
    - Courbures, représentées par la courbure calculée multipliée par 1000. En cyan les valeurs extrêmes.
    + courb1 est la courbure au sommet des courbes fx1 (fréquences regroupées par 10, freq10, de 1 à 400 pbs), d'abscisse soma et d'ordonnée somo. Quand fx1 est une hyperbole, constante négative de x3, la courbure courb1 n'est pas renseignée.
    + courb4 est celle des courbes fx41 de 41 à 400 pbs. Quand fx41 est une hyperbole, constante négative de x3, elle est remplacée par une courbe de constante positive. Ce paramètre est intéressant car en l'absence de courb1 il décroît avec %t20 dans la classe A et est très faible pour les classes B et C1 (sauf pour bsu lmo ban). Il y a une continuité progressive de A vers C (en valeur absolue). Une évolution progressive apparaît avec courb1 pour les classes C2 et D2 et dégressive dans les classes C1 D1. La classe A est très progressive. (voir diagrammes à venir des courbures par classe).
    + Les courbes différentes de fx1 sont indiquées dans la colonne courbe.
    - 1ères fréquences: long1 et long2 respectivement la somme des fréquences de 1 à 10 et de 11 à 20 en pourcentage. %t20 est la somme des 2. Elle sert aussi à caractériser les classe B et C en comparaison avec la colonne %dom.
    - fréquences dôme: Les classes B et C sont caractérisées, après %t20, par la somme très élevée de 2 fréquences freq10 das la colonne %dom et dont l'abscisse est adom.
    - évolution régulière des fréquences freq10: C'est le cas de la classe D.
    - Certains génomes sont caractérisés par des extrêmes,
    + ksk agrl colorés en jaune, ont des courbes de tendance sous forme de droites peu différentes des polynômes de d° 3. Leurs coefficients de détermination R2, poly3/droite, sont respectivement 922/911 et 762/756. Les 2 1ères fréquences sont quasiment identiques, différant de 2 et 4% alors que pour agrc oan1 aua ase j'obtiens 8 16 12 18% respectivement et le fossé se creuse encore pour les freq10 30 et 40.
    + Le %reste en cyane, taux des intercalaires au-delà des 400 pbs, est excessif pour mfe mba cbc npu rtb rpl de 23 à 43%, et très faible pour pub et apal 1.7 et 2.6%. le plasmide ppmp a 23.4% mais sa taille est la plus faible des 51 génomes étudiés. C'est pour cela que j'ai construis des diagrammes jusqu'à 900 pbs pour mfe mba pour comparer leurs x=0 dont l'ordre ne change pas, 17.7 pour mfe contre 9.77 pour mba (Dans le diagramme 400 j'ai respectivement 12.8 6.43).
    - Sommets des courbes en plus de celle de fx1. Elles sont colorées en gris. Leur courbure est indiquée dans la colonne courb4.
courbe	gen	soma	somo	courb4
51	psor	118.9	29.7	-1.586
61	ban	127.4	57.1	-2.317
31	cvi	-9.1	49.5	-1.943
21	eal	-75.3	49.6	-1.263
21	ecoN	11.5	37.8	-1.299
11	rpm	2.1	40.2	-1.555
11	cbn	-24.2	37.2	-0.731
11	eco	82.1	36.0	-1.881
21	myr	-51.3	46.1	-1.238
31	ksk	-128.7	49.7	-0.849
41	ksk	-749.1	130.7	-0.493
31	ase	33.9	40.3	-1.969
41	ase	33.9	40.3	-0.942
31	agrl	-431.0	72.3	-0.454
Classement des courbes des intercalaires CDS-CDS positifs discontinus x+
clade gen taille %reste courb1 courbe courb4 soma somo %dom adom long1 long2 %t20 x=0 classe
alp1 pub 234 1.7 - - - 167 64 231 127 A0
cya2 pmg 599 4.5 - 41 -1.109 10.8 39.4 194 65 259 110 A1
bde3 ant 633 3.5 - 41 -4.031 101.7 38.0 128 81 209 82.0 A20
arc4 mja 441 5.4 - 41 -3.400 97.9 34.7 111 70 181 71.5 A21
bde2 ade 1314 5.3 - 41 -2.325 92.1 34.6 78 80 158 64.4 A22
al4 absp 472 11.0 - 41 -1.720 108.2 29.2 81 59 140 62.4 A23
al1 abq 890 9.2 - 41 -1.870 111.4 29.9 73 61 134 59.8 A24
al2 abs 883 10.2 - 41 -1.841 94.7 30.6 74 46 120 58.8 A25
al3 abqp 497 8.7 - 41 -1.884 111.3 30.9 70 64 135 56.1 A26
al9 oan2 460 8.7 - 41 -1.613 46.9 34.4 63 54 117 49.5 A27
alp4 rru 967 9.3 - 41 -1.079 76.7 30.3 47 52 98 47.8 A28
al5 agrc 796 7.2 - 31 -0.790 -45.1 40.2 90 60 53 45 98 46.3 B10
al7 aua 975 9.9 - 31 -0.116 -875.6 76.3 91 60 51 39 90 45.3 B11
al8 oan1 771 9.1 - 21 -1.160 30.5 34.4 99 60 54 38 92 43.0 B12
bac2 bsu 1093 5.5 - 51 -3.143 135.7 29.9 219 40 26 41 67 62.5 C10
bac5 lmo 587 6.3 - 51 -2.188 126.7 26.3 271 40 17 34 51 59.1 C11
act1 ase 2691 9.7 -1.804 41 -0.942 20.6 41.1 99 70 52 34 86 40.7 C12
clo8 psor 693 9.1 -0.901 51 -1.586 -11.0 39.2 140 50 12 23 35 39.1 C13
bac1 ban 1579 10.3 -1.565 61 -2.317 23.3 38.5 138 40 10 26 36 38.1 C14
bde1 cvi 1114 8.0 -2.436 31 -1.943 53.3 41.6 146 70 56 30 85 37.7 C15
ga2 eal 1185 10.3 -1.902 21 -1.263 42.3 37.9 118 50 38 22 60 36.0 C16
ga4 ecoN 1382 10.3 -1.471 21 -1.299 34.8 36.3 134 50 32 16 48 35.3 C17
alp3 rpm 906 11.8 -2.175 11 -1.555 65.2 35.7 191 50 15 7 22 30.3 C18
clo3 cbn 540 9.6 -1.339 11 -0.731 68.8 33.3 113 50 19 6 24 29.7 C19
ga3 eco 1074 5.3 -1.834 11 -1.881 78.5 36.0 131 50 33 9 42 29.4 C19a
bct1 myr 980 14.9 -2.327 21 -1.238 76.6 35.7 107 70 27 12 39 27.6 C19b
bac3 lam 483 5.6 -3.737 85.8 43.6 155 60 17 6 23 26.7 C20
ga1 amed 1343 8.2 -3.171 90.6 39.3 141 80 28 15 43 23.2 C21
ga7 vha2 689 13.9 -2.925 96.5 35.1 103 80 20 20 41 17.8 C22
bac4 lbu 411 7.8 -4.193 98.5 42.9 141 70 2 5 7 17.0 C23
ga8 vpb1 782 11.5 -3.965 96.4 39.7 145 70 15 15 31 16.1 C24
ga6 vha1 934 13.4 -3.343 98.7 36.4 115 70 12 17 29 15.5 C25
ga9 vpb2 561 12.7 -3.667 104.6 38.2 127 80 20 11 30 12.1 C26
alp2 rpl 183 32.2 -2.604 108.0 28.1 104 80 11 22 33 8.12 C27
alp5 rtb 186 35.5 -2.195 117.3 27.0 97 80 11 16 27 7.33 C28
clo4 cdc 640 19.5 -1.942 176.9 31.0 5 0 5 -11.8 D10
clo5 cdc8 686 20.1 -1.748 175.5 29.9 7 4 12 -7.46 D11
bac6 pmq 1888 14.0 -2.305 160.2 34.2 8 8 16 -6.46 D12
clo2 cbei 1212 21.6 -1.691 156.0 27.6 5 10 15 -2.49 D13
bac7 ppm 1267 11.9 -3.106 133.9 37.0 86 90 13 16 28 -1.18 D14
clo6 cle 779 10.7 -2.811 133.5 35.8 12 8 19 1.51 D15
bac8 ppmp 107 23.4 -1.912 146.0 29.5 0 0 0 2.61 D16
clo1 cbc 719 23.9 -0.859 174.4 23.9 1 7 8 4.94 D17
arc3 mba 1235 42.8 -0.482 193.6 17.4 6 11 17 6.43 D18
arc1 mfe 1067 34.9 -0.779 119.8 20.2 10 14 24 12.8 D19
ga5 spl 1305 17.6 -2.662 120.1 32.4 93 80 6 15 21 6.45 D21
clo7 hmo 460 12.6 -1.900 135.5 31.6 20 22 41 8.01 D22
arc2 mfi 626 15.8 -1.820 123.8 29.8 19 10 29 11.2 D23
neg1 afn 346 4.6 -2.277 121.4 36.2 12 9 20 14.5 D24
cya1 npu 2307 23.2 -1.454 98.1 27.1 22 23 44 18.4 D25
bct2 fps 560 13.4 -2.683 91.5 35.2 32 16 48 21.3 D26
act2 blo 499 9.8 -2.403 98.7 36.0 34 16 50 21.4 D27
act4 sma 2581 11.6 -1.894 84.2 33.9 29 26 55 25.9 D28
spi1 scc 458 8.5 -2.273 81.0 37.2 20 33 52 28.3 D29
ter2 apal 191 2.6 -4.112 82.3 47.3 31 21 52 30.4 D30
ter1 abra 270 5.2 -3.934 65.0 47.0 137 50 19 33 52 37.3 D31
act3 ksk 2564 11.6 -1.185 31 -0.849 -10.8 39.5 87 80 38 36 74 39.4 D32
al6 agrl 499 8.4 -0.543 31 -0.454 -431.0 72.3 78 60 42 38 80 42.2 D33
act5
alp6
arc5
bac9
bct3
bde4
clo9
cya3
gam
neg2
ter3
totale 58 51,594 12.8 -1.520 63.7 33.5 34 27 61 30.0 D28
Intergen51. Classement des courbes CDS-CDS positifs discontinus. Note
modifier
  • Pour classer les diagrammes des discontinus, x+, j'ai utilisé 4 critères
    - %t20 et les colonnes associées long1 long2. Il dérive du taux %t30 que j'ai utilisé dans la comparaison x+ c+.
    • Long1 sert de repère par rapport au corps du diagramme. Il peut dépasser toutes les ordonnées et c'est le cas de la classe A, ou bien être plus ou moins bas par rapport au sommet du dôme et c'est le cas des classes B C D1. Dans la classe D2 où le x=0 remonte long1 le suivra.
    • La pente définie par long1 long2 va distinguer 2 taux %t20 identiques mais dont le signe de la pente est différent. C'est ainsi que j'ai pu analyser le cas des C1 bsu lmo psor ban. Mais cette pente positive va surtout caractériser la classe D2 dont la courbure ne dépend plus d'un dôme et long1 va suivre x=0.
    • A part le cas des 2 C1 sans minimum local, bsu lmo , l'évolution du taux %t20 va être parallèle à celle de x=0.
    - Les dômes. Ils sont caractérisés par l'abscisse du sommet, adom, et la somme des 2 taux du dôme, %dom. Ils appartiennent essentiellement aux classes B et C.
    • adom: Chez les B1 et C1 les abscisses sont faibles, autour de freq10 50, alors que les C2 tournent autour de 70. Les 2 classes C1 et C2 sont homogènes et les moyennes nettement distinctes. (voir le tableau des moyennes en fin de note).
    • %dom: C1 et C2 sont très homogènes d'après le tableau des moyennes mais bsu et lmo ny sont pas. Bien que les moyennes se chevauchent celle de C2 est plus faible, de 10%, par rapport à celle de C1 et celle de B1 est encore plus faible, autour de 90%.
    • conséquences: plus le dôme est proche de l'origine et son taux élevé plus la courbure sera faible, avec les B1 sans courbures (le coefficient de x3 étant négatif), les C1 aux courbures faibles et les C2 aux courbures fortes.
    • D1 et D2 n'ont pas de dôme sauf pour ppm spl et abra. Leurs courbes sont très étalées ce qui fait que le dôme est loin de l'origine et son taux faible ce qui donne une courbure très forte. Ainsi pour ppm spl abra j'ai respectivement pour adom %dom courb1, 90 86% -3.106, 80 93% -2.662, 50 137% -3.934.
    • + abra apal: ce sont 2 génomes différents en phylogénie, respectivement, Acholeplasmataceae Paracholeplasma brassicae et Acholeplasmataceae Alteracholeplasma palmae. Ils diffèrent en taille x+ de plus de 41%, respectivement 270 et 191 pbs. Si les caractéristiques c+ du tableau sont semblables le diagramme de abra x+ présente un dôme à l'abscisse 50 que apal x+ ne possède pas. J'ai donné la classe D31 à abra x+, parce que sa courbure est très forte, -3.934, comparée à celles de ban (-1.565) et psor (-0.901) qui ont un dôme semblable à abra x+ du à son minimum local, à l'abscisse 10, 2 fois supérieur (abra ban psor 19 10 12%) avec un %dom identique (abra ban psor 137 140 138%). Les caractéristiques x+ du tableau diffèrent nettement entre les 2 génomes pour %x+ %restex t30c/x et moins pour %t30x et corelaxc. Ils ont en commun la classe D3 (D31 D30) avec un x=0 de 37 et 30 respectivement. Les 2 génomes ont conservé une séquence de 11 gènes tRNA (aas) que j'ai notée dans les intercalaires extra bloc.
    - La courbure du sommet de poly3. C'est la comparaison entre x+ et c+ qui a mis en évidence pour certains diagrammes la forte pente négative t30 des c+ par rapport à la forte courbure des x+ pour cette plage. Quand je l'ai appliquée à tous les diagrammes j'ai pu regrouper les diagrammes sans dôme en 2 classes D1 et D2.
    • La classe D1 va se caractériser par une courbure très faible comparable à la classe C1, moyenne -1.763 contre -1.775. Les 2 classes se différencient par leur homogénéité, m/e 2.0, moyenne la plus hétérogènes des 5 classes, contre 3.8 pour C1 , 2ème homogène après C2. Elles se différencient plus par leur décroissance dans le diagramme en fonction de X=0, D1 est fortement décroissante (R2 0.495) et C1 à peine décroissante (R2 0.146), voir les diagrammes des courbures. D1 se différencie de C1 à cause des dômes qui font diminuer l'abscisse des C1, alors que les D1 s'étalent plus loin, soma 157 contre 45 pour C1.
    • Le passage de D1 à D2: mfe m'a posé un problème puisque D1 est décroissante, pour la courbure, et que D2 est croissante, son X=0 de 12.8 va se positionner après mfi qui a une courbure de -1.820 contre -0.779 pour mfe. Je l'ai alors mis en D1, en continuité de X=0, après mba. J'ai eu un doute à cause du %reste très élevé de mba et mfe. Peut être qu'en étendant les diagrammes x+ à 900 de mfe et mba, leurs places dans D1 ne seraient plus justifiées. Mais le fait que leur nouveau X=0 ne modifie pas leur ordre, mba 9.77, avant mfe 17.7 m'a conforté dans ce positionnement dans D1. J'ai comparé les x=0 des diagrammes étendus 800 et 400 des D1 à ceux des D2, dans le tableau en bas de la note. L'ordre de mba et mfe est respecté mais non ceux des autres D1. Par contre dans la colonne 800 les D1 restent largement inférieurs à celle des D2, sans aucun chevauchement. Les D2 800 respectent exactement l'ordre des 400 et le 1er, spl, reste supérieur au plus grand des D1 800, 23.8 contre 21.4 pour ppm. Ce dernier est un intrus dans D1 800.
    • La classe D2, de D21 à D31, ressemble beaucoup à C2 pour le sommet, soma 100.2 contre 99.6. Mais le sommet de C2 croît nettement (1 seul intrus) et passe de 86 à 108, alors que celui de D2 décroît rapidement par groupe de 3 génomes à la fois et passe de 135 à 65. La courbure de D2 a une moyenne 50% plus forte que celle de D1, -2.492 contre -1.763, mais 50% plus faible que celle de C2, -2.492 contre -3.311. La moyenne de D2 est moins homogène, m/e 3.0, que celle de C2 la plus homogène des 5 classes, m/e 5.1. Les 2 classes se ressemblent beaucoup dans les diagrammes des courbures, ils sont nettement croissants et de façon régulière avec un R2 de 0.612 pour D2 contre 0.730. Les 2 diagrammes diffèrent par leur forme.
    • La suite de la classe D2 est la limite de la courbure et du sommet de la courbe. D32 et D33 ressemblent à la classe B1 mais ils se distinguent tous les 2 par l’absence du minimum local à t30 (en plus long1 est presque égal à long2), un dôme très faible (%dom le plus faible, 87 et 78 contre 91 pour B11) et éloigné (80 pour ksk contre 60 pour agrl et les B1). L'ordonnée du sommet de D32 et D33 est élevée ce qui fait que la courbe de tendance est plus une droite qu'un polynôme qui a pourtant une courbure.
    - Les x=0 enfin que j'ai adoptés pour le classement et les 3 critères précédents définissent les grandes classes A B C D.
    • Classe A: Il n'y a pas de courbure. Le coefficient de x3 est négatif. J'ai établit alors la courbure du diagramme 41-400, courb4.
      + A0 a un coefficient toujours négatif quel que soit le début du diagramme.
      + A1 a une courb4, mais l'abscisse du sommet est tellement grande, -500, que la courbe est quasiment à coefficient négatif.
      + De A20 à A28 par contre les courbures sont grandes et nettement croissantes avec un R2 de 0.932. Les abscisses des sommets sont croissantes de façon irrégulières et passent de 77 47 à 111 92 102.
      + Le x=0 décroît régulièrement, sans intrus, de 127 à 48.
    • Classe B:
      + C'est la continuité de la classe A puisque le coefficient de x3 de 1-400 est négatif.
      + Il y a continuité aussi pour la courbure, courb4, puisque le coefficient de x3 de 41-400 est négatif faisant suite à la courbure la plus faible de la classe A (-1.079).
      + La seule différence avec la classe A est que les B ont un dôme. Et celui-ci a une ordonnée de même grandeur que celle de l'abscisse 10 (freq10) avec un minimum local en l'abscisse 40 ou 30.
      + Le minimum local m'a permis de calculer la courbure, courb4, des diagrammes 31 21 11-400 (colonne courbe) ce qui est possible puisque l'ordonnée de l'abscisse 40 ou 30 est inférieure à celle du dôme. Cette courbure est en continuité progressive, et non abrupte, avec celle de la classe A comme je l'ai notée ci-dessus. En plus elle est en continuité avec les courbures, courb4, de la classe C1 bien que celle-ci ait une courbure courb1, sauf pour bsu et lmo.
      + Les taux %dom des dômes de B sont plus faibles que tous ceux de la classe C et leurs abscisses, adom 60, sont supérieures à celles de C sauf pour ase cvi myr avec 70.
      + Le x=0 décroît régulièrement, sans intrus, à la suite de la classe A, de 46 à 43.
    • Classe C1
      + En excluant momentanément les 2 génomes bsu et lmo (C10 C11), le x=0 décroît régulièrement, sans intrus, à la suite et en continuité de la classe B, de 41 à 28.
      + En parallèle la courbure, courb1, décroît légèrement dans les diagrammes des courbures (R2 0.146), avec une moyenne homogène (m/e 3.8), -1.775, la 2ème très faible des 5 classes. Par contre les sommets, soma, croissent régulièrement de 21 à 77, avec une moyenne faible de 45 très hétérogène, m/e de 1.6, le plus faible de toutes les moyennes du tableau, conséquence de la forte croissance des sommets. Le %t20 qui suit globalement l'évolution de x=0, ici, dans C1 son évolution n'est pas homogène (m/e 2.1) et ne manifeste pas de croissance nette. Le diagramme des classes montre bien que le %t20 de C1 est très chaotique, différemment des autres classes. La courbure, courb1, différencie nettement B1 et C1.
      + Le classement de C12, ase. Ce génome ressemble beaucoup à oan1 avec un long1 au même niveau que le sommet du dôme, un x=0 du même ordre 41 contre 43 pour oan1 et un %t20 qui vient juste après celui de oan1, 86 contre 92. Le génome ase se distingue nettement de la classe B parce que c'est le 1er à avoir une courbure courb1 moyenne, -1.804, et vient juste après lmo et bsu. Donc il est logique de le classer avec les C1. Cependant ase se comporte aussi comme ksk qui est du même clade et qui a une classe D2. Les 2 diagrammes ont à peu près le même minimum local t30 à l'abscisse 40 pour ase , 23‰ contre 29‰ pour ksk à l'abscisse 50. Mais c'est la pente très négative de ase qui m'a poussé à le comparer aux B, -7.25 contre -1.79 pour ksk. Si je trie sur clade, toutes les autres colonnes sont à peu près identiques, sauf courb1, -1.804 contre -1.185 pour ksk, soma 21 contre -11, long1 et par conséquent %t20, 52 contre 38. Même la queue du diagramme est semblable et les fx41 fx31 aussi (voir tableau en bas de la légende du tableau de classeau). Il serait peut être logique de le mettre en D32 alors que leurs phylogénies sont complètement différentes.
      + Le minimum local à t30: j'ai montré dans la comparaison continus discontinus que ce minimum est caractéristique des continus qui l'arborent tous et se trouve dans la plupart des cas aux alentours de l'abscisse 30 de freq10. On le retrouve chez les discontinus mais il varie beaucoup d'une classe à l'autre et d'un génome à l'autre. Cependant, s'il se comporte de façon analogue dans les classes A et B, dans C1 seuls ase (abscisse 40) et cvi (30) font de même, avec la différence notable, pour ces 2 là, d'avoir une courbure courb1. Sinon 4 C1, bsu lmo psor ban, ont l'abscisse à 10 et les 6 autres à 20.
      + La courbure courb4: A part ase tous les C1 ont un coefficient négatif de x3 et donc n'ont pas de courbure, courb4. C'est la même situation qu'avec les B. En éliminant les 1ères abscisses, 10 20 30, j'arrive à trouver une courb4 aussi faible que celle des B, à part bsu lmo psor ban pour qui j'ai trouvé une forte courbure, courb4, en abscisse 70 (ban) ou 60 pour les 3 autres, et non pour des abscisses inférieures. Cette ressemblance entre les 2 classes renforce nettement la continuité entre elles. C'est ce qui m'a amener à classer ase, mais aussi bsu lmo, dans la classe C1 comme je le montre au chapitre suivant sur les dômes.
      + Les dômes: Ils agissent sur la courbure, courb1, par l'abscisse, adom, et le taux %dom. La courbure est d'autant plus faible que l'abscisse est faible et que le taux est élevé. Dans le cas de C1 adom et %dom sont très homogènes, avec les moyennes respectives de 55 et 132 avec le même m/e de 5.1. Par contre la courbure, courb1, et l'abscisse du sommet sont hétérogènes et faibles, respectivement -1.775 (m/e 3.8) et 45.3 (m/e 1.6). Comparés aux moyennes de C2, ces dernières sont très homogènes avec un m/e supérieur à 5.1, avec une courbure 2 fois plus élevée (-3.311 contre -1.775) et un sommet, soma, 2 fois plus éloigné (100 contre 45), dues au fait que adom est 50% plus éloignée (55 contre 74) avec un taux %dom presque équivalant mais plus faible (125 contre 132). Les moyennes des dômes différencient nettement les 3 classes B C1 C2.
      + Les diagrammes des courbures: La classe C1 est différente des 4 autres diagrammes parce qu'elle est homogène et à peine décroissante (R2 0.146), alors que les autres sont nettement croissants ou décroissants avec une homogénéité variable.
      + Le passage de B12 à C10, oan1 à bsu. Le x=0 décroît régulièrement de A0 jusqu'à B12 (43) puis au-delà de C12 (ase 41). Mais bsu et lmo arbore un x=0 très élevé (62 et 59), en rupture avec la décroissance. Ces 2 génomes présentent la particularité d'avoir un %t20 à pente positive qui fait partie du dôme. Ce qui est nettement différent des classes A et B qui ont des pentes négatives, avec un long1 des B au même niveau que le sommet de leur dôme. Or la particularité des C1 est d'avoir un long1 inférieur au sommet du dôme ce qui est le cas de bsu lmo psor ban, puisque long1 est leur minimum local. Une autre particularité des C1 est d'avoir une courbure courb1 sauf pour bsu et lmo. Mais le fait qu'ils partagent un long1 avec psor et ban qui ont, eux une courbure, autorise à les classer ensemble et à placer bsu lmo en 1er puisqu'ils n'ont pas de courbure qui est faible mais croissante chez les C1.
    • Classe C2
      + Le x=0 décroît régulièrement, sans intrus, à la suite et en continuité de la classe C1, de 27 à 7.
      + En parallèle la courbure, courb1, croît fortement dans les diagrammes des courbures (R2 0.730), avec une moyenne très homogène (m/e 5.1), -3.311, la plus élevée des 5 classes. Par contre les sommets, soma, croissent régulièrement de 86 à 117, avec une moyenne de 100 très homogène, m/e de 11, parmi les plus forts de toutes les moyennes du tableau, conséquence de la faible croissance des sommets. Le %t20 qui suit globalement l'évolution de x=0, ici, dans C2 son évolution est plus homogène que celui de C1(m/e 2.8 contre 2.1 pour C1) et ne manifeste pas, aussi, de croissance nette. Le diagramme des classes montre bien que le %t20 de C2 est régulier, avec un seul intrus, celui de lbu avec 7%. La courbure, courb1, différencie nettement C2 et C1.
      + Le minimum local à t30: La disparition du minimum local est encore plus accentuée chez les C2 que chez les C1. La moyenne de %t20 est 2 fois plus élevée chez C1 que chez C2, 47.7 contre 29.3 et beaucoup plus hétérogène (m/e 2.1 contre 2.8 pour C2 avec l'intrus); en omettant l'intrus, lbu, je trouve m e m/e 32.0 6.8 4.7 ce qui montre le maintient de la moyenne et l'augmentation nette de l'homogénéité de C2. Les diagrammes x+ montrent clairement que les t30 sont aussi insignifiants que chez les D1 par rapport à ceux de C1: cC12C12 - C19  cC19aC19a - C25  cC26C26 - D14.
      + Les dômes: Ils agissent sur la courbure, courb1, par l'abscisse, adom, et le taux %dom. La courbure est d'autant plus faible que l'abscisse est faible et que le taux est élevé. Dans le cas de C2 adom et %dom sont encore plus homogènes que chez C1, avec les moyennes respectives de 74 et 125 et les m/e de 10 et 5.9. Au contraire de C1, la courbure, courb1, et l'abscisse du sommet, soma, sont très homogènes et forts, respectivement -3.311 (m/e 5.1) et 99.6 (m/e 10.6). Comparés aux C1, les moyennes de C2 sont très homogènes avec un m/e supérieur à 5.1, avec une courbure 2 fois plus élevée (-3.311 contre -1.775) et un sommet, soma, 2 fois plus éloigné (100 contre 45), dues au fait que adom est 50% plus éloignée (55 contre 74) avec un taux %dom presque équivalant mais plus faible (125 contre 132). Les moyennes des dômes différencient nettement les 3 classes B C1 C2.
      + Les diagrammes des courbures: La classe C2 est nettement croissante (R2 0.730) comme la classe D2 (R2 0.612), alors que C1 est à peine décroissante mais très homogène et D1 est moyennement décroissante.
    • Classe D: voir le chapitre sur les courbures ci-dessus.
  • Moyennes: ne sont pas compris dans ces moyennes bsu lmo (C1) et mba mfe (D1)
%t20	m	e	m/e	gen		courb1	m	e	m/e	gen
A-B	147.2	53.8	2.7	14		A41	-2.196	0.934	-2.4	9
C1	47.7	22.8	2.1	10		B	<0	-	-	
C2	29.3	10.4	2.8	9		C1	-1.775	0.473	-3.8	10
D1	14.4	8.7	1.7	10		C2	-3.311	0.655	-5.1	9
D2	42.3	13.0	3.2	11		D1	-1.763	0.862	-2.0	10
D32-33	77	-	-	2		D2	-2.492	0.843	-3.0	11
adom						%dom				
C1	55.0	10.8	5.1	10		C1	131.8	25.9	5.1	10
C2	74.4	7.3	10.2	9		C2	125.2	21.4	5.9	9
soma						somo				
A	93.4	20.6	4.5	9		A	32.5	3.0	10.9	9
B	<0	-	-			B	<0	-	-	
C1	45.3	28.8	1.6	10		C1	37.5	2.6	14.3	10
C2	99.6	9.4	10.6	9		C2	36.7	5.9	6.3	9
D1	157.0	23.5	6.7	10		D1	28.6	6.5	4.4	10
D2	100.2	22.2	4.5	11		D2	35.8	6.3	5.6	11
  • Diagrammes fx% étendus à 800 des classes D1 et D2
gen	x+ 400	x+ 800
D1		
pmq	-6.46	10.4
cbei	-2.49	9.38
ppm	-1.18	21.4
cbc	4.94	9.72
mba	6.43	8.93
mfe	12.8	16.5
D2		
spl	6.45	23.8
npu	18.4	27.1
sma	25.9	36.6
ksk	39.4	44.7
ase	40.7	49.3
Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x.
modifier
  • Lien au tableur: Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x..
  • Diagrammes fx%:  alpha1  alpha2  bacilli  gamma  spl bde  clostridia  actino archeo  afn cyano tenericutes bacteroide spiro  fcp1  fcp2
  • Légende:
    - Les colonnes
    + du tableau des effectifs: taille pour total, %reste reste au delà 400pbs / taille, %t30 somme des freq10 10 20 30 / taille, de même pour les intercalaires nuls.
    + du tableau des diagrammes: flexa pour abscisse du point d'inflexion de la courbe de tendance en polynôme de d°3 et R2 41 son coefficient de détermination du diagramme fc41; fcp pour abscisse (en freq10) des taux fc% pour laquelle la courbe de tendance commence à devenir positive (constante du monôme x3), pour une valeur de 2 la courbe de tendance démarre à 21 pbs c'est à dire l'abscisse freq10 de 30.
    + des rapports,
    - classe, c'est la classe des diagrammes fx% listée dans le chapitre des discontinus positifs.
    - %x+, taux des discontinus par rapport au total positifs, zéros compris, continus plus discontinus.
    - corelaxc, coefficient de corrélation entre les freq10 de 41 à 200 pbs des continus et des discontinus. J'ai fait le digramme corel freq1 (fréquences unitaires) en fonction de corel freq10 (fréquences regroupées par 10) pour la plage 41-200 pbs. La courbe de tendance qui passe par zéro a pour équation 0.340x avec un R2 de 0.811 et sans forcer à zéro 0.336x + 0.003 avec un R2 de 0.743. Lien au tableur.
    - t30c/x et restx/c sont les rapports des colonnes correspondantes.
    - Les valeurs remarquables sont indiquées en gras pour les maxima et en bleu pour les minima, en rouge pour les fcp qui représentent les courbes à constante négative quelque soit les tests effectués et en orange ses valeurs 0 et 1. En jaune ce sont les points d'inflexion anormaux et le vert ceux qui sont proches de l'extrémité 400 du diagramme.
  • Note: les corrélations entre colonnes. Les coefficients sont calculés après tri sur toute colonne sauf clade.
c/x	t	r	30	0
ct	0.868	0.119	-0.306	-0.231
r	0.156	0.967	-0.492	-0.347
30	-0.480	-0.631	0.495	0.586
0	-0.281	-0.152	0.402	0.674
				
cc	t	r	30	0
t	*	0.180	-0.420	-0.234
r		*	-0.606	-0.142
30			*	0.588
0				*
				
xx	t	r	30	0
t	*	0.068	-0.098	-0.116
r		*	-0.523	-0.371
30			*	0.584
0				*
int51.cx Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x.
c+ x+ Rapports
clade gen taille %reste %t30 %0 R2 41 flexa fcp taille %reste %t30 %0 classe %x+ corelaxc t30c/x restx/c
act1 ase 3854 7.6 24.4 0.3 0.972 333.3 -1 2691 9.7 12.1 0.7 C12 41 0.918 2.0 1.3
act2 blo 1045 4.9 19.8 0.1 0.906 188.5 2 499 9.8 8.0 0.4 D27 32 0.406 2.5 2.0
act3 ksk 3995 7.9 12.9 0.1 0.955 193.3 0 2564 11.6 11.3 0.3 D32 39 0.766 1.1 1.5
act4 sma 3894 8.4 17.8 0.2 0.952 198.2 1 2581 11.6 8.8 0.3 D28 40 0.801 2.0 1.4
act5
al1 abq 1565 3.6 25.4 0.2 0.949 188.0 2 890 9.2 19.8 0.2 A24 36 0.227 1.3 2.5
al2 abqp 921 5.0 25.1 0.2 0.930 176.0 3 497 8.7 19.1 0.2 A26 35 0.302 1.3 1.7
al3 abs 1570 3.5 24.8 0.3 0.952 197.1 2 883 10.2 18.9 0.2 A25 36 0.412 1.3 2.9
al4 absp 873 5.0 26.0 0 0.910 168.6 3 472 11.0 19.7 0 A23 35 0.272 1.3 2.2
al5 agrc 1466 2.3 26.2 0.2 0.908 216.8 2 796 7.2 13.3 1.1 B10 35 0.034 2.0 3.1
al6 agrl 1040 3.9 32.7 0.1 0.924 507 3 499 8.4 12.0 0.2 D33 32 0.454 2.7 2.1
al7 aua 1803 5.1 25.1 0 0.931 201.3 1 975 9.9 12.9 0.3 B11 35 0.585 1.9 1.9
al8 oan1 1517 4.6 27.4 0.5 0.901 188.3 2 771 9.1 11.3 1.5 B12 34 0.310 2.4 2.0
al9 oan2 914 3.5 34.1 0.1 0.863 129.8 4 460 8.7 13.7 0.4 A27 33 0.189 2.5 2.5
alp1 pub 601 0.7 56.1 5.9 0.939 278.6 -1 234 1.7 29.5 4.0 A0 28 0.865 1.9 2.6
alp2 rpl 527 19.4 22.4 0.8 0.822 229.1 1 183 32.2 4.4 0 C27 26 0.051 5.1 1.7
alp3 rpm 1847 4.1 23.4 0.4 0.945 195.3 2 906 11.8 3.2 0.4 C18 33 0.395 7.2 2.9
alp4 rru 2136 3.3 25.7 0.4 0.963 52.4 2 967 9.3 15.2 0.1 A28 31 0.189 1.7 2.8
alp5 rtb 505 19.8 23.4 0.7 0.804 230.0 1 186 35.5 3.2 0.5 C28 27 -0.105 1.7 1.8
alp6
arc1 mfe 2011 23.2 15.9 0.8 0.872 4261.2 -1 1067 34.9 4.4 0.1 D19 35 0.327 3.6 1.5
arc2 mfi 1545 6.0 20.2 1.7 0.937 164.3 2 626 15.8 5.8 0 D23 29 -0.043 3.5 2.6
arc3 mba 2379 29.7 14.9 0.8 0.739 246.6 -1 1235 42.8 2.6 0.1 D18 34 -0.317 5.7 1.4
arc4 mja 1069 1.1 39.7 0.9 0.960 413.1 -1 441 5.4 22.0 2.0 A21 29 0.326 1.8 4.8
arc5
bac1 bsu 2512 2.0 32.4 0.8 0.936 166.0 3 1093 5.5 13.1 0.2 C10 30 0.005 2.5 2.8
bac2 ban 3289 5.1 25.9 0.9 0.900 198.3 3 1579 10.3 8.7 0 C14 32 0.106 3.0 2.0
bac3 lam 1248 2.0 34.8 1.1 0.875 -166.3 4 483 5.6 4.8 0.4 C20 28 0.490 7.3 2.8
bac4 lbu 1098 4.6 31.7 0.7 0.936 162.1 3 411 7.8 2.9 0.5 C23 27 0.558 10.9 1.7
bac5 lmo 1849 2.8 36.5 1.2 0.850 201.9 3 587 6.3 8.5 0.2 C11 24 -0.178 4.3 2.3
bac6 pmq 4540 7.8 20.0 0.5 0.950 387.5 5 1888 14.0 2.7 0.3 D12 29 -0.836 7.4 1.8
bac7 ppm 3176 7.0 21.3 0.5 0.956 201.3 2 1267 11.9 3.7 0 D14 29 -0.129 5.8 1.7
bac8 ppmp 438 12.3 14.8 0.6 0.726 196.4 0 107 23.4 3.7 0 D16 20 0.044 4.0 1.9
bac9
bct1 myr 2273 7.9 35.9 0.5 0.891 -134.8 3 980 14.9 6.0 0.5 C19b 30 0.642 6.0 1.9
bct2 fps 1628 6.2 29.7 0.8 0.943 319.8 2 560 13.4 7.9 1.2 D26 26 0.451 3.8 2.2
bct3
bde1 cvi 2412 3.9 29.0 0.3 0.915 1288.8 2 1114 8.0 10.1 0.4 C15 32 0.860 2.9 2.1
bde2 ade 2335 3.4 32.2 0.6 0.952 -975.1 2 1314 5.3 20.7 0.8 A22 36 0.591 1.6 1.5
bde3 ant 1700 1.7 46.2 2.4 0.925 437.1 2 633 3.5 26.4 1.2 A20 27 0.274 1.8 2.0
bde4
clo1 cbc 2572 12.7 25.5 0.8 0.885 164.9 4 719 23.9 2.5 0.1 D17 22 -0.676 10.2 1.9
clo2 cbei 4010 14.9 20.6 0.4 0.931 -3362 4 1212 21.6 2.1 0 D13 23 -0.509 10.0 1.5
clo3 cbn 1775 3.5 29.9 0.5 0.941 186.3 3 540 9.6 5.9 0.2 C19 23 0.552 5.0 2.8
clo4 cdc 2589 9.5 29.5 1.3 0.903 430.8 -1 640 19.5 0.5 0 D10 20 -0.587 62.9 2.1
clo5 cdc8 2727 8.9 30.0 1.3 0.905 551.3 -1 686 20.1 1.7 0 D11 20 -0.640 17.1 2.3
clo6 cle 2900 6.4 30.3 1.0 0.948 181.0 4 779 10.7 2.6 0 D15 21 0.269 11.8 1.7
clo7 hmo 1867 5.8 24.6 0.8 0.959 151.9 3 460 12.6 5.0 0 D22 20 0.180 4.9 2.2
clo8 psor 2350 5.6 32.0 0.9 0.926 219.5 3 693 9.1 9.5 0.1 C13 23 -0.473 3.4 1.6
clo9
cya1 npu 3999 14.7 11.9 0.3 0.913 169.8 0 2307 23.2 6.3 0.2 D25 37 0.428 1.9 1.6
cya2 pmg 948 2.2 40.7 3.1 0.963 318.2 -1 599 4.5 30.2 1.6 A1 39 0.739 1.3 2.0
cya3
ga1 amed 2382 4.6 33.8 0.4 0.902 186.0 2 1343 8.2 5.9 0.1 C21 36 0.717 5.8 1.8
ga2 eal 2286 6.0 32.7 0.6 0.966 349.1 3 1185 10.3 6.4 0.9 C16 34 0.673 5.1 1.7
ga3 eco 2204 2.9 31.2 0.6 0.938 -1789.2 3 1074 5.3 8.4 1.1 C19a 33 0.324 3.7 1.8
ga4 ecoN 2822 4.4 24.1 0.8 0.959 434.8 3 1382 10.3 3.1 1.2 C17 33 0.596 7.8 2.3
ga5 spl 2482 10.2 24.1 0.7 0.976 150.5 2 1305 17.6 3.1 0.1 D21 34 0.740 3.5 1.7
ga6 vha1 1945 7.5 27.5 0.4 0.929 189.7 2 934 13.4 4.6 0.3 C25 32 0.533 6.0 1.8
ga7 vha2 1075 7.8 25.1 1.2 0.877 3.6 2 689 13.9 6.1 0.1 C22 39 0.728 4.1 1.8
ga8 vpb1 1757 5.3 31.6 0.4 0.947 214.3 3 782 11.5 4.2 0.1 C24 31 0.600 7.5 2.2
ga9 vpb2 828 7.6 28.1 1.1 0.764 185.9 3 561 12.7 5.0 0.2 C26 40 0.516 5.6 1.7
gam
neg1 afn 1385 3.9 38.5 0.5 0.893 164.2 3 346 4.6 4.0 0.6 D24 20 -0.025 9.5 1.2
neg2
spi1 scc 1000 3.4 33.9 0.5 0.938 321.3 -1 458 8.5 10.7 0.4 D29 31 0.445 3.2 2.5
ter1 abra 980 3.4 39.4 0.9 0.909 148.9 2 270 5.2 8.9 0.4 D31 22 0.713 4.4 1.5
ter2 apal 919 4.1 38.8 0.8 0.951 -261.8 2 191 2.6 11.0 0 D30 17 0.549 3.5 0.6
ter3
totale 58 113,377 7.3 26.5 0.8 0.989 120.9 3 51,594 12.8 8.9 0.4 D28 31.3 0.975 3.0 1.8
Intergen51. Comparaison des diagrammes CDS-CDS positifs c / x. Note
modifier
  • Les taux
    + %t30. Dans la compilation totale j'ai 26.5 et 8.9 pour c+ et x+, avec un rapport t30c/x de 3.0 et un coefficient de corrélation t30/t30 de 0.495.
    • %t30c: La plage moyenne regroupe 43 éléments avec des taux de 27.5±7.5. Les extrêmes sont au nombre de 15 allant de 36 à 56% (9) et de 12 à 18% (6). Les clades alpha (sans pub), gamma et clostridia sont homogènes, d'après le tableau en bas de la note, avec des rapports m/e supérieurs à 7 alors que celui de la totale est de 3.5 et que les bacilli le sont beaucoup moins (m/e de 3.5 et 4.4 en retirant ppmp).
    • %t30x: La plage moyenne regroupe 41 éléments avec des taux de 9.0±6.0. Les extrêmes sont au nombre de 17 allant de 19 à 30% (9) et de 0.5 à 2.9% (8). Les clades alpha- (sans rtb rpl et rpm) et gamma sont relativement homogènes, d'après le tableau en bas de la note, avec des rapports m/e supérieurs à 3 alors que celui de la totale est de 1.3, des bacilli 1.6 et des clostridia 1.3. Les alpha- se distinguent des gamma par une moyenne très élevée, 17% contre 5%. Et les clostridia réunissent les taux les plus bas (5 sur 8) alors que les bacilli en ont un peu moins (4 sur 8).
    • Importance des %t30: explique les colonnes R2 41, flexa, fcp, classe, corelaxc et les colonnes courbe et courb4 du chapitre sur le classement des discontinus, x+. Prendre un exemple de bacilli ou  clostridia x+ à comparer avec les c+ de fcp2, pmq lam cbc cbei tous fcp 4. Diviser un diagramme c+ ou x+ en t30, 41-200 au point d’inflexion qui contiendrait des séquences de contrôle cis et la queue après le point d'inflexion. Cette queue de grands intercalaires serait sans intérêt et augmenterait la corrélation corelaxc aussi j'ai réduit cette corrélation à la plage 41-200.
      + Cependant %t30x+ ne peut pas être utilisé pour le classement. Ainsi bsu et oan2 présentent le même taux mais la pente t30 de bsu est positive alors que celle de oan2 est négative. De même j'ai pu comparer ban psor lmo à eco eal et cvi.
      + Le dôme: je l'ai introduit pour justement différencier les pentes négatives des positives des %t30x+. Je l'ai caractérisé par son abscisse, adom, et son taux, %dom, qui est la somme des ordonnées de ses 2 abscisses proches l'une de l'autre. Et pour relativiser le dôme j'y ai adjoint son équivalant, à la colonne %t20, qui ne retient du %t30 que les 2 1ères abscisses.
      + Le %t20: c'est pour éviter le minimum local du %t30 ou sa pente positive comme dans le cas de bsu. En fait il fallait que je caractérise les diagrammes qui sont sans minimum local et sans dôme. C'est le cas de agrl ksk sma qui se sont révélés des chromosomes linéaires présentant cette caractéristique. Le %t20 va aussi caractériser les diagrammes à forte courbure du sommet du polynôme de d°3 et ne présentant ni minimum local ni dôme, comme npu apal sma blo dans cD24.
    + %reste. Dans la compilation totale j'ai 7.3 et 12.8 pour c+ et x+, avec un rapport restx/c de 1.8 et un coefficient de corrélation r/r de 0.967.
    + %0. Dans la compilation totale j'ai 0.8 et 0.4 pour c+ et x+, avec un coefficient de corrélation 0/0 de 0.674.
  • Comparaison entre éléments d'un génome: le chromosome et son plasmide, entre 2 chromosomes circulaires et 1 circulaire l'autre linéaire (agrc agrl).
    + abq abs, sont tout les 2 des Azospirillum, les 4 éléments se ressemblent beaucoup. En plus la différence entre plasmide et chromosome se retrouve entre les 2 génomes. Ce qui fait que les chromosomes sont semblables entre eux, et de même pour les plasmides.
    + rpl rtb, sont tout les 2 des Rickettsia (typhus group). Les 2 génomes se comportent de la même façon.
    + oan1 oan2, sont 2 chromosomes circulaires mais de tailles différentes, resp. 1517..914 en c+ et 771..460 en x+. Dans les rapports ils sont semblables, %x+ %t30c/x %restx/c et la classe, sauf pour la corrélation 41-200 qui diffère nettement, 0.310 contre 0.190. Les 2 chromosomes diffèrent dans les taux, si oan1 est plus grand en taille il a plus de %reste et moins de %t30. Ils diffèrent aussi dans leurs courbes dans l'image alpha1 des discontinus, oan1 présentant un max à l'abscisse 60 tandis que oan2 le présente en 110. Du coup le point d'inflexion et le fcp sont très différents.
    + agrc agrl, agrc est un chromosome circulaire alors que agrl est linéaire. La courbe de agrc x+ est semblable à celle de oan1 x+ qui se trouve aussi dans l'image alpha1. C'est la même classe B1 avec un coefficient de x3 négatif, l'ordonnée de l'abscisse 10 est au même niveau que celle du dôme (abscisse 50 et 60 respectivement) et le minimum local est à l'abscisse 30 et 40 respectivement. C'est la définition même de la classe B1. Par contre agrl ressemble beaucoup à sma npu, avec un coefficient de x3 positif et l'absence du minmum local et du dôme aux abscisses supérieures à 40. Le chromosome de sma est linéaire et celui de npu circulaire. La classe de agrl est D33 quasiment identique à celle de ksk qui a un chromosome linéaire aussi. Ils ont les mêmes caractéristiques dans le tableau des classes et notamment un x=0 de 42 et 39 pour ksk. C'est avec les courbes c+ que agrl se distingue de sma npu ksk avec un fcp de 3 pour agrl contre respectivement 1 0 0 pour les 3 autres. En conclusion agrl se comporte bien comme un chromosome linéaire comme sont ksk et sma.
    + mfe mba, sont 2 Methanosarcina se ressemblent beaucoup dans le tableau mais diffèrent nettement dans les rapports (corrélation, t30c/x), par la taille (20% de plus pour c+ et x+) et les taux (%reste %t30). Ils sont de même classe (D19 D18) et les colonnes %x+ fcp restx/c sont presque identiques.
    + ppm ppmp: Une séquence de 31 aas comme ppm et la courbe, malgré un total représenté (diagr) de 82 intercalaires ressemble beaucoup à celle de ppm (voir l'image des bacilli).
    + cdc cdc8, sont identiques dans le tableau. Ce sont seulement 2 souches différentes du même génome, Clostridioides difficile CD196 et M68.
    + eal eco ecoN, ce sont 3 escherichia, 2 coli, eco ecoN, et une albertii, eal. Ils diffèrent par les tailles c+ avec eco = eal, ecoN+30%, et les tailles x+ avec eal eco+10% ecoN+30%. Ils ont en commun le rapport %x+ et la classe C1. Sinon tout le reste diffère entre eux.
    + vpb vha, ce sont 2 vibrio qui diffèrent par les tailles. Chacun a 2 chromosomes circulaires. Cependant les 2 génomes sont analogues si on ne tient compte que des taux et des rapports. Par contre dans chaque génome les 2 chromosomes se comportent différemment; ainsi flexa %t30x+ %x+ t30c/x diffèrent nettement, tout le reste étant semblable par ailleurs, notamment la classe qui est C2. Le comportement de 2 chromosomes de même taille est identique, il y a un parallélisme en fonction de la taille. Je penses que les 2 génomes sont semblables.
    + abra apal: ce sont 2 génomes différents en phylogénie, respectivement, Acholeplasmataceae Paracholeplasma brassicae et Acholeplasmataceae Alteracholeplasma palmae. Ils diffèrent en taille x+ de plus de 41%, respectivement 270 et 191 pbs. Si les caractéristiques c+ du tableau sont semblables le diagramme de abra x+ présente un dôme à l'abscisse 50 que apal x+ ne possède pas. J'ai donné la classe D31 à abra x+, parce que sa courbure est très forte, -3.934, comparée à celles de ban (-1.565) et psor (-0.901) qui ont un dôme semblable à abra x+. Les caractéristiques x+ du tableau diffèrent nettement entre les 2 génomes pour %x+ %restex t30c/x et moins pour %t30x et corelaxc. Ils ont en commun la classe D3 (D31 D30) avec un x=0 de 37 et 30 respectivement. Les 2 génomes ont conservé une séquence de 11 gènes tRNA (aas) que j'ai notée dans les intercalaires extra bloc.
  • Les diagrammes
    - Le point d'inflexion à 200 pbs pour les courbes 41-400 des continus. Il permet d'introduire le coefficient de corrélation, dans la zone 41-200, entre c+ et x+. Dans la colonne flexa, 34 génomes ont l'abscisse du point d'inflexion contre entre 130 et 230, 8 génomes entre 250 et 390 et les 16 restants sont en dehors de la plage 130-400.
    - Le R2 41 permet de montrer l'homogénéité des courbes c+ par rapport à celles des x+. Seulement 3 génomes ont un R2 41 inférieur à 0.800, ppmp avec la plus petite taille c+ de l'étude (438 pbs), mba qui, malgré une grande taille (2379 pbs), est désavantagé par un %reste le plus élevé de 30%, enfin reste vpb2 qui a aussi une petite taille de 828 pbs juste après rpl et pub.
    - le fcp qui fait ressortir certaines courbes c+ sans le t30: les fcp 0 sont  ksknpuppmp. Les fcp 1 sont  smarplrtbaua. Il y a 9 fcp-1, 19 fcp2, 17 fcp3, 5 fcp4 et 1 fcp5. Total 58 génomes. Voici 16 diagrammes, c+ x+ du même génome, avec leurs corrélations cx, corelaxc:   fcp1  fcp2.
  • Les rapports qui permettent de mettre en valeur les classes.
    - t30c/x
    • + pour un rapport plus grand que 7.2 il y a 11 éléments dont 6 D1, 3 C2, 1 D2 (afn), 1 C1 (ecoN C17).
    • + pour un rapport plus petit que 2.5 il y a 21 éléments dont 14 sont de classe A et B, 4 de classe D et 3 de classe C.
    • + entre ces 2 limites il y a 26 éléments sans classes A et B. Avec 9 C1, 5 C2, 4 D1 et 8 D2.
    - restx/c: ce rapport n'est pas pertinent et le taux des restes, %reste est caractéristique de quelques génomes seulement comme rtb et mba. Voir l'étude de ces taux au début de la note.
    - %x+: le rapport de la compilation totale est égal à 31.3% avec un coefficient de corrélation t/t de 0.868. Les clades se distinguent par leurs moyennes nettement différentes les unes des autres dans le tableau en bas de la note, avec des rapports m/e supérieurs à 10 alors que celui de la totale est de 5 (clostridia+, les 8 plus afn (un négtivicutes) et apal abra qui se comportent comme les clostridia par ailleurs; bacilli, sans ppmp qui abaisse fortement m/e, 27.4 4.0 6.9, parce que ses effectifs sont les plus petits, total 545 contre 691 pour rtb),
    - La classe: tirée du classement des diagrammes des discontinus x+
    - corelaxc: J'ai présenté 3 diagrammes chacun représentant les 2 courbes de tendances c+ x+ du même génome. Le diagramme de pmq a une corrélation négative maximale de -0.836, celui de ase une corrélation positive maximale de 0.918 et celui de agrc de corrélation nulle, 0.034.
    • + Analyse de la corrélation positive: diagramme de la totale avec une corrélation proche de l'unité, formation de la discontinuité sans modification de la séquence d'ADN.
    • + Analyse de la corrélation négative: modification de la séquence d'ADN lors de la création de la discontinuité
    • + Intérêt de la colonne corelaxc: permet d'avoir une idée des modifications de l'ADN lors de la formation de la discontinuité sans passer à la visualisation des diagrammes.
%x+		m	e	m/e	gen		%t30c		m	e	m/e	gen		%t30x		m	e	m/e	gen
actino		38.1	3.9	9.7	4		actino		18.7	4.7	4.0	4		actino		10.0	2.0	5.2	4
alpha		32.6	3.4	9.5	14		alpha		26.3	3.4	7.6	13		alpha		14.0	7.3	1.9	14
archeo		31.7	3.1	10.1	4		archeo		22.7	11.6	2.0	4		archeo		8.7	9.0	1.0	4
bacilli		28.6	2.6	10.9	7		bacilli		29.0	6.6	4.4	7		bacilli		6.0	3.7	1.6	8
clostridia	21.5	1.5	14.3	8		clostridia	27.8	3.8	7.3	8		clostridia	3.7	2.9	1.3	8
gamma		34.8	3.2	10.9	9		gamma		28.7	3.8	7.6	9		gamma		5.2	1.7	3.0	9
clostri+	21.0	1.8	11.4	11		bacilli+	27.2	7.9	3.5	8		alpha-		16.9	5.3	3.2	11
total		30.3	6.2	4.9	58		total		28.2	8.1	3.5	58		total		9.3	7.1	1.3	58
Intergen51. Classement des courbes CDS-CDS positifs continus.
modifier
Intergen51. Classement des courbes CDS-CDS positifs continus fc40
modifier
  • Diagrammes fc40 par groupe de forme:  fc+40 D0  fc+40 D1  fc+40 D2  fc+40 S1  fc+40 S2  fc+40 S3fc+40 Xfc+80 X+D0
  • Diagrammes fc40 par clade: archeo-c  alpha-c  clostridia-c  bacilli-c  actino-c  gamma-c
  • Pense bête
    - Le diagramme en V: sur 58 étudiés, 14 non, 3 faibles et 41 forts.
    • alpha 14   5472 0.973 6-7 fort.
      + forts rpm 0.787 rru 0.876; 6-7 574 631; sup 0.817 oan1 oan2 agrc agrl, 6-7 sauf agrc 8, 463 361 440 374
      + faibles abs et p 0.726 0.450, 6, 466 271
      + non abq 193 et p 291, rtb 131 rpl 129 aua 149 pub 367 (0.977)
    • gamma 9 bacilli 8 clostridia 8; tous forts,   5728 0.908 6   6587 0.921 7   5583 0.916 8 .
    • actino 4,   2956 0.783 7 faible
      + forts ase 6 0.793 1166
      + non sma 0.761 862 ksk 0.620 687 blo 0.628 241
    • archeo 4,   1650 0.758 7 faible .
      + forts 6 mfi mja 0.749 368, 0.595 474
      + faible mfe 7 0.772 1166
      + non mba 0.581 428
    • reste, 11.
      + forts bde 6 sup 0.871 813 875 838
      + forts afn scc 6 sup 0.820 581 388
      + forts tener abar apal 6-7 sup 0.895 420 391
      + non bacteroide fps myr sup 0.917 561 899
      + non cyano npu pmg 0.555 607, 0.764 450
    - Le V n'existe pas chez les discontinus même quand il y a un effectif élevé dans la plage 1-40, et la plupart des cas, ces effectifs sont très faibles pour faire un diagramme.
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc40. Contient les effectifs et les taux des zéros. A la suite du tableau il y a les différences mx42-mx162 et l'indice i.6.
  • Légende: Lien aux données des intercalaires 200 pour le calcul des pourcentages. Ne contiennent pas les effectifs et les taux des zéros.
    - maxp, 1-8-11 et de façon symbolique, a b x, abscisses 1 et 11 des maxima, 8 du minimum, choisis pour le calcul des pentes. J'ai essayé de coller le plus à la courbe de tendance des diagrammes publiés en admettant que les vrais extrêmes sont sujets aussi à des fluctuations comme tous les autres relevés. Ainsi, dans l'exemple de cbn 1-8-11, je n'ai pas pris l'abscisse 12 qui est le vrai maximum.
    - Pourcentage, s0 s6 sx s18 s42 t42: En suivant les symboles de maxp, somme des pourcentages (ordonnées) des zéros, de 1 à b + zéros, de b+1 à x-1, de x à 18, de 19 à 42. t42 étant le total de x+18+42 à comparer avec s6.
    - Pentes par %, p6 x 18 42: ce sont les pentes de a-b, b-x, x-18, 18-42 (sauf agrc avec 18-43). Le calcul de p6 suis le maxp. Les pentes p42 sont multipliées par 1000.
    - Indice de fréquence i.18: Somme de 7 à 18 divisée par 12. Il sert à distinguer entre forme symétrique et dissymétrique avec le rapport 18/30.
    - Indice de fréquence i.30: Somme de 19 à 30 divisée par 12. Il sert à distinguer entre forme symétrique et dissymétrique.
    - Rapport 18/30: i.18/i.30
    - Maxima, mx6 12 42 162: ce sont les vrais maxima de 1-b b-18 19-42 43-162. A comparer avec les symboles a et x où ce dernier se trouve dans b-18.
    - Minima: n6, c'est l'abscisse b reprise ici pour comparer avec la colonne mx12.
    - La profondeur du V: Les diagrammes fc40 se présentent comme un zigzag commençant par un V, \/\. Pour caractériser numériquement l'importance de ce zigzag j'ai additionné les 2 pentes du V, en valeur absolue, colonne px-p6.
    - dgen: ce sont les génomes (gen) pointant sur les diagrammes des formes "diagonale". Voir le tableau de classement de ces diagrammes.
    - Classement: C'est la colonne Form, je l'ai construite sur l'ordre croissant de la colonne mx12. Puis j’ai caractérisé les diagrammes par leurs formes, S pour symétrique, D pour dissymétrique et X pour anomalie des ordonnées des fréquences 6 qui sont au même niveau que les fréquences de la plage x-18. Les sous-divisions permettent de repérer facilement les maxima mx12. Les X, associés à la pente p18 qui m'a permis de distinguer entre symétrie et dissymétrie présentent un diagramme plat, npu sma ksk. Les X présentent surtout un excès des fréquences 6 et retrouvent quelque fois la forme des diagrammes S ou D, sans cette fréquence (myr fps pmg). Diagrammes des X sur la plage 7-40, en pour 1000, ‰, du total des intercalaires positifs continus.
    - Les maxima de ppmp vbp2 ne respectent pas le tri croissant de mx12. Pour les classer j'ai du corréler mx12 avec l'indice de la plage 7-18 des intercalaires,i.18, en l'abscence de 4 génomes, ppmp vbp2 abra ant. L'équation de la droite de tendance est f(x)=1.823x-0.859 avec un R2 de 0.846. La colonne des indices i.18 se trouve dans le tableur avec la sauvegarde du tableau. Le génome ppmp a un indice de 5.1 et son mx12 corrigé est 8.5. Le génome vbp2 a un indice de 12.1 et son mx12 corrigé est 21.2. Je n'ai pas corrigé abra et ant parce que leurs maximas ne perturbe pas le tri.
int51.40 Intergen51. Classement des courbes CDS-CDS positifs continus fc40.
clade gen c+ zéros maxp s0 s6 sx s18 s42 t42 p6 px p18 p42 I.18 I.30 18/30 mx6 mn6 mx12 mx42 mx162 px-p6 Form gen
arc2 mfe 2 011 17 1-7-10 8 70 7 44 86 137 -2,07 1,82 -0,37 21 4,39 3,90 1,13 14,4 1,5 7,5 6,0 6,0 3,9 D01 mfe
arc1 mba 2 379 21 2-7-10 9 61 5 52 77 134 -2,27 2,10 -0,32 -105 4,90 3,29 1,49 13,0 1,7 8,0 6,3 5,0 4,4 D02 mba
bac8 ppmp 438 3 2-7-13 7 41 11 50 112 174 -1,37 2,66 -1,37 -190 5,14 4,38 1,17 9,1 0,0 16,0 13,7 9,1 4,0 D03 ppmp
bac7 ppm 3 176 19 1-8-12 6 68 13 57 134 203 -1,53 1,50 -0,47 -144 6,51 6,80 0,96 14,5 3,8 9,8 8,2 6,0 3,0 D04 ppm
bac6 pmq 4 540 26 1-9-12 6 67 10 57 136 203 -1,16 2,06 -0,07 -174 6,50 6,00 1,08 11,5 2,2 9,9 9,9 5,3 3,2 D05 pmq
clo2 cbei 4 010 19 1-7-11 5 53 14 80 102 196 -1,95 2,49 -0,36 -239 8,00 5,34 1,50 13,7 2,0 12,7 8,0 5,0 4,4 D11 cbei
clo7 hmo 1 867 17 2-8-13 9 94 29 58 119 207 -2,77 1,82 -0,64 -290 7,99 6,07 1,32 20,4 3,7 12,9 10,2 8,0 4,6 D12 hmo
bac4 lbu 1 098 10 2-7-9 9 104 4 128 134 266 -6,01 6,38 -0,61 -152 11,23 7,51 1,49 32,8 2,7 15,5 15,5 7,3 12,4 D13 lbu
clo5 cdc8 2 727 39 1-6-11 14 79 24 107 164 295 -3,01 2,27 -0,43 -290 10,94 8,65 1,27 19,4 2,6 16,9 10,3 5,5 5,3 D14 cdc8
clo1 cbc 2 572 24 1-7-11 9 69 17 95 131 243 -3,37 2,43 0,11 -340 9,46 6,93 1,36 21,4 1,2 17,1 9,3 5,1 5,8 D15 cbc
clo4 cdc 2 589 37 1-6-11 14 82 26 103 158 286 -3,55 2,24 -0,33 -306 10,72 8,21 1,31 21,2 2,3 17,4 9,7 5,8 5,8 D16 cdc
clo3 cbn 1 775 10 1-8-11 6 86 16 100 159 275 -2,25 2,44 -0,16 -423 10,61 8,50 1,25 20,8 5,1 18,0 11,3 7,3 4,7 D17 cbn
bac3 lam 1 248 16 2-7-9 13 125 13 148 109 270 -4,97 6,41 -0,80 -300 13,89 6,21 2,24 30,4 5,6 18,4 9,6 10,4 11,4 D18 lam
bac1 ban 3 289 33 1-8-12 10 72 18 101 126 245 -1,35 4,26 -1,17 -355 10,39 6,46 1,61 12,2 2,8 19,2 9,7 6,4 5,6 D21 ban
clo8 psor 2 350 23 2-6-11 10 74 31 126 141 297 -5,21 3,49 -0,49 -514 13,05 8,26 1,58 22,1 1,3 19,6 11,1 5,1 8,7 D22 psor
spi1 scc 1 000 6 1-6-9 6 111 19 141 134 294 -5,40 5,33 -0,56 -417 13,33 6,17 2,16 31,0 4,0 20,0 12,0 8,0 10,7 D23 scc
bac2 bsu 2 512 25 1-8-12 10 88 27 125 147 299 -1,93 4,68 -0,66 -630 13,44 7,86 1,71 16,3 2,1 21,5 11,5 8,0 6,6 D24 bsu
clo6 cle 2 900 35 1-7-11 12 81 27 115 146 288 -2,82 4,14 -1,33 -287 11,98 7,67 1,56 19,3 2,4 22,1 11,7 5,2 7,0 D25 cle
ter2 apal 919 10 1-6-10 11 134 27 164 111 303 -8,27 4,08 -0,16 -725 16,50 5,62 2,94 45,7 4,4 25,0 14,1 8,7 12,4 D26 apal
bac5 lmo 1 849 27 2-7-12 15 99 29 147 144 320 -3,79 5,08 -0,81 -901 14,83 8,79 1,69 21,6 2,7 28,1 16,2 6,5 8,9 D27 lmo
arc3 mfi 1 545 29 2-6-11 19 83 30 62 87 179 -2,91 1,29 -0,46 -189 7,66 3,78 2,03 16,2 4,5 11,7 7,8 8,4 4,2 S11 mfi
al1 abq 1 565 4 4-9-13 3 98 47 41 122 210 -2,30 2,24 -1,92 0,05 9,42 5,91 1,59 16,6 7,7 14,06 8,3 8,9 4,5 S12 abq
ga5 spl 2 482 17 2-6-10 7 79 29 81 98 208 -4,03 4,03 -0,65 -235 9,20 4,83 1,90 21,4 5,2 14,10 8,5 5,6 8,1 S13 spl
ga1 amed 2 382 12 2-6-9 5 63 12 86 101 199 -3,67 3,92 -0,79 -122 8,15 4,62 1,77 17,2 2,5 14,3 6,7 7,1 7,6 S14 amed
al3 abs 1 570 6 2-6-13 4 70 61 48 129 238 -1,43 2,23 -1,35 27 9,13 6,05 1,51 15,3 5,7 14,6 8,3 10,2 3,7 S15 abs
alp3 rpm 1 847 9 2-6-12 5 86 44 73 120 237 -3,79 1,89 -1,53 -152 9,75 6,05 1,61 19,5 4,3 15,7 9,2 5,4 5,7 S16 rpm
alp4 rru 2 136 12 2-7-11 6 96 24 78 112 214 -1,97 2,69 -1,67 39 8,93 5,34 1,67 20,1 5,1 15,9 7,5 7,5 4,7 S17 rru
al2 abqp 921 2 1-9-11 2 85 7 84 153 243 -0,54 4,34 -0,60 -181 9,41 6,51 1,44 10,9 6,5 16,3 11,9 8,7 4,9 S18 abqp
ga6 vha1 1 945 9 2-6-9 5 88 15 115 104 234 -3,73 3,43 -0,51 -343 10,84 5,14 2,11 20,6 5,7 16,5 7,7 16,5 7,2 S19 vha1
al4 absp 873 0 3-6-13 0 61 54 65 139 258 -4,96 1,80 -0,92 -334 9,93 6,68 1,49 18,3 3,4 17,18 10,3 10,3 6,8 S20 absp
al7 aua 1 803 0 3-7-11 0 100 27 62 101 190 -3,47 1,53 -1,27 -44 7,90 5,18 1,53 20,0 6,1 17,19 8,3 7,2 5,0 S21 aua
act1 ase 3 854 13 1-6-9 3 75 17 91 133 241 -1,71 2,34 -1,56 86 9,02 5,34 1,69 15,6 7,0 17,4 9,1 6,7 4,0 S22 ase
al8 oan1 1 517 9 2-7-10 6 114 22 90 93 206 -4,61 3,96 -1,32 -220 9,94 4,39 2,26 29,7 6,6 18,5 7,3 6,6 8,6 S23 oan1
bct2 fps 1 628 15 1-8-10 9 178 11 76 98 184 -3,86 4,61 -1,84 -26 8,91 3,53 2,52 36,9 9,8 19,0 10,4 7,4 8,5 S24 fps
al5 agrc 1 466 3 1-8-11 2 100 20 83 104 207 -1,95 4,32 -2,05 191 9,38 5,12 1,83 21,8 4,1 19,1 8,9 7,5 6,3 S25 agrc
al6 agrl 1 040 2 1-6-12 2 104 57 93 114 264 -3,27 2,88 -0,60 -521 12,50 6,25 2,00 24,0 7,7 19,2 10,6 9,6 6,2 S26 agrl
bct1 myr 2 273 13 2-7-11 6 162 35 93 116 244 -4,84 1,98 -1,38 -293 11,51 6,23 1,85 34,3 10,1 20,2 9,2 7,9 6,8 S27 myr
bde1 cvi 2 412 10 1-6-10 4 92 30 109 118 257 -3,73 3,83 -1,71 -155 11,57 5,25 2,20 24,0 5,4 20,7 7,5 8,3 7,6 S28 cvi
ga9 vpb2 828 11 1-7-9 13 87 10 130 103 243 -2,82 15,10 -2,68 -403 12,08 5,64 2,14 21,7 4,8 35,0 8,5 7,2 17,9 S29 vpb2
bde2 ade 2 335 17 2-5-9 7 92 37 134 126 298 -6,28 3,43 -1,52 -196 13,42 5,50 2,44 27,0 8,1 21,8 8,6 9,4 9,7 S2a ade
ga4 ecoN 2 822 29 2-6-9 10 92 14 151 126 292 -3,90 5,79 -1,26 -369 13,79 6,59 2,09 21,6 6,0 23,4 9,6 6,4 9,7 S30 ecoN
ga2 eal 2 286 18 2-6-9 8 89 16 144 122 282 -2,62 4,67 -1,60 -18 13,31 5,94 2,24 21,9 6,6 24,1 9,6 6,6 7,3 S31 eal
ga8 vpb1 1 757 9 2-6-9 5 93 20 129 124 274 -5,26 6,83 -1,71 -356 12,47 6,55 1,91 25,6 4,6 25,0 11,4 7,4 12,1 S32 vpb1
ga7 vha2 1 075 16 1-7-9 15 77 10 120 81 211 -1,86 11,63 -2,17 -78 11,01 4,88 2,25 13,0 1,9 25,1 9,3 15,8 13,5 S33 vha2
ga3 eco 2 204 16 2-6-9 7 94 18 155 121 294 -4,31 6,50 -1,87 -227 14,41 6,50 2,22 23,1 5,9 26,3 10,4 8,2 10,8 S34 eco
al9 oan2 914 1 1-6-10 1 113 38 118 135 291 -4,81 4,92 -2,46 -91 13,04 6,11 2,13 28,4 4,4 28,4 10,9 9,8 9,7 S35 oan2
cya2 pmg 948 34 2-7-9 36 191 12 146 170 327 -3,38 8,44 -1,88 -264 14,06 7,91 1,78 28,5 11,6 28,5 13,7 9,5 11,8 S36 pmg
arc4 mja 1 069 11 2-6-9 10 103 19 170 176 365 -5,61 8,73 -1,40 -312 15,75 9,59 1,64 29,9 3,7 29,9 16,8 10,3 14,3 S37 mja
neg1 afn 1 385 9 1-7-12 6 106 51 139 136 326 -3,97 5,92 -2,53 -572 16,13 7,94 2,03 27,4 3,6 33,2 14,4 6,5 9,9 S38 afn
ter1 abra 980 12 1-7-11 12 181 44 115 107 266 -9,18 3,06 -0,82 -340 13,61 5,53 2,46 59,2 4,1 33,7 14,3 9,2 12,2 S39 abra
bde3 ant 1 700 56 1-7-10 33 208 79 150 96 325 -9,31 10,00 -1,70 -368 19,75 4,80 4,11 64,1 8,2 51,8 9,4 7,6 19,3 S3a ant
cya1 npu 3 999 15 2-9-14 4 47 16 18 83 117 -0,43 0,55 -0,35 42 3,77 3,50 1,08 6,3 3,0 5,8 5,0 6,5 1,0 x11 npu
act3 ksk 3 995 4 2-8-10 1 52 5 36 93 133 -1,17 1,38 -0,50 136 3,88 3,21 1,21 10,0 3,0 6,8 7,5 6,8 2,5 x12 ksk
act4 sma 3 894 11 2-7-10 3 65 14 55 98 167 -1,13 1,20 -0,74 -32 6,21 3,96 1,57 12,1 5,6 9,2 6,9 5,6 2,3 x13 sma
alp2 rpl 527 5 2-7-12 9 102 34 47 74 156 -2,66 1,52 -0,95 -237 7,27 4,11 1,77 20,9 5,7 13,3 11,4 11,4 4,2 x14 rpl
act2 blo 1 045 1 2-7-10 1 60 13 71 93 177 -2,11 2,23 -0,72 -40 7,34 4,55 1,61 14,4 3,8 13,4 8,6 10,5 4,3 x15 blo
alp5 rtb 505 4 2-7-12 8 103 42 51 71 164 -1,98 1,32 -0,40 -248 8,25 3,80 2,17 25,7 5,9 13,9 7,9 11,9 3,3 x16 rtb
alp1 pub 601 58 2-6-8 97 448 20 125 126 271 -17,89 -0,42 -1,16 -208 12,06 5,41 2,23 94,8 23,3 21,6 8,3 13,3 17,5 x17 pub
act5
alp6
arc5
bac9
bct3
bde4
clo9
cya3
gam
neg2
ter3
clade gen c+ zéros maxp s0 s6 sx s18 s42 t42 p6 px p18 p42 I.18 I.30 18/30 mx6 mn6 mx12 mx42 mx162 px-p6 Form gen
m 15,44 8,9 85,1 22,7 96,1 116,5 239,7 -3,1 3,3 -1,1 -259,3 10,9 6,0 1,7 20,7 4,5 18,7 9,9 8,0 7,1
e 9,65 6,4 19,7 10,1 33,5 22,5 43,4 1,3 1,6 0,5 90,4 2,6 1,3 0,4 6,6 1,8 6,5 2,5 2,4 3,1
m/e 1,60 1,4 4,3 2,2 2,9 5,2 5,5 -2,5 2,1 -2,3 -2,9 4,1 4,5 4,9 3,2 2,5 2,9 3,9 3,3 2,3
plage 2-39 2-36 41-134 10-47 41-151 71-164 156-303 5,6-1,2 1,2-6,8 2-0,5 423-91 6,2-16,5 3,8-8,8 1,1-2,3 9-37 1,5-8 7-35 5-17 5-17 2,3-14
gen 52 52 52 48 53 56 49 47 51 43 38 52 53 52 53 51 56 58 58 54
Intergen51. Classement des courbes CDS-CDS positifs continus fc40.Note
modifier
  • La note sur le classement des fc40: je l'ai déjà faite avant de changer les diagrammes de effect à %. La construction ancienne, svg-fc200-241024 (svg-fc200 note), est la même mais j'ai supprimé certaines colonnes. Reprendre ici cette note en l'adaptant après l'introduction.
  • Il faut tout vérifier, notamment les moyennes, à cause des erreurs des diagrammmes de aua abq absp.
  • dissymétrique fort D2 psor
  • symétrie forte S3 eco
  • dissymétrique courte D1 lam
  • symétrie à rebond S1 abs
  • plat X npu
  • Intercalaires de 0-6 excessifs masquant le rebond à la fréquence 12, pub
  • Les diagrammes fc40
    - Lien au tableur: Moyennes par clade et forme.
    - A la différence des diagrammes c+, fc1 et fc41, dont les abscisses sont des lots de 10 fréquences consécutives (freq10), ici ce sont des fréquences unitaires (freq1). Les ordonnées sont en ‰ du total des intercalaires positifs continus, sauf pour les images des fc40 des totaux des clades qui sont en effectif (effect).
    - Les diagrammes fc+, en fréquences unitaires sont apparus dès les 1ères investigations en comparaison des intercalaires négatifs fc- et fx- qui avaient très peu d'effectifs et ne nécessitaient pas de regroupement en lots de 10 fréquences consécutives. Dans les 1ères études j'avais essayé de retrouver des cycles ternaires comme avec les négatifs, mais ce n'était pas systématique. Aussi j'ai gardé les étiquettes modulo 6 (exemple lbu).
    - Les 4 courbes des clades alpha-c, gamma-c, bacilli-c, clostridia-c, cumuls, respectivement, de 14 9 8 8 génomes (éléments). Elles se distinguent par leurs formes qui collent parfaitement à la courbe de tendance en polynôme de d° 12 avec, respectivement, un coefficient de détermination de 0.973 0.908 0.916 0.921. Pour les besoins du classement j'ai divisé ces courbes en 4 régions:
    1. région de l'abscisse 1 à 6, avec une pente forte négative
    2. région de l'abscisse 6 à 12, avec une pente forte positive
    3. région de l'abscisse 12 à 18, avec une pente forte négative pour gamma et alpha et une pente faible pour bacilli et clostridia
    4. région de l'abscisse 18 à 40, avec une pente négative très faible pour alpha et gamma, et faible jusqu'à l'abscisse 24 puis très faible au-delà pour bacilli et clostridia.
    A cette division schématique en 4 régions, les courbes réelles de ces 4 clades ont des frontières qui varient légèrement et ne permettent pas, donc, d'appliquer les mêmes calculs, de pente et de cumuls, pour les 4 clades, et encore moins quand je dois les appliquer aux génomes individuellement. Les frontières réelles sont,
    • alpha minimum à 7, maximum à 12, maximum de la courbe à 12 ( c12 ). Courbe en cloche symétrique avec 18 en bas et possède un épaulement entre le minimum 7 et le maximum 12. Le maximum de la région 1 à 6 ne se trouve pas en 1 mais en 2.
    • gamma min 6, max 9, c10, cloche symétrique avec 18 en bas, sans épaulement entre le minimum 6 et le maximum 9. Le maximum de la région 1 à 6 ne se trouve pas en 1 mais en 2.
    • bacilli min 8, max 12, c14, cloche dissymétrique avec 18 dans un épaulement presque au niveau de c14. Le maximum de la région 1 à 6 se trouve en l'abscisse 1.
    • clostridia min 7, max 12, c13, cloche dissymétrique avec 18 dans un épaulement presque au niveau de c13. Le maximum de la région 1 à 6 se trouve en l'abscisse 1.
    - Calcul rapproché des pentes des régions: Le calcul des pentes devrait se faire mathématiquement en calculant la tangente passant par les points d'inflexion, avec les dérivées 1ère et seconde de l'équation de la courbe de tendance. Cependant les solutions de ces équations de d°11 et d°10 sont difficiles à calculer. Un calcul numérique approché, en utilisant le tableur, est possible en repérant un point et en calculant ces dérivées de façon itérative pour obtenir un minimum ou un maximum supposé. Et même, dans ce cas, il faudrait relevé à la main une vingtaine de coefficients pour les d°12 et d°11, puisque le tableur de LibreOffice ne permet pas d'obtenir directement ces coefficients à 16 décimales qu'on peut stocker dans une cellule adressable. Aussi j'ai opté pour un calcul simple entre 2 points définissant un segment de droite le plus rapproché de la tangente au point d'inflexion considéré. Chez les 4 clades ci-dessus j'aurais choisi,
    • pour alpha, les abscisses 3-7-12. La pente de la région 1-6 est alors [ordonnée(7)-ordonnée(3)]/(7-3), celle de la région 6-12 [(12)-(7)]/(12-7), celle de 12-18 et celle 18-40 de même et ainsi de suite. J'ai ignoré dans ce calcul l'épaulement entre min7 et max12.
    • pour gamma, les abscisses seraient 2-6-10. Je ne présente pas l'abscisse 18, parce qu'elle sera toujours la même.
    • pour bacilli, j'aurais pris 1-8-11
    • pour clostridia, j'aurais pris 1-7-10
    - Confection du tableau de classement des fc40: En se basant sur ces 3 abscisses, de la colonne maxp, le tableur permet de calculer facilement les autres colonnes avec des fonctions (du tableur) qui peuvent être copiées d'un génome à l'autre en adaptant la zone sélectionnée, par glissement de son rectangle, selon les abscisses de maxp. Voir le récapitulatif des calculs à la fin de cette note des fc40.
    - Analyse des colonnes du classement, génome par génome. Les valeurs faibles sont indiquées en bleu et les fortes en gras. En bas du tableau sont indiqués la moyenne, l'écart type de la plage sans les extrêmes de chaque colonne ainsi que leur rapport m/e pour une indication de la dispersion.
    • Les pourcentages d'après la notation a-b-x utilisée pour la colonne maxp
      1. Colonne s0, taux des zéros intercalaires positifs continus
        • Les zéros représentent les opérons standards, aucun intercalaire entre 2 enzymes. Les intercalaires -1 me semblent appartenir aux opérons aussi parce qu'il me semble que j'ai déjà vu des opérons comme ça dans [65] EcoCyc, la traduction dans le ribosome se décale d'une paire de base. Est-ce que c'est le cas pour les intercalaires de 1 à 6? qui diminueraient progressivement, le décalage devenant de plus en plus difficile? Est-ce que les zéros peuvent exister autrement que dans un opéron?
        • Hétérogénéité des zéros, colonne zéros en effectifs: aua n'a pas de zéros et 100 ‰ intercalaires de 1 à 7 comme absp avec 61 ‰ de 1 à 6; blo a un seul intercalaire zéro et 59 ‰ de 1 à 7; oan2 1 et 112 ‰ de 1 à 6. Les autres génomes ont 2 zéros et plus et des intercalaires 1-6 très nombreux. A l'autre extrême il y a 9 génomes sur 58 qui ont plus de 28 zéros dont pub 58 soit 97‰ , ant 56 33‰, cdc et cdc8 38 14‰, cle 35 12‰, pmg 34 36‰, ban 33 10‰, mfi 29 19‰ et ecoN 29 10‰. Les alpha ont une moyenne, en ‰, de 3.6 (sans pub), les gamma 8.4, les bacilli 9.4 et les clostridia 9.9.
        • Le pic des intercalaires 0-3, les zéros sont toujours inférieurs à int1, ce qui fait que 1-3 est un pic, sauf pour pub mfi pmg vha2 ppmp.
        • Les intercalaires int-1 peuvent former un autre pic plus élevé que celui de int1-3. Par exemple pub a 152 c- en int-1 alors qu'en c+ le max int1-3 est à 58.
      2. colonne s6, somme des taux des intercalaires de 0 à b paires de bases
        • Ces intercalaires sont assez homogènes quand je considère la totale, avec m e m/e, 85.1 19.7 4.3 sur 52 génomes. Cependant, en considérant les clades, l'homogénéité augmente mais je ne retrouve pas les différences nettes qu'avec la colonne des zéros: alpha (sans pub) 94.7 15.6 6.1; bacilli (sans ppmp) 89.0 21.7 4.1, clostridia 77.4 12.4 6.3, gamma 84.7 10.2 8.3.
        • Les minima présentent des anomalies dans les abscisses de 1 à b. Avec ppmp, 41‰, le pic de la colonne se trouve en l'abscisse 5 et le minimum b en 7. Avec npu,47‰, le pic est en 5 et le minimum est en 9 pas en b qui est 7.
        • Les maxima (des pics a) présentent des taux très élevés. Avec pub, 448 ‰, le pic (58) se trouve en 2 et le zéro (58) et le maximum x (de maxp) est insignifiant et la courbe de tendance ressemble à un polynôme de d°3. Le génome pmg présente une anomalie à la colonne s6: Le taux très élevé de 191 ‰ est réparti sur 5 pics, 0 2 3 4 6; Le minimum b est à 7; Le polynôme 12 ne correspond pas au sommet en cloche du total mais le diagramme en % à partir de l'abscisse 7 présente un sommet symétrique qui était caché par la prédominance de la colonne s6. Les autres génomes, ant abra fps myr (taux 208 ‰ 181 178 162) ont des polynômes 12 normaux pour ant (qui a un pic à zéro de 56 en effectif) et abra, et des polynômes normaux mais escamotés par la prédominance de la colonne s6 pour fps et myr. Les diagrammes 7-40 de ces derniers, en pourcentage, le montrent bien.
      3. colonne sx, somme des taux des intercalaires de b+1 à x-1 paires de bases
        - Cette colonne est difficile à déterminer car mon objectif était de montrer que la pente p6 est raide et donc que les valeurs de cette colonne seraient faibles. Mais certains génomes présentent des pics dans cette région qui font que les valeurs de la colonne peuvent être élevées alors que la pente est faible. C'est le cas de abs absp agrl (valeurs en gras) pour le clade alpha. Le clade alpha et bacilli sont très hétérogènes pour cette colonne avec 2 valeurs faibles (valeurs en bleu) ne correspondant pas à une pente forte. C'est le cas de abqp et lbu. Les clades clostridia et gamma sont un peu plus homogènes. Les moyennes et écarts pour alpha et bacilli sont (m m/e), respectivement, 35.5 2.2 et 15.5 1.8 . Alors que pour clostridia et gamma les écarts sont plus élevés, respectivement, 22.9 3.6 et 16.0 2.7. Il serait peut être intéressant d'additionner les 2 colonnes sx et s18 pour comparer la somme à la colonne s6.
      4. colonne s18, somme des taux des intercalaires de x à 18 paires de bases
        • Cette colonne a pour 1er objectif de distinguer entre les sommets en cloche symétriques et dissymétriques, et de comparer les 2 colonnes s6 et s18. Les 2 colonnes, s6 s18, sont globalement semblables avec, respectivement les moyennes m e m/e, 85.1 19.7 4.3 52gen - 96.1 33.5 2.9 53gen, sans les extrêmes.
        • La comparaison de la symétrie doit se faire par clade, ayant observé que les clades gamma et alpha, pour la courbe de tendance, ont un sommet en cloche symétrique et les clades clostridia et bacilli ont un sommet dissymétrique. La comparaison des taux dans la colonne s18 montre tout à fait le contraire car ce taux dépend aussi de la hauteur du sommet. Les moyennes par clade le montrent clairement, les moyennes des bacilli et clostridia sont plus faibles que celle de gamma mais plus fortes que celle de alpha:
          clade   m   e   m/e   gen
          bacilli   102   42   2,5   8
          clostri   98   21   4,7   8
          alpha   72   22   3,2   13
          gamma 124   26   4,7   9
        • les génomes extrêmes:
          sommets dissymétriques: apal 164 lam 148 lmo 147
          sommets symétriques: mja 170 eco 155 ecoN 151 ant 150
          sommets avec une hauteur faible: npu 18 ksk 36 abq 41
      5. colonne s42, somme des taux des intercalaires de 19 à 42 paires de bases
        • Le choix de la limite 42: J'ai mentionné, au début du chapitre les diagrammes fc40, la tentative de repérer des cycles ternaires comme pour les intercalaires négatifs. Ensuite, pour caractériser les diagrammes fc40 j'avais essayer de diviser ce diagramme par tranche de 6 intercalaires jusqu'à l'abscisse 36. Mais, finalement, j'ai choisi un schéma de partage pour chaque génome avec la colonne maxp plus adaptée à la variabilité des frontières. Cependant pour comparer grossièrement entre tranche, du point de vue du taux ou de la pente, j'ai gardé le partage en tranche de 6. Ainsi la colonne s6 a 6 intercalaires, la colonne s18 6 aussi (grossièrement de 12 à 18), la colonne s42 4 fois 6 et la colonne mx162 20 fois 6.
        • Comparaison des taux unitaire par région. J'utilise ici la moyenne, m, de chaque colonne indiquée en bas du tableau. Ainsi les colonnes s0 s6 s18 s42 ont les taux unitaires respectifs pour 58 génomes de 9.7 99.9/6 97.2/6 118.5/24 et sans les extrêmes - 8.9 85.1/6 96.1/6 116.5/24, soit, 9.7 16.6 16.2 4.9 et sans extrêmes - 8.9 14.2 16.0 4.9. Pour les pentes des colonnes p6 p18 p42 elles seront proportionnelles à ces taux, voir les paragraphes correspondants ci-dessous.
        • La colonne s42 caractérise bien la moitié droite du sommet en cloche de l'abscisse x pour chaque génome et correspond aux formats constatés de la colonne forme qui distingue les sommets symétriques des dissymétriques. C'est ce que ne fait pas la colonne s18 comme je l'ai indiqué ci-dessus. Par ailleurs la colonne s42 est très homogène pour 56 génomes (sans les extrêmes), m e m/e: 116.5 22.5 5.6. Voici les moyennes par clade à comparer avec celles de la colonne s18.
          clade  m  e  m/e  gen
          bacilli  130  14  9,4  8
          clostri  140  21  6,5  8
          alpha  113  24  4,7  13
          gamma  109  15  7,1  9
        • de même les maxima par clade montrent cette différence entre symétriques et dissymétriques:
          sommets dissymétriques: bacilli 5/8 entre 134 et 147, clostridia 6/8 entre 131 et 164.
          sommets symétriques: abqp 153 absp 139 oan2 135 mja 176, les gamma 9/9 inférieurs à 126, de même pour les autres alpha symétriques.
          sommets avec une hauteur faible: npu 83 ksk 93.
      6. colonne t42, somme des taux des intercalaires de x à 42 paires de bases
    • Les pentes, d'après la notation a-b-x utilisée pour la colonne maxp.
      - Pentes, p6 x 18 42: ce sont les pentes de a-b, b-x, x-18, 18-42 (sauf agrc avec 18-43). Le calcul de p6 suis le maxp.
      - Les moyennes de ces 4 colonnes sont homogènes sans les extrêmes (bleu gras), comme en bas du tableau. Les (moyenne m/e et nombre de génomes) respectifs sont: (-3.1 -2.5 47) (3.4 2.1 51) (-1.1 -2.1 43) (-259.3 -2.9 38). Et pour 58 génomes l'homogénéité est divisée par 2, (moyenne m/e), (-3,7 -1,4) (3.9 1,4) (-1,1 -1,6) (-231.3 -1,1). Les moyennes par clade sont en bas de la note et sont utilisés pour les commentaires qui suivent.
      1. colonne p6, pente a-b , entre les abscisses a et b colonne p6, pente a-b , entre les abscisses a et b
        - Parmi les 6 clades, 5 ont une moyenne comprise entre 2.8 et 3.6 et actino est largement inférieure avec 1.5. Pour l'homogénéité, 3 sont très homogènes avec un m/e supérieur à 3.1, actino clostridia gamma; 3 sont très hétérogènes, spécialement les bacilli avec 1.5. Les alpha sans pub avec 2.1 et les archéo avec 2.0 sont faiblement homogènes.
      2. colonne px, pente b-x entre les abscisses b et x
        - Pour la moyenne, j'ai la même configuration que la colonne p6. Une moyenne haute, entre 2.7 et 6.9, pour les mêmes 5 clades et actino avec une moyenne aussi faible de 1.5. Par contre, pour l'homogénéité, seul bacilli change complètement en passant de 1.5 à 2.9 et devient très homogène. Clostridia actino alpha restent les mêmes 3.5 3.1 2.2. Les gamma chutent de moitié et passent de 3.5 à 1.7 comme archeo de 2.0 à 1.0.
      3. La profondeur px-p6:
        - C'est la 2ème plage de forme après la cloche de la plage 0-6 que j'ai classée avec la lettre F6 (voir ci-dessous la colonne i.6). La 3ème plage de forme est la cloche de la plage 6-18 que j'ai classée dans la colonne form. Je note cette forme de profondeur en V, V6.
        - La colonne n'est pas homogène (m m/e) 7.1 2.3 avec 54 génomes et une étendue 2.3-14.
        - Pour les 4 clades majeurs l'homogénéité est moyenne (m m/e): alpha 5.6 3.0 sans pub, gamma 9.5 4.0 sans vbp2, clostridia 5.8 4.0, bacilli 7.5 2.3. Je note la différence de moyenne entre alpha et clostridia 5.7 faible, d'une part, et celle 8.5 de gamma et bacilli, élevée et qui peut atteindre le double, d'autre part.
        - Pour les classes de la colonne form l’homogénéité est forte si j'omets 1 à 2 génomes par classe. Ainsi (m m/e), D0 3.7 6.5, D1 5.1 8.4 sans lbu lam, D2 7.3 5.2 sans apal scc, S1 6.1 4.1 sans mfi abs, S2 6.9 4.1 sans vbp2, S3 11.1 5.4 sans ant, X 2.9 2.3 sans pub. Je note la corrélation entre mx12 et la profondeur dans les 2 formes D et S, 3.7 5.1 7.3 pour D et 5.0 6.9 11.1 pour S. En outre il faut noter la ressemblance entre D0 et X, 3.7 2.9, qui associe une dissymétrie de ppm et pmq d'une profondeur de 3.1 aux diagrammes D plats mfe mba ppmp avec une profondeur de 4.0, aux diagrammes X plats npu ksk sma avec 2.0 et aux X difformes rtb rpl blo avec 4.0. Par ailleurs les diagrammes à très grande cloche F6 sans symétrie nette de form, fps myr pmg pub ont une profondeur très élevée à cause de l'extrême mx6, 8 7 12 17.
        - Classement de la forme V6: V601 de profondeur 1-3 (5) ppm pmq npu ksk sma, V602 de profondeur 4-4.4 (9) mfe mba ppmp rtb rpl blo mfi abs ase, V61 de profondeur 5.1 (6) D1 sans lbu lam, V62 de profondeur 7.3 (5) D2 sans apal scc, V63 de profondeur 5.0 (7) S1 sans mfi abs, V64 de profondeur 7.3 (9) S2 sans vbp2 ase, V65 de profondeur 11.3 (14) S3 sans ant plus lbu lam scc apal, V66 de profondeur 18.2 (3) pub ant vbp2.
      4. colonne p18, pente x-18 entre les abscisses x et 18
        - Pour la symétrie, constatée chez les 4 clades principaux alpha gamma clostridia bacilli, cette colonne concorde bien avec elle. Pour la symétrie de alpha et gamma les 2 pentes, à droite du sommet, doivent être plus fortes que pour bacilli et clostridia qui sont dissymétriques. Les moyennes négatives sont respectivement 1.30 1.47 0.33 0.75 et les clostridia (sans cle) sont plus dissymétriques comme je l'ai constaté. Malgré la faiblesse des moyennes l'homogénéité m/e reste élevée pour alpha bacilli gamma, entre 1.86 et 2.19, mais elle est très faible pour les clostridia avec 1.35. Les 2 clades restant sont plus proches de la dissymétrie, 0.88 pour les actino et 0.64 pour les archéo. Cependant actino se démarque encore des archéo par leur homogénéité, 1.89 contre 1.24.
      5. colonne p42, pente 18-42 entre les abscisses 18 et 42 (multipliée par 1000)
        - Pour les 4 clades principaux la symétrie est respectée, alpha 141, gamma 239, pour les symétriques qui ont épuisé p18, et bacilli 356 clostridia 336 qui ont encore des intercalaires en nombre dans p18.
    • Les indices de fréquences
      - i.30. Ces indices donnent une valeur moyenne par intercalaire. Donc c'est la somme des fréquences d'une plage divisée par sa longueur. Les 3 plages utilisées sont: I.6 0-6 de longueur 7, i.18 7-18 de longueur 12 et i.30 19-30 de longueur 12. J'ai commencé par utiliser i.30 pour comprendre pourquoi des génomes à cloche symétriques se comportent comme des génomes dissymétriques (p18 p42): c'est le cas de abqp (-0.60 -181) mfi (-0.46 -189) en comparaison avec lbu (-0.61 -152) cbei (-0.36 -239). Et d'autre part il y a des symétriques qui ont un p42 positif, rru (-1.67 +39) abs(-1.3 +27). Deux constatations, à la vue de ces 4 diagrammes, m'ont poussé à utiliser l'indice i.30:
      1. abs et rru présentent un rebond au niveau de l'abscisse 30 et cela accentué par l’ordonnée concave de l'abscisse 18. L'indice i.30 sera élevé et indiquera un rebond. Le diagramme de abq a la même forme avec l'abscisse 18 concave et un rebond (-1.92 +0.05).
      2. mfi et abqp ont une ordonnée convexe à abscisse 18. Ceci explique la faiblesse des pentes p18 et p42 comme pour une dissymétrique. Cependant mfi ne présente pas de rebond net alors que celui de abqp est très prononcé. En fait, comme je l'annoncerai pour le rapport i.18/30, c'est ce dernier qui définit le rebond. Ainsi mfi a un rapport de 2.0 comme les symétriques contre moins de 1.7, comme les dissymétries pour abq abs abqp (les rapports sont indiqués sur les diagrammes en 4ème position).
      - i.18. Cet indice est apparu après i.30 comme je l'ai noté ci-dessus. Mais les moyennes par groupe de forme, qui est ordonné par rapport au maximum mx12, ont révélé que cet indice serait plus homogène que ce maximum. Ainsi les écarts sont semblables sauf pour D0 (-ppmp) et S3 (-ant) de mx12 (i.18 mx12), D0 (5.1 7.1) D1 (5.4 7.2) D2 (6.8 6.8) S1 (10.1 9.8) S2 (6.0 4.1) S3 (9.2 7.6) X (2.5 2.2). Mais (m m/e) avec ppmp D0 (5.7 3.0) et avec ant S3 (6.2 3.7).
      - Le rapport i.18/30. Il m'a permis de visualiser numériquement un sous groupe des symétriques, les symétriques avec rebond en l'abscisse 30 avec un rapport 18/30 des dissymétriques, inférieur à 1.7 (abq.p abs.p aua rpm rru); et un sous groupes des dissymétriques, les dissymétriques à pente p42 courte avec un rapport 18/30 des symétriques, supérieur à 1.7 (lam scc apal bsu).
      - i.6. Ils n'apparaissent pas dans le tableau mais sont dans sa sauvegarde. Cet indice concerne le classement de la forme 0-6. Il est régulièrement homogène (m m/e):
      1. pour le total , 12.1 4.7 avec 48 génomes et sur une plage 8-19;
      2. pour les formes  D0 8.1 5.7 D1 12.5 5.0 sans cbei D2 12.1 5.2 sans apal S1 11.1 6.7 S2 12.7 5.7 sans myr fps S3 13.6 9.6 sans pmg ant abra.
      3. pour les clades: actino 8.4 4.8 alpha 12.6 5.2 sans pub archeo 11.2 4.1 bacilli 10.9 4.0 sans ppmp lam clostridia 10.6 6.9  gamma 12.0 8.1.
      4. Classement des intercalaires de 0 à 6 sans form: Elle sera basée donc sur l'indice i.6 et je donne les noms de classe F6. La classe F60 contient les 4 1ers indices jusqu'à 7.30 nup ppmp ksk cbei, la classe F61 de 8.0 à 11.3, la classe F62 de 11.7 à 19.1 et enfin la classe F63 contient les 6 indices les plus élevés myr fps abra pmg ant pub. Le génome apal a un indice de 19.1 proche de abra avec 25.2 et serait en compagnie des F63.
      5. Classement des intercalaires de 0 à 6 avec form: A l'image du classement de profondeur px-p6, V6 (voir ci-dessus). F60 D0 8.1 5.7 (5), F61 D1 sans cbei lam 11.7 7.2 (6), F62 D2 sans apal 12.1 5.2 (6), F63 S1 11.1 6.7 (9), F64 S2 sans fps myr 12.7 5.7 (9), F65 S3 sans pmg abra ant 13.6 9.6 (8), F66 X sans pub rpl rtb 7.0 4.5 (4), F67 fps myr apal abra pmg lam 21.9 6.5 (6), F68 pub 63.9 ant 28.6. Je note une progression en parallèle de mx12 beaucoup plus faible qu'avec le classemment V6, D 8.1 10.5 11.3, S 11.1 12.7 14.2
    • Les extrêmes, x pour maximum et n pour minimum et notation a-b-x.
      - C'est intéressant pour repérer des pics au-delà de l'abscisse 42, plage que j'étudie au chapitre des fc400, mais aussi pour relativiser ces colonnes entre elles.
      1. mx6, maximum de la plage des ordonnées de l'abscisse 0 à l'abscisse b
        - Sans ses valeurs extrêmes, cette colonne est très homogène avec un m/e de 3.2. Et sa moyenne est la plus élevée des 4 colonnes des extrêmes, 20.7, mais elle est comparable à la moyenne de l'extrême mx12, 18.7, ce qui justifie l'importance de la plage 0-6 comme je l'ai mentionnée dans l'étude de la colonne s0 des zéros. Les exclus sont npu pour les bleus et pub ant abra apal pour les gras. Je retrouve les 4 extrêmes de la colonne s6 pub pmg ant abra sans fps et myr qui sont remplacés par apal. Ce dernier est très loin de abra dans la colonne s6, 134 contre 181.
      2. mn6, minimum de la plage des ordonnées de l'abscisse 0 à l'abscisse b
        - Cette colonne est très intéressante en comparaison avec mx162. Ses minima dépassent souvent les maxima de la colonne mx162: la plus grande différence est avec pub, 10 ‰; elle est entre 2.5 et 0.3 pour fps myr pmg ant ase; nulle pour sma eal oan1; et elle est négative au-delà de 2 ‰ jusqu'à 7 ‰ sauf pour ecoN spl rpm aua abq ade qui vont de -0.4 à -1.3 et les extrêmes -9 pour ppmp -11 vha1 -14 vha2.
      3. mx12, maximum de la plage des ordonnées de l'abscisse x à l'abscisse 18
        - Cette colonne est semblable à mx6. Seulement 13 génomes ont mx6 < mx12, 5 gamma (vha2 vbp2 eco ecoN eal), 4 bacilli (bsu ban ppmp lmo) abqp ase afn cle, les autres ont une différences positive. Les 11 différences positives les plus grandes dépassent 11 ‰, pub 73, abra apal 21, myr fps 14, lbu lam 12, rtb oan1 11, scc ant 11. La colonne mx12 est très homogène sans les bleus et les gras (npu ant) avec un m/e de 2.9.
      4. mx42, maximum de la plage des ordonnées de l'abscisse 19 à l'abscisse 42
        - A la suite du tableau du classement des fc40, j'ai ajouté une colonne pour les différences mx42-mx162.
        - Ces différences montrent clairement la dissymétrie de la classe D et la symétrie de la classe S1. Les classes S2 et S3 semblent être dissymétriques comme la classe D, mais ça s'explique par leurs sommets très élevés tout en étant symétriques.
      5. mx162, maximum de la plage des ordonnées de l'abscisse 43 à l'abscisse 162
        - Le résultat le plus important est la valeur la moyenne de 8.0 ‰ que je retrouve dans les diagrammes des X en ‰ sur la plage 7-40 au lieu des valeurs normales que j'ai trouvé dans la colonne mx12, de 18.7 ‰.
        - La colonne est très homogène avec un m/e de 3.3.
    - Le classement par les maxima mx12 Moyennes par clade et classe.
    - La forme du diagramme, form. Je considère ici la forme du polynôme de d° 12 qui doit épouser la forme de celui du total (le fc40 des 58 génomes) avec un minimum autour de l'abscisse 6 et 2 maxima autour de 3 et de 12 suivi d'une pente plus ou moins abrupte, p18. C'est le zigzag que j'ai mentionné dans la légende V\. Le polynôme, tenant compte des 40 points du total, peut ne pas épouser la symétrie de la zone de 6 à 18 intercalaires. Dans certains cas j'attribue la symétrie en m'appuyant sur la série des points. Le classement avec mx12 s’appréhende directement (avec comme repère l'abscisse 12 indiquée sur le diagramme) et plus facilement qu'avec i.18 qui reste abstrait.
    - Pour le classement j'ai affecté, dans un 1er temps, la lettre D pour dissymétrie, S pour symétrie et X pour les 7 restants. Puis j'ai trié sur form croissant puis en 2ème clé croissant mx12. Suivant des ruptures franches j'ai subdivisé D en D0 D1 D2 et S en S1 S2 S3, subdivisions que j'ai noté séquentiellement. Les diagrammes sont réunis dans une image correspondant à un sous-groupe, sous-titrés dans l'ordre par mx12 i.6 i.18 i.18/30. Les valeurs de i.6 sont sauvegardées avec ce tableau dans le tableur (voir lien avant la légende du tableau).
    - Le tri avec mx12 est le même qu'avec i.18, corrélation avec un R2 de 0.817 sans ppmp vbp2 (0.766 avec). Sauf la classe X toutes les autres sont homogènes pour i.18, m/e supérieur à 5.4. Et sauf la classe D0 toutes les autres sont homogènes aussi pour i.30, m/e supérieur à 5.6 (I.30 S3 fait 4.6 mais sans mja 5.8). Dans la légende du tableau j'ai calculé les valeurs de mx12 pour ppmp et vbp2 en utilisant la droite de corrélation et j'ai nommé la forme en conséquence.
    - Calcul de l'homogénéité de D0 sans ppmp: 8,78 1,24 7,08; Calcul de S2 sans vbp2 19.04 1.57 12.15; Calcul de S3 sans ant 27,77 3,65 7,61.
    - Homogénéité des pourcentages 18: D0 D2 S3 sont homogènes (m/e supérieur à 6.1), D1 S1 S2 sont moyens (m/e supérieur à 3.3) mais D1 sans hmo obtient 4.8, S1 sans vha1 obtient 4.1 et S2 sans vbp2 et ade obtient 5.6. L'homogénéité de 42 est supérieur à 4.0 pour tous les groupes mais c'est du aux pourcentages élevés d'une zone 4 fois plus large que 18, 24 intercalaires contre 6. L'homogénéité par clade n'apparait qu'avec gamma et clostridia avec un m/e de 4.7 chacun, sinon les actino archeo bacilli alpha ont moins de 3.0.
    - Les formes secondaires à rebond pour les symétriques (i.18/30 inférieur à 1.70: abq,p abs,p aua rpm rru mja) et à pente courte pour les dissymétriques (i.18/30 supérieur à 1.70: lam scc apal). Noter les petits rebonds (surtout au niveau de l'abscisse 21: mja vha2 eco ecoN eal ona2 vbp2 ase amed mfi).
    • Symétrie
      - C'est avec avec un maximum mx12 fort qu'on apprécie la symétrie, notamment le groupe S3. Si je ne considère que la courbe du polynôme 9 génomes paraissent symétriques, mja a un fort rebond qui le rapproche des dissymétriques avec un rapport i.18/30 de 1.6, et pmg qui est masqué avec un taux i.6 très élevé de 25.6 et aussi un rapport i.18/30 de 1.8 proche des dissymétriques.
      - Parmi les 9 génomes symétriques eco oan2 abra présentent une symétrie de la série 6-18, avec les ordonnées de 6 et 18 presque au même niveau et un mx12 de 11 ou 12; vha2 eal se rapprochent de ces 3 derniers mais leur sommet est fourchu; ant a une symétrie comme les 3 1ers mais sa cloche est décalée vers la gauche avec un mx12 de 9 et une plage 5-17 au lieu de 6-18; les 3 derniers, ecoN afn vbp1, ont une ordonnée (18) trop élevée avec un rapport i.18/30 faible (2.1 2.0 1.9) mais qui affaiblir la pente p18 comme les dissymétriques.
      - Il faut remarquer que sur les 9 symétriques en poly12 2 seulement ne sont pas des proteobacteria, afn et abra et 5 sont des gamma. C'est ce qui explique l’homogénéité des gammas observée ci-dessus de m/e de 4.7, si l'on ajoute les gammas des groupes S2 (vbp2) et S1 (spl amed vha1).
      - Il y a 20 symétriques dont les 9 de S3.
      1. Symétrie de la série 6-18 comme eco oan2 abra: oan1 vbp2 S2, spl S1. Total 6 à symétrie de la série 6-18.
      2. Sommet fourchu comme vha2 eal: agrc ade cvi S2, mfi S1. Total 6 à symétrie avec sommet fourchu
      3. cloche décalée comme ant: ase S2. Total 2 à symétrie de cloche décalée.
      4. ordonnée (18) élevée comme ecoN afn vbp1: agrl S2, amed vha1 S1. Total 6 à symétrie avec ordonnée (18) élevée.
      - Il y a 8 symétriques à rebond avec i.18/30 inférieur à 1.70: abq,p abs,p aua rpm rru mja. Le rebond est net visuellement pour 7 sauf pour rpm qui a un rapport i.18/30 très faible, 1.63, plus faible que celui de rru, 1.69.
      - Les petits rebonds des symétriques nets, surtout au niveau de l'abscisse 21: vha2 eco ecoN eal ona2 vbp2 ase amed mfi.
      - Cas de mja S3 à 2 cloches symétriques en l'abscisse 12 et 21. La 2ème cloche est analogue à celle de vha2 S3 mais en plus grand: ordonnée(21) 15.0 contre 8.4.
      - il y a 3 symétriques masqués par le maximum 3: myr fps pmg.
    • Dissymétrie
      - C'est avec un maximum mx12 fort et une pente p18 faible que j'apprécie la dissymétrie, notamment avec le groupe D2. Si je ne tiens compte que de la longueur de la pente p18, 5 génomes sur 7 de ce groupe sont dissymétriques nettement. Les 2 autres génomes, scc et apal, ont une pente faible comme les autres mais elle s'arrête rapidement, à l'abscisse 17 pour scc et 21 pour apal, alors que les 5 autres, elle s'arrête au-delà de l'abscisse 30 et même 36 pour psor et cle.
      - Les clostridia forment un groupe homogène comme je l'ai signalé pour les gamma avec un m/e de 4.7 du pourcentage 18 et 5.4 du mx12. Outre psor cle, dans le groupe D2 les 6 clostridia restant ont tous une pente longue qui va au-delà de l'abscisse 30. Ce clade se distingue des bacilli par un rapport i.18/30 très faible 1.3 pour les 6 du groupe D1. Psor et cle ont un rapport standard de 1.6. Total de 8 clostridia à dissymétrie nette.
      - Les bacilli est un groupe hétérogène avec un m/e de 2.5 pour le pourcentage 18 et 2.9 pour mx12. Cette hétérogénéité est due surtout à ppm ppmp pmq du groupe D0 avec un indice i.18 très faible, respectivement, 6.5 5.1 6.5 et de même pour le rapport i.18/30 parmi les plus faibles, 1.0 1.2 1.1. Seul ppmp peut être exclu des dissymétriques à cause de son taux i.18 du même niveau que les génomes plats mfe mba npu ksk, respectivement, 4.4 4.9 3.8 3.9; ppm pmq par contre ont une pente longue qui va au-delà de 30 avec un minimum mn6 net de 3.8 et 2.2 pour un i.18 de 6.5. En outre lam a une pente courte qui s'arrête à l'abscisse 21 avec un rapport de 2.2 comme un symétrique. Il reste donc 6 bacilli à dissymétrie nette, ppm pmq de D0, lbu en D1, ban bsu lmo de D2.
      - Il y a 3 dissymétriques à pente courte: scc lam apal avec un rapport i.18/30 supérieur à 2. La pente s'arrête à l'abscisse 21 ce qui affaibli l'indice i.30.
      - Cas de apal: si on le considère comme un génome symétrique (cloche entre les abscisses 6 et 18), sa cloche est plus grande entre 6 et 21. Ce qui l'associe à un dissymétrique à pente courte. La symétrie est plus adéquate parce que en plus de la cloche du poly12 la série de données est vraiment symétrique.
    • Les diagrammes difformes par rapport au polynôme de d°12 de la totale
      - agrl afn semblent difformes mais c'est du à l'ordonnée (18), ce sont bien des symétriques avec une ordonnée (6) très basse respectivement 7 4, un mx12 très grand 19 33 et un rapport i.18/30 de 2.0 des bons symétriques.
      - sma blo: Ils partagent avec ksk la particularité de la disposition des ordonnées (6 12 18) d'être en cascade, ord(6) > ord(12) > ord(18). Ksk diffère des 2 autres par rapport i.18/30 très faible, 3.9 contre 6.2 et 7.3. Ils se distinguent de agrl et afn par leur rapport de 1.6 contre 2.0, qui est la marque des dissymétriques mais avec la disposition en cascade que ne possèdent pas ces derniers.
      - rpl rtb: rpl ressemblerait à mja mais la différence se fait surtout avec ord(6) qui est de 6 ‰ pour les 2 mais il est au même niveau que ord(18) pour rpl et très inférieur pour mja 16 ‰. Par ailleurs rpl a ord(12) et ord(24) presque égaux, 13 et 12, nettement supérieures à 6 ‰ de ord(6). rpl a un comportement analogue à sma blo, ordonnées en cascade 6 12 18 mais en plus partage avec rpl l'égalité ord(6) ord(12) ord(24), malgré une tendance à la symétrie avec un rapport i.18/30 de 2.2.
      - pub pmg fsp myr: La marque principale de ces 4 génomes est la valeur de ord(6) en cascade avec ord(12) et ord(18). La valeur élevée de ord(6) vient du fait que ces 4 génomes ont une somme s6 et une p6 très élevées, respectivement, 448 191 178 162 pour s6 et -(17.9, 3.4, 3.9, 4.9) pour p6. Les ordonnées sont pmg (24 15 12), pub (23 12 10), fps (19 9 4) et myr (18.5 20 8). Le rapport i.18/30 est un rapport de symétrie sans la cloche caractéristique, respectivement, 2.2, 1.8, 2.5, 1.9.
      - mba mfe npu ksk ppmp: Ces 5 génomes ont les indices i.18 les plus faibles du tableau entre 5.1 et 3.8. Ils sont suivis par sma 6.2 et pmq ppm 6.5. Puis on passe directement à 7.3 pour rpl. Le rapport i.18/30 est proche de l'unité sauf pour mba qui atteint 1.5. Cela veut dire que les indices i.30 sont égaux à i.18. J'ai représenté ces génomes sur la plage 0-80 pour voir cette constance. A part mba qui présente un maximum net du poly12 au niveau de mx12 avec un indice i.18 de 4.9, les 4 autres ce maximum est noyé dans la plage 6-80 même pour ppmp qui a présenté un mx12 très élevé du certainement à un effectif total de 438, le plus faible du tableau.Le génome sma se comporte comme mba, i.18 6.2 4.9, i.18/30 1.6 1.5, et un maximum net du poly12 au niveau de mx12. Par ailleurs le i.6 est le plus faible du tableau pour npu ksk ppmp 5.0 6.2 5.9 (s6 41 47 52), et très faible pour mba mfe sma 8.5 9.7 8.5 (s6 61 70 65).
  • Calculs des colonnes du tableau des fc40
maxp	a-b-x indique les abscisses utilisées pour la somme des taux ou la pente entre 2 abscisses, exemple 2-6-9, a pour la 1ère, en général de 1 à 3, b pour le minimum et x pour le maximum.
Région %		
s0		taux des zéros continus positifs
s6		somme de 0 à b	
sx		somme de b+1 à x-1	
s18		somme de x à 18	
s42		Idem 19-42	
t42		total x 18 42	
pentes		
p6		a-b	
px		b-x	
p18		x-18	
P42		18-42 (multipliée par -1000)	
maxima		
x6		0 – b	
n6		b minima
x12		x - 18	
x42		19 - 42	
x162		43 – 162	
profondeur de la vallée à l'abscisse b
px-p6	somme des 2 pentes	
colonnes 	A 	B
-	fréquences	génome
-	abscisse	ordonnée
-	. . . .  	. . . .  
  • Moyennes des pentes p6 px p18 p42 par clade
	p6	px	p18	p42
archeo				
m	-3,2	3,5	-0,6	-146,2
e	1,6	3,5	0,5	140,0
m/e	-2,0	1,0	-1,2	-1,0
bacilli				
m	-2,8	4,7	-0,7	-356,0
e	1,9	1,6	0,4	273,3
m/e	-1,5	2,9	-1,9	-1,3
clostridia				
m	-3,1	2,7	-0,5	-336,2
e	1,0	0,8	0,4	89,6
m/e	-3,1	3,5	-1,1	-3,8
gamma				
m	-3,6	6,9	-1,5	-238,9
e	1,0	4,0	0,7	139,9
m/e	-3,5	1,7	-2,0	-1,7
actino				
m	-1,5	1,8	-0,9	37,5
e	0,5	0,6	0,5	87,3
m/e	-3,3	3,1	-1,9	0,4
alpha -pub				
m	-2,9	2,7	-1,3	-136,2
e	1,4	1,2	0,6	185,3
m/e	-2,1	2,2	-2,1	-0,7
Intergen51. Classement des courbes CDS-CDS positifs continus fc40.Discussion
modifier
  • Forme globale d'un diagramme fc+40
    -
  • Regroupement des génomes par leurs 3 formes fc+40
D0	V6	-	-	D0 V F	D1 V F	D2 V F	S1 V F	S2 V F	S3 V F
	F60	-	-	mfe	hmo 	scc	abq 	absp 	ecoN 
D1	V61	lbu	lam	mba	cdc8 	psor 	mfi	ade 	eal 
	F61	cbei	lam	ppmp	cbc 	bsu 	abs	agrc 	vpb1 
D2	V62	ban	-	ppm	cdc 	cle 	rpm	agrl 	vha2 
	F62	apal	-	pmq	cbn 	lmo 	rru	aua 	eco 
S1	V63	spl amed vha1				abqp	cvi 	oan2 
	F63	-	-					oan1 	mja 
S2	V64	vbp2	ase						afn 
	F64	fps	myr						
S3	V65	ant	-						
	F65	ant	pmg abra			

gen	I,6	px-p6	form	I,6	px-p6	n
						
fps	22,46	8,47	S24	21,86	10,51	6
myr	21,68	6,82	S27	3,36	2,31	
pmg	25,62	11,81	S36	6,51	4,56	
apal	19,12	12,35	D26			
abra	25,22	12,24	S39			
lam	17,06	11,38	D18			
						
ant	28,57	19,31	S3a			
pub	63,94	17,47	x17			
						
mfe	9,73	3,9	D01	8,54	4,39	7
mba	8,47	4,37	D02	1,64	0,57	
ppmp	5,87	4,03	D03	5,20	7,69	
cbei	7,3	4,45	D11			
blo	8,07	4,34	x15			
ban	9,6	5,6	D21			
ase	10,71	4,05	S22			
						
rtb	13,86	3,30	x16			
rpl	13,82	4,17	x14			
						
ksk	6,47	2,54	x12			
sma	8,47	2,33	x13			
npu	5,04	0,98	x11			
						
vpb2	10,76	17,91	S29			
lbu	14,44	12,39	D13			
						
spl	11,28	8,06	S13			
amed	8,94	7,59	S14			
vha1	13,25	7,16	S19							
  • Les clades et les formes fc+40
  • La forme de fc+40 en comparaison avec les zones de rebond et du reste
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale
modifier
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale.
  • Légende: Voir le détail des calculs dans abs et le résultat de chaque génome dans son 1er lien (2ème colonne du tableau, gen) avec son diagramme dans son 2ème lien (dernière colonne du tableau, gen). Voir la légende des diagrammes pour les nombres affichés dans les diagrammes..
    - La diagonale: c'est le segment de droite entre les points (xm,y'm) et (x1m,1) (avec y'm=ym*1000/effect). Sa pente, pte, est en -‰ et sa constante, cste.
    - Les rebonds, sommes d'intercalaires: supd supdt %sd supf supft %sf; pour intercalaires au-dessus de la diagonale, leur total et le rapport supd/supdt. Puis de même pour la plage réduite à l'abscisse bornf de l'inflexion de la courbe, x1m-bornf.
    - Indices des rebonds: sf/lf sr/lr st/ld, rapport des intercalaires au-dessus de la diagonale, supf supd supr, par la longueur de leurs plages, lf égale lonf (bornf-xm), lr (x1m-bornf), ld (x1m-xm). Le supr est la différence supd-supf. J'ai ajouté l'indice, i.r400, du reste des intercalaires de l'abscisse x1m à 400, r400, par sa longueur r400l = 400-x1m (voir le détail des calculs dans abs).
    - Les restes des intercalaires: rfin r400 xmp: total des intercalaires au-delà de l'abscisse 400, de x1m à 400 et pour xmp de l'origine à xm. Le reste restp est égal à r400 + rfin.
    - Les formes des courbes de tendance en moyennes glissantes et de période 9, colonne "forme": C E M P, abréviation pour colline, "en escalier", montagne et plateau. Les préfixes de E M P indiquent le nombre de sommets de la forme. La colline a un seul sommet et la forme F est une forme E dont les sommets sont regroupés par 2, F6 (3 groupes de 2) ou par 3, F9 (3 groupes de 3).
    - Colonne clasf: classement des formes
    - Les couleurs: c'est pour visualiser les groupes de génomes Gf en fonction des taux des plages xmp et restp. Ces 2 colonnes sont divisées en taux fort (cyan), moyen fort (rouge), moyen faible (blanc) et faible (jaune). Les groupes (colonne Gf) apparaissent quand je trie la colonne xmp en tri décroissant et supdt en tri croissant. En regroupant les génomes ayant les 2 mêmes couleurs, xmp puis restp, j'ai pu définir les groupes de la colonne Gf avec une lettre suivi de f (pour forme): af (cyan jaune), df (cyan blanc), bf (rouge cyan), ef (rouge rouge), gf (rouge blanc), hf (rouge jaune), ff (blanc rouge), cf (jaune cyan) et if (jaune blanc).
    + Les ruptures intra couleur pour xmp sont sous les gen mja cvi vha2 mfi pour respectivement, cyan rouge blanc jaune, dans un tri décroissant.
    + Les ruptures intra couleur pour restp sont sous les gen cbc cle lbu rpm pour respectivement, cyan rouge blanc jaune, dans un tri décroissant.
    + Pour faciliter le regroupement par couleur j'ai créé une colonne p1 et après avoir trié la colonne xmp en décroissant, j'ai noté le cyan en 11 jusqu'à la rupture de l'intérieur et 12 jusqu'à la rupture du cyan. Puis j'ai fait de même avec le rouge 21 et 22, le blanc 31 32 et le jaune 41 42. Ensuite j'ai fait de même avec la colonne restp pour laquelle j'ai créé la colonne pr.
    + Un groupe homogène pour les 3 colonnes xmp flexp rest peut être à cheval sur une rupture en contrôlant avec les colonnes p1 pr flexp et donc le groupe peut avoir quelques couleurs différentes de sa défintion ci-dessus.
    - Moyennes par classe de forme, en bas du tableau: Les 3 couleurs correspondent,respectivement par rapport à la moyenne de la colonne, à +15% jaune, à -15% bleu et entre ces 2 valeurs blanc.
  • Diagrammes fc+400 par classe: E11  E21  M11  M21  M31  M41  Q.
    - Erreur bornf dans diagramme M41 oan2
int51.400 Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, par la forme du rebond de la courbe de tendance.
Les génomes Le rebond sur la diagonale La diagonale de la courbe Le rebond jusqu’à l’inflexion de la courbe Indices des rebonds Les plages encadrant la diagonale Les classes des formes
clade gen effect supd supdt %sd x1m xm ‰pte cste supf supft %sf lonf sf/lf sr/lr i.r400 sd/ld rfin xmp restp R2.21 forme clasf Gf gen
alp1 pub 601 102,8 264,6 38,9 108 30 41,0 5,4 68,6 178,0 38,6 37 1,86 0,83 0,26 1,32 6,7 653,9 81,5 924 E4 E10 af pub
spi1 scc 1000 139,3 420,0 33,2 163 30 22,6 4,7 85,3 276,0 30,9 69 1,24 0,84 0,85 1,05 34,0 344,0 236,0 815 E6 E11 bf scc
act1 ase 3854 66,3 604,6 11,0 235 25 18,7 5,4 46,4 335,2 13,9 70 0,66 0,14 0,62 0,32 75,8 217,4 178,0 870 E4 E12 ff ase
alp4 rru 2136 158,2 589,4 26,8 231 35 14,0 4,2 77,7 298,7 26,0 71 1,09 0,64 0,58 0,81 32,8 279,5 131,1 792 E4 E13 hf rru
bac7 ppm 3176 144,2 501,6 28,8 259 60 9,2 3,4 72,5 275,8 26,3 87 0,83 0,64 0,66 0,72 69,6 336,3 162,2 831 E5 E14 gf ppm
clo5 cdc8 2727 61,0 389,4 15,7 229 45 12,5 3,9 34,9 249,0 14,0 92 0,38 0,28 0,83 0,33 88,7 379,2 231,4 864 E2 E15 bf cdc8
clo4 cdc 2589 71,2 385,5 18,5 228 45 11,4 3,6 41,6 246,0 16,9 92 0,45 0,33 0,85 0,39 95,0 373,1 241,4 860 E2 E16 bf cdc
ga2 eal 2286 76,8 452,3 17,0 227 43 16,0 4,6 28,2 270,8 10,4 95 0,30 0,55 0,67 0,42 60,4 371,0 176,7 798 E5 E17 ef eal
bac6 pmq 4540 78,5 526,4 14,9 284 54 10,0 3,8 36,7 295,8 12,4 101 0,36 0,32 0,70 0,34 78,0 314,3 159,3 839 E4 E18 gf pmq
ga5 spl 2482 132,4 483,5 27,4 248 45 9,0 3,2 90,7 317,5 28,6 102 0,89 0,41 0,79 0,65 101,9 294,5 222,0 802 E5 E19 bf spl
arc4 mja 1069 135,3 349,9 38,7 163 50 20,4 4,3 135,3 349,9 38,7 114 1,19 0 0,60 1,20 11,2 497,7 152,5 738 F6 E21 af mja
clo6 cle 2900 119,4 442,8 27,0 231 45 9,5 3,2 92,4 352,4 26,2 128 0,72 0,47 0,72 0,64 63,8 372,4 184,8 841 F9 E22 ef cle
clo3 cbn 1775 133,3 509,9 26,1 241 45 12,1 3,9 102,1 409,0 25,0 135 0,76 0,51 0,55 0,68 34,9 368,5 121,7 845 E6 E23 af cbn
arc3 mfi 1545 202,6 622,0 32,6 252 25 9,9 3,5 151,2 463,4 32,6 135 1,12 0,56 0,78 0,89 60,2 202,6 175,4 686 E5 E24 if mfi
clo1 cbc 2572 115,2 407,5 28,3 241 45 6,8 2,6 89,5 325,8 27,5 140 0,64 0,46 0,93 0,59 126,7 318,0 274,5 836 F6 E25 bf cbc
ga9 vpb2 828 205,9 487,9 42,2 254 45 6,8 2,7 168,6 396,1 42,6 147 1,15 0,60 0,69 0,99 76,1 335,7 176,3 593 F6 E26 ef vpb2
clo2 cbei 4010 92,4 517,7 17,9 289 37 6,9 3,0 61,5 396,0 15,5 170 0,36 0,38 0,93 0,37 148,6 230,2 252,1 818 E6 E27 cf cbei
arc1 mba 2379 88,6 449,3 19,7 283 26 5,9 2,7 58,4 335,4 17,4 172 0,34 0,36 0,94 0,34 297,2 143,3 407,3 604 E8 E28 cf mba
arc2 mfe 2011 131,0 485,3 27,0 283 32 5,9 2,7 98,8 396,3 24,9 185 0,53 0,49 0,96 0,52 232,2 170,6 344,1 619 E8 E29 cf mfe
bde2 ade 2335 130,7 464,7 28,1 196 47 19,2 4,8 75,8 269,8 28,1 63 1,20 0,64 0,46 0,88 34,3 407,7 127,6 845 C M11 af ade
bde1 cvi 2412 125,5 484,2 25,9 194 45 21,1 5,1 85,3 327,9 26,0 76 1,12 0,55 0,57 0,84 39,0 359,5 156,3 855 C M12 gf cvi
ga3 eco 2204 139,4 465,1 30,0 222 46 12,4 3,7 86,2 276,8 31,1 75 1,15 0,53 0,60 0,79 29,0 398,4 136,6 800 M3 M13 af eco
ga4 ecoN 2822 112,3 500,7 22,4 235 37 12,8 4,0 77,9 305,8 25,5 79 0,99 0,29 0,56 0,57 44,3 363,2 136,1 814 M3 M14 gf ecoN
cya1 npu 3999 163,8 648,2 25,3 282 25 7,8 3,2 93,3 344,6 27,1 99 0,94 0,45 0,90 0,64 146,5 99,0 252,8 716 M4 M21 cf npu
bac1 ban 3289 169,0 484,3 34,9 222 45 9,8 3,2 127,5 356,0 35,8 107 1,19 0,59 0,79 0,95 51,1 324,4 191,2 800 M4 M22 ef ban
al8 oan1 1517 189,6 519,4 36,5 250 45 8,0 3,0 128,4 352,0 36,5 110 1,17 0,64 0,72 0,92 46,1 326,3 154,3 779 M4 M23 gf oan1
alp3 rpm 1847 193,1 551,2 35,0 253 45 8,2 3,1 144,1 401,7 35,9 121 1,19 0,56 0,53 0,93 41,1 329,7 119,1 820 M2 M24 hf rpm
al7 aua 1803 220,3 620,6 35,5 270 35 7,5 3,0 168,8 443,7 38,0 127 1,33 0,48 0,48 0,94 51,0 266,2 113,1 781 M4 M25 hf aua
al2 abqp 921 206,6 536,4 38,5 229 45 12,3 3,8 164,6 440,8 37,3 129 1,28 0,76 0,46 1,12 49,9 335,5 128,1 689 M3 M26 hf abqp
bac4 lbu 1098 184,9 507,3 36,5 220 35 11,4 3,5 159,1 434,4 36,6 136 1,17 0,53 0,59 1,00 46,4 340,6 152,1 777 M4 M27 gf lbu
al4 absp 873 169,2 478,8 35,3 194 45 20,1 4,9 166,6 468,5 35,6 139 1,20 0,26 0,70 1,14 50,4 326,5 194,7 644 M4 M28 ef absp
ga8 vpb1 1757 156,1 477,5 32,7 231 41 9,7 3,2 132,4 408,7 32,4 144 0,92 0,52 0,63 0,82 52,9 363,1 159,4 767 M5 M29 gf vpb1
al6 agrl 1040 220,1 510,6 43,1 235 39 7,7 2,8 96,8 189,4 51,1 45 2,15 0,82 0,54 1,12 39,4 361,5 127,9 784 C M31 af agrl
bac8 ppmp 438 334,6 554,8 60,3 250 45 4,9 2,2 136,7 232,9 58,7 63 2,17 1,39 0,72 1,63 123,3 214,6 230,6 331 C M32 cf ppmp
bde3 ant 1700 164,2 384,7 42,7 155 35 16,2 3,5 123,8 282,4 43,8 69 1,79 0,79 0,37 1,37 17,1 507,6 107,6 822 M3 M33 af ant
bct1 myr 2273 169,3 385,0 44,0 191 46 8,3 2,6 131,5 271,9 48,4 76 1,73 0,55 0,58 1,17 79,2 414,4 200,6 901 M4 M34 df myr
bac2 bsu 2512 184,6 491,6 37,5 200 45 14,1 3,8 135,1 362,7 37,2 93 1,45 0,80 0,46 1,19 19,5 397,7 110,7 847 C M35 af bsu
ga1 amed 2382 224,2 566,3 39,6 230 45 10,5 3,4 155,9 380,4 41,0 93 1,68 0,74 0,71 1,21 45,8 267,0 166,7 760 M4 M36 ff amed
bac3 lam 1248 221,0 486,4 45,4 196 35 9,9 2,9 180,1 371,8 48,4 93 1,94 0,60 0,59 1,37 20,0 373,4 140,2 838 M2 M37 gf lam
bac5 lmo 1849 217,7 449,4 48,4 209 45 6,1 2,3 167,5 326,1 51,4 95 1,76 0,73 0,51 1,33 27,6 425,1 125,5 816 M4 M38 af lmo
bct2 fps 1628 195,1 516,0 37,8 199 25 11,9 3,4 151,6 379,6 39,9 96 1,58 0,56 0,66 1,12 62,0 289,9 194,1 895 M2 M39 ff fps
ter2 apal 919 198,4 412,4 48,1 170 33 10,9 2,9 186,6 383,0 48,7 116 1,61 0,56 0,60 1,45 41,3 409,1 178,5 875 M4 M41 df apal
act3 ksk 3995 292,0 728,4 40,1 259 20 7,3 2,9 197,1 467,8 42,1 117 1,68 0,78 0,69 1,22 79,1 95,1 176,5 764 M4 M42 if ksk
ga7 vha2 1075 343,8 520,9 66,0 238 35 0 1 276,0 391,6 70,5 123 2,24 0,85 0,76 1,69 78,1 277,2 201,9 577 M4 M43 ff vha2
al9 oan2 914 213,2 426,7 50,0 203 45 7,5 2,5 195,9 381,8 51,3 126 1,55 0,54 0,67 1,35 35,0 407,0 166,3 749 M4 M44 df oan2
al5 agrc 1466 283,7 551,2 51,5 231 45 5,6 2,3 236,4 447,5 52,8 130 1,82 0,85 0,65 1,53 23,2 316,5 132,3 730 M5 M45 hf agrc
alp2 rpl 527 291,7 394,7 73,9 178 45 0 1 291,7 394,7 73,9 133 2,19 0 0,68 2,19 193,5 260,0 345,4 608 M4 M46 bf rpl
clo8 psor 2350 227,4 451,1 50,4 219 45 4,0 1,9 197,9 384,7 51,4 135 1,47 0,75 0,63 1,31 55,7 378,7 170,2 851 M4 M47 ef psor
act2 blo 1045 279,9 612,4 45,7 229 35 9,6 3,2 250,9 542,6 46,2 149 1,68 0,65 0,73 1,44 48,8 213,4 174,2 611 M4 M48 ff blo
alp5 rtb 505 306,7 431,7 71,0 205 45 0 1 306,7 431,7 71,0 160 1,92 0 0,52 1,92 198,0 269,3 299,0 617 M4 M49 bf rtb
cya2 pmg 948 100,7 309,1 32,6 122 46 56,2 7,9 60,5 216,2 28,0 43 1,41 1,22 0,48 1,33 22,2 535,9 155,1 850 P1 Q1 af pmg
clo7 hmo 1867 161,9 545,3 29,7 257 43 9,3 3,4 83,3 271,6 30,7 74 1,13 0,56 0,67 0,76 57,8 301,0 153,7 757 P4 Q2 hf hmo
neg1 afn 1385 125,1 366,1 34,2 183 40 13,2 3,4 92,1 288,1 32,0 100 0,92 0,77 0,79 0,87 39,0 423,1 210,8 799 P2 Q3 df afn
al3 abs 1570 178,1 527,4 33,8 205 45 17,6 4,6 123,7 390,4 31,7 100 1,24 0,91 0,63 1,11 35,0 314,6 158,0 756 P2 Q4 gf abs
al1 abq 1565 186,5 579,6 32,2 220 37 15,5 4,4 129,0 423,0 30,5 109 1,18 0,78 0,54 1,02 36,4 286,3 134,2 768 P2 Q5 hf abq
ga6 vha1 1945 181,5 468,9 38,7 220 45 9,0 3,0 141,3 356,3 39,7 113 1,25 0,65 0,71 1,04 75,1 328,0 203,1 757 P5 Q6 ef vha1
ter1 abra 980 177,7 441,8 40,2 175 29 14,1 3,5 170,1 422,4 40,3 132 1,29 0,55 0,56 1,22 33,7 399,0 159,2 849 P4 Q7 df abra
act4 sma 3894 131,7 637,4 20,7 261 25 11,0 3,9 94,9 459,7 20,6 134 0,71 0,36 0,85 0,56 84,5 159,7 202,9 820 P2 Q8 if sma
act5
alp6
arc5
bac9
bct3
bde4
clo9
cya3
gam
neg2
ter3
clade gen effect supd supdt %sd x1m xm ‰pte cste supf supft %sf lonf sf/lf sr/lr i.r400 sd/ld rfin xmp restp R2.21 forme clasf Gf gen
Moyennes par colonne
m 1812,8 163,9 492,3 33,6 226,0 39,9 11,2 3,4 118,3 349,2 35,0 109,2 1,23 0,59 0,66 0,96 49,4 331,3 166,0 777,5
e 678,2 39,3 72,3 9,4 32,8 8,2 4,5 0,6 37,2 73,1 9,7 33,1 0,50 0,17 0,15 0,36 20,8 81,7 34,7 83,7
m/e 2,7 4,2 6,8 3,6 6,9 4,9 2,5 5,2 3,2 4,8 3,6 3,3 2,44 3,50 4,50 2,67 2,4 4,1 4,8 9,3
plage 828-3289 89-227 350-648 15-51 155-289 20-60 4-23 2,2-4,8 58-187 178-468 16-53 37-185 0,30-2,24 0,26-0,91 0,26-0,96 0,32-1,69 11-95 143-536 108-241 577-901
n gen 48 46 55 53 56 58 53 49 45 57 50 58 58 52 58 56 48 55 50 56
Moyennes par classe de forme, clasf
E1 - 2597,4 103,4 468,8 22,7 224,3 43,0 15,0 4,2 62,1 288,6 21,1 90,7 0,72 0,47 0,71 0,62 60,6 345,8 185,4 823,0
E2 2278,0 135,7 489,5 27,6 258,0 38,3 8,1 3,1 101,5 376,9 26,7 151,0 0,72 0,47 0,81 0,63 126,9 270,6 239,8 738,2
M1 2443,3 127,0 478,7 26,6 211,8 43,8 16,4 4,4 81,3 295,1 27,7 73,3 1,12 0,50 0,55 0,77 36,6 382,2 139,1 828,5
M2 1900,4 183,6 536,0 34,5 239,0 40,1 10,5 3,4 142,8 405,6 35,0 123,6 1,15 0,53 0,64 0,94 59,5 301,3 162,8 752,6
M3 1674,4 214,5 482,8 44,3 207,2 40,0 9,9 3,0 142,1 310,8 46,7 80,3 1,81 0,78 0,57 1,28 48,2 361,3 156,0 832,9
M4 1421,8 270,7 503,3 55,2 214,7 38,7 7,5 2,6 237,7 425,0 56,5 132,1 1,80 0,71 0,66 1,57 83,7 291,8 204,9 709,1
Q 1769,3 155,4 484,4 32,7 205,4 38,8 12,8 3,7 111,9 353,5 31,7 100,6 1,14 0,72 0,65 0,99 48,0 343,5 172,1 794,5
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale. Comparaisons intra-génome
modifier
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale. Comparaisons intra-génome.
  • Légende: génomes
    - cdc-8, cdc-cdc8    rpl-b, rpl-rtb    abq-s, abq-abs    abq-sp, abqp-absp    abq-p, abq-abqp    abs-p, abs-absp    ppm-p, ppm-ppmp    vha1-2, vha1-vha2    vpb1-2, vbp1-vbp2    oan1-2, oan1-oan2    agrc-l, agrc-agrl    vha-b1, vha1-vbp1     vha-b2, vha2-vbp2.
    - faibles: différences en %, inférieures à 10. Pour les génomes semblables les différences faibles sont en noir, les différences fortes (supérieures ou égales à 10%) sont en rouge gras. Pour les autres génomes les faibles en bleu gras et les fortes en noir.
    - Pour clasf la différence est établie sur les 2 1ers caractères de la classe, même type de classe (=), type différent (#).
int51.400 Les rebonds en diagonale. Comparaisons intra-génome.
ordre gen cdc-8 rpl-b abq-s abq-sp abq-p abs-p ppm-p vha1-2 vpb1-2 oan1-2 agrc-l vha-b1 vha-b2
type génomes semblables comparaison intra-génome génomes différents
1 effect 5 4 0 5 70 80 625 81 112 66 41 11 16
2 supd 17 5 5 22 11 5 132 89 32 12 29 16 21
3 supdt 1 9 10 12 8 10 11 11 2 22 8 2 9
4 %sd 18 4 5 9 20 5 110 70 29 37 19 18 12
5 x1m 0 15 7 18 4 6 4 8 10 23 2 5 8
6 xm 0 0 22 0 22 0 33 29 10 0 15 10 10
7 -‰pte 9 0 14 64 26 14 89 898 43 6 36 8 22
8 supf 19 5 4 1 28 35 89 95 27 53 144 7 3
9 supft 1 9 8 6 4 20 18 10 3 8 136 15 16
10 %sf 21 4 4 5 22 12 123 78 31 41 3 22 13
11 lonf 0 20 9 8 18 39 38 9 2 15 189 27 31
12 sf/lf 19 14 4 6 8 3 160 79 25 33 18 36 27
13 sr/lr 15 0 17 196 2 252 118 31 16 19 4 25 25
14 i.r400 2 32 16 53 19 11 9 7 9 8 20 13 14
15 sd/ld 17 14 9 1 10 2 125 63 20 46 36 26 13
16 rfin 7 2 4 1 37 44 77 4 44 32 70 42 15
17 xmp 2 4 10 3 17 4 57 18 8 25 14 11 11
18 restp 4 15 18 52 5 23 42 1 11 8 3 27 3
19 R2.21 0 1 2 7 11 17 151 31 29 4 7 1 2
clasf = = = = # # # # # # # # #
Gf = = # # = # # # # # # # #
faibles 14 15 13 13 7 7 2 5 5 6 6 5 5
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale. Note
modifier
  • Différence entre diagonale et polynôme de d°3: avec poly3 le point d'inflexion est unique et déterminé par le calcul, alors que pour le diagramme de la diagonale, son équivalent bornf est déterminé visuellement. Inversement la courbe en poly3 est définie sur une plage donnée, 40-400, alors que le diagramme de la diagonale est indépendant de l'étendue de son abscisse. La plage 1-40, très importante pour plus de la moitié des génomes, manque à poly3 et influe donc sur son point d'inflexion. Cependant les 2 points d'inflexion, étoile et bornf, sont près l'un de l'autre.
  • La diagonale: Le rebond ne peut être comparé entre les 2 diagrammes. Celui de poly3 mesure le dépassement au-dessus de l'horizontale passant par le point d'inflexion alors que l'autre diagramme mesure le dépassement au-dessus de la diagonale. Une 1ère tentative du calcul du rebond avec la courbe de tendance en moyennes glissantes était de faire la somme de tous les rebonds par rapport à l'horizontale de chaque sommet ou forme du diagramme, de façon continue, ce qui ressemble à une diagonale en escalier. Cela est très compliqué et ne permet toujours pas de comparer les 2 rebonds entre les 2 diagrammes.
  • Détermination de la diagonale: Elle n'est pas déterminée visuellement et correspond au segment entre la 1ère intersection de la courbe et l'horizontale 1‰, et le minimum local de la courbe autour de l'abscisse 40‰. Dans la plupart des cas l'ordonnée de ce minimum correspond à celle d'un point du diagramme. Dans les autres cas je l'estime visuellement, mais le calcul de la pente de la diagonale varie très peu. Le choix du point à 1‰ n'est pas arbitraire car, pour les formes M C P, la courbe au-delà de ce point est horizontale, ce qui correspond à la fin du rebond global. Par contre, pour la plupart des courbes E cette partie de la courbe n'est pas horizontale, le point 1‰ est plus éloigné que pour les autres formes et rend la diagonale beaucoup plus longue. Avec poly3 ce problème se traduit par des courbes sans point d'inflexion ou avec un point d'inflexion anormal pour le calcul du rebond. Pour ces génomes j'ai du réduire la plage du diagramme de 400 à 250 et même moins pour avoir un point d'inflexion entre xm et 400.
  • Le choix du paramètre "période" de la courbe en moyennes glissantes: c'est le nombre de points consécutifs pour faire la moyenne glissante. Si la période est le total des points du diagramme alors sa courbe est réduite à un seul point. Dans le cas des diagrammes fc+40 beaucoup de génomes présentent un minimum local en 6 (en effectifs) et un maximum en 9 ou 12 et les courbes de tendance en poly12 avaient un R2 très élevé. C'est cette idée, qu'il y aurait des boucles en multiples de 3, qui m'a poussé à choisir une période de 9, un carré de 3 pour exagérer cette tendance. Et en effet les formes M obtenues présentent plusieurs boucles ou sommets de la montagne. Mais même les formes "en escalier" souvent présentent régulièrement de nombreuses boucles qui constituent les marches de l'escalier.
  • La courbe en polynôme de d°21, R2.21: Elle est à comparer avec le R2 des poly3 pour chaque génome, 2ème colonne du tableau des poly3.
  • Le calcul du rebond par rapport à la diagonale (voir légende des diagrammes): supd est la somme, sur la plage xm-x1m, des différences "ordonnée(x) moins ordonnée de la diagonale de la courbe rouge (pte*x+cste)" pour une abscisse x donnée et supdt la somme de ces ordonnées seulement; les rebonds supf et supft sont calculés de la même façon mais limités à la plage xm-bornf. Dans le tableur, il suffit d'avoir 2 cellules avec pte cste et la cellule de l'ordonnée(x) du génome. La colonne, de xm à bornf, contenant les différences est sauvegardée numériquement. Il suffit de rechercher toutes les cellules de cette colonne contenant le signe (-) et les effacer puis faire la somme de la colonne (supd supf). Les sommes supdt et supft sont obtenues avec la même colonne, mais de xm à x1m, en mettant les cellules pte et cste à blanc.
  • Le classement des formes, colonne clasf:
    + Les formes E: En triant sur la colonne sf/lf puis sur la colonne forme, j'ai remarqué que les formes E forment un groupe homogène de 13 génomes, à valeurs faibles de 0.30 à 0.89 dont 7 à moins de 6 sommets et 6 de 6 à 9 sommets. Cinq autres E ont des valeurs moyennes entre 1.09 et 1.24 et enfin pub qui se détache anormalement comme d'habitude à 1.86. Aussi apparaissent naturellement 2 groupes de E quand on trie sur la colonne lonf puis sur la colonne forme, le 1er avec 9 génomes croissant régulièrement avec des sommets inférieurs à 6 sauf pour scc (classés de E11 à E19) et le 2ème avec 9 génomes avec des longueurs supérieures à celles du 1er avec des sommets supérieurs à 6 sauf pour mfi (classés de E21 à E29). La rupture de lonf, entre les 2 groupes est nette et passe de 102 à 114.
    + Les formes M et C: Quand je trie sur la colonne sf/lf,seule, 18 génomes M et C forment un pavé continu des plus grandes valeurs de sf/lf, juste interrompues par le seul génome pub. Mais si je regarde, à ce moment,la colonne lonf, alors je distingue 2 groupes de 9 génomes chacun. L'un avec les plus grandes valeurs de lonf et dont les génomes ont tous 4 sommets, ce sont des formes M4. Ils sont classés de M41 à M49. L'autre groupe, avec les plus petites valeurs de lonf, a 9 génomes et se répartissent en 3 M4 1 M3 2 M2 et 3 C. Ils sont classés de M31 à M39. J'ai caractérisé ces 2 groupes en (grand lonf) / (grand rebond) pour le 1er groupe, et en (petit lonf) / (grand rebond). Aussi j'ai caractérisé les autres formes M,C en un groupe de 9 génomes en (grand lonf) / (petit rebond) et contient 7 M4 1 M2 1 M3 et sont classés de M21 à M29, puis en un petit groupe de 4 génomes en (petit lonf) / (petit rebond), 2 C 1 M2 1 M3, classés de M11 à M14.
    + Les formes P: La classe Q a 8 génomes et correspond aux formes P, j'ai changé de nom pour ne pas entrainer de confusion entre la classe et la forme. Les formes P ont des valeurs moyennes pour lonf et sf/lf sauf pour sma qui a un petit rebond de 0.71 comme les formes E, alors que les M C P ont un rebond supérieur à 0.90. Pour sma, en partant de xm à 49 au lieu de 25 je retrouve un rapport sf/lf et un lonf, 1.00 et 110, qui sont dans les plages des formes P, respectivement, 0.92-1.41 43-132 (voir les liens aux calculs et au diagramme de sma). La classe Q a les mêmes valeurs sf/lf (petit) et un lonf (grand) que la classe M21, respectivement 0.92-1.29 (sans pmg) pour le rapport, et entre 105 (sans pmg) et 124 pour lonf. La caractéristique des formes P c'est le plateau, donc absence de sommets et c'est le paramètre lonf que distingue la classe Q de la classe M21.
    + La notation des classes des génomes: j'ai donné le même nom de classe à tous les génomes d'un groupe de formes (E M C P) puis j'ai fait un tri croissant sur cette colonne clasf puis croissant sur lonf pour distinguer les génomes en séquence. Ainsi j'ai noté E11 pour les E à moins de 6 sommets, E21 pour les E à plus de 6 sommets, M11 pour les M C (petit lonf)/(petit rebond), M21 pour (grand lonf)/(petit rebond), M31 pour (petit lonf)/(grand rebond), M41 pour (grand lonf)/(grand rebond) et enfin j'ai noté les formes P par la lettre Q pour éviter les confusions. J'ai noté E10 le génome pub pour le distinguer de tous bien, qu'il soit de forme E4. Il y a 2 intrus de la forme, scc E11 de forme E6 au lieu qu'elle soit inférieure à 6 et mfi E24 de forme E5 au lieu qu'elle soit supérieure à 6.
    + Diagrammes fc+400 par classe: E11  E21  M11  M21  M31  M41  Q.
  • Corrélation pente-supd: J'ai fait le diagramme des E et des M+Q. Il en ressort que les E (sans E10, pub) ne sont pas corrélés, avec un R2 inférieur à 0.02 (18 génomes) et que les pentes des E1 et E2 sont disjointes, avec E1 supérieures à 10 (7 supérieurs à 10 et 2 égalent 9) et E2 inférieures à 10 (7 inférieurs à 10 plus 12 et 20). Par contre les M+Q (sauf pmg) sont corrélés avec un R2 de 0.535 (38 génomes) et 0.359 sans les 3 nuls. La non corrélation des E s'explique par le fait qu'ils n'ont pas un rebond étendu comme les M+Q, par contre leur rebond est éparpillé sur plusieurs petits rebonds disposés sur les marches de la "forme en escalier" du diagramme en moyennes glissantes. L'indice sd/ld l'illustre très bien avec environ 0.62 pour E1 et E2 et plus de 0.94 pour 34 génomes des M+Q et 0.77 pour les 4 génomes de M11.
  • Caractéristiques de chaque classe de forme: voir en bas du tableau les moyennes par classe de forme, clasf. Les 3 couleurs correspondent,respectivement par rapport à la moyenne de la colonne, à +15% jaune, à -15% bleu et entre ces 2 valeurs blanc. En analysant juste ces moyennes,
    1. 4 colonnes, supdt xm x1m R2.21, varient peu dans les 7 classes
    2. Les taux sd% et sf% sont quasiment identiques dans une même classe et cela pour toutes les classes.
    3. Les 2 classes E n'ont pas de point d'inflexion net comme les 5 autres: les indices sf/lf sr/lr sd/ld sont très proches et faibles. Aussi leur domaine de définition est plutôt xm-x1m au lieu de xm-bornf pour les autres. Dans ce cas les différences pour supf et supft ne sont plus valables et la différence de lonf disparait aussi, puisque lonf est remplacé par lond qui varie peu, 191,3 pour E1 contre 209,7 pour E2, soit moins de 10% (voir les valeurs de lond à partir des liens des génomes). Les 2 classes sont donc identiques pour lond et sd/ld.
    4. Les 2 classes E diffèrent nettement entre elles par 3 paramètres indépendants: pte restp xmp et ils ont en commun un effect élevé, qui diffère nettement avec les autres classes.
      - La différence pte est de 85% et est corrélée avec cste puisque ce sont les coefficients de l'équation d'une droite. La pente de E1 est donc presque double de celle de E2.
      - La différence restp est de 29%. Le paramètre restp est la somme de rfin et r400 et si rfin est élevé alors r400 l'est aussi par continuité. Or rfin a une différence de 110% en faveur de E2, ce qui explique aussi l'indice élevé de i.r400 par rapport à celui de sd/ld. Donc la classe E2 continue à avoir des intercalaires élevés après l'abscisse 400, alors que E1 chute brusquement.
      - La différence xmp de 28% est à peu près égale à celle de restp mais dans le sens contraire. Ceci s'explique par le fait que supdt est pratiquement identique entre les 2 classes (différence de 4%), aussi, puisque restp de E2 est plus grand que celui de E1, alors xmp de E1 devient plus grand que celui de E2.
    5. Différence principale entre les 2 classes E et les classes M et Q: Entre E1 E2 M11 M21 Q M31 M41 la différence se fait par l'indice sd/ld. Elle est successivement de 2 22 22 5 29 23 %. Donc les 5 classes M et Q sont principalement différentes des 2 classes E pour l'indice sd/ld. Elles sont définies, comme mentionné ci-dessus, par lonf et sf/lf. En plus elles sont caractérisées, comme pour les E, par les 4 paramètres indépendants effect pte restp xmp auxquels il faut ajouter sr/lr qui marque la rupture brusque ou non après le point d'inflexion de la forme.
      - Classe M11: Elle se comporte comme E1 pour les 4 paramètres à peu près de même tailles sauf pour restp qui est le plus petit des 7 classes et donc son xmp le plus grand aussi; respectivement
       clasf  effect  pte  restp  xmp
       E11  2754  15  193  323
       M11  2443  16  139  382
      - Classes M21 Q: Ces 2 classes se ressemblent beaucoup même pour les paramètres de classement, lonf et sf/lf. En fait ils ne diffèrent que légèrement par la forme, M21 avec de petits sommets et Q sans sommets, c'est un plateau. Pour les paramètres indépendants, il y a une seule différence notable. C'est celle de sr/lr, l'indice entre bornf et x1m. Il passe de 0.53 à 0.72 pour Q.
       clasf  effect  pte  restp   xmp  sr/lr
       M21   1900  11  163  301  0,53
       Q    1769  13  172  343  0,72
      - Classes M31 M41: Elles sont très différentes, déjà avec le paramètre lonf de classement. Ensuite par les paramètres indépendants dont 2 sont les plus faibles pour M41 et moyens pour M31, effect et pte; par contre M41 a un restp élevé comme E2, alors que pour M31 c'est moyen. Ils ont en commun l'indice sr/lr du même ordre que celui de Q, environ 0.74.
       clasf   effect  pte  restp   xmp  sr/lr
       M31   1674  9.9  156  361  0,78
       M41   1422  7.5  205  292  0,71
  • Les formes ne dépendent pas des paramètres indépendants, effect pte restp xmp. Et même pour les paramètres de classement, lonf et sf/lf pour les classes M11 M21 M31, alors que E1 E2 Q M41 sont homogènes. Pour les paramètres indépendants la plupart des classes les valeurs, pour un paramètre donné, se déclinent en faible moyenne forte. Pour les paramètres de classement la même forme peut se trouver dans plusieurs classes différentes.
	effectif	pente		reste		forme
ext	950	3300	6	20	130	250 	=	#
								
E11	.	2	.	2	1	.	E5	1
E21	1	1	2	1	1	4	E6	1
M11	.	.	.	1	1	.	C	2
M21	2	1	.	1	3	1	M4	3
M31	1	.	1	.	4	.	M4 C	3
M41	4	1	5	.	.	2	M4	1
Q	1	1	.	1	.	.	P	.
								
tot	9	6	8	6	10	7	-	11
Légende: ext pour extrêmes. Sauf pour la forme où # veut dire différent, où = veut dire pour E11 que ses formes vont de E2 à E5, pour E21 que les formes vont de E6 et plus. Pour M31 il y a 3 formes M4, 3 C et les autres (#) ce sont 2 M2 et 1 M3. Le total c'est la ligne tot.
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec la diagonale. Discussion
modifier
  • Pour un même génome à 2 éléments, ceux-ci ont des formes différentes: plasmide et chromosome (abq abs ppm), 2 chromosomes circulaires (oan vha vpb), 1 chromosome circulaire et l'autre linéaire (agr). Voir le tableau de comparaison.
  • Deux génomes qui se ressemblent, pour tous les paramètres de classement ou tous les paramètres indépendants, ont la même forme: cdc cdc8, abq abs, abqp absp, rpl rtb.
  • Ces 2 remarques montrent que la forme peut être transmise de génération en génération et que l'architecture du chromosome ou du plasmide, n'est pas créée par le protéonome mais qu'elle est le résultat de nombreuses contraintes environnementales qui agissent sur de longues durées. Le protéonome ne fait que transmettre ces contraintes au chromosome, notamment par les enzymes de réparation de l'ADN.
  • La forme est unique pour un élément d'un génome donné: Elle représente son architecture adénélique. En comparaison avec les CDS, ceux-ci peuvent être communs à de nombreux génomes avec les mêmes fonctionnalités mais diffèrent très peu par leurs séquences. Les intercalaires entre CDS nuls ou petits peuvent être très nombreux dans le même chromosomes, sans fonctionnalités apparemment ou alors de tailles plus grandes et servent de contrôle lors de la transcription des CDS (promoteur opéron).
  • La genèse des intercalaires est différente de celle des CDS. Les intercalaires entre CDS ressemblent plus aux intercalaires entre tRNAs, petits et variant dans la séquence et non par la taille. Par contre les CDS sont beaucoup plus longs et varient très peu en longueur et dans leur séquence (mutations). Les plus petits CDS ont une longueur qui ne descend pas en dessous de 50 acides aminés (150 pbs) loin derrière les tRNA qui ne dépassent pas les 120 pbs. La genèse des CDS, par leur constance à travers tous les génomes et leurs grandes tailles, semble procéder plus par de nombreuses contraintes environnementales et évoluer sur de longues périodes. Par ces caractéristiques un CDS devrait avoir une résonance spécifique qui obéit plus à la physique quantique, alors que les intercalaires entre CDS devraient plus procéder de la mécanique pour gérer des millions de pbs. Cependant, en dehors des tout petits intercalaires (à priori de faible résonance), les longs intercalaires doivent avoir une résonance quantique qui les rend fonctionnels, c'est à dire interagissant avec toute molécule de la cellule sans pour autant produire une protéine dont la fonctionnalité s'exprime avec l'ADN et surtout avec les milliards d'autres molécules de la cellule.
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec le polynôme de d°3
modifier
  • Lien au tableur: Intergen51. Classement des courbes CDS-CDS positifs continus fc+400. Contient les équations des courbes de tendance en polynôme de d° 3.
  • Légende
    - Les couleurs: c'est pour visualiser les groupes de génomes G en fonction des taux des plages xmp et rest. Ces 2 colonnes sont divisées en taux fort (cyan), moyen fort (rouge), moyen faible (blanc) et faible (jaune). Les groupes (colonne G) apparaissent quand je trie la colonne xmp en tri décroissant. En regroupant les génomes ayant les 2 mêmes couleurs, xmp puis rest, j'ai pu définir les groupes de la colonne G avec une lettre suivi d'un chiffre indiquant l'ordre croissant dans la colonne flexp: a (cyan jaune), d (cyan blanc), b (rouge cyan), e (rouge rouge), g(rouge blanc), h (rouge jaune), f (blanc rouge), c (jaune cyan) et i (jaune blanc).
    + Les ruptures intra couleur pour rest sont sous les gen cbc cbei rpm vpb1 pour respectivement, cyan rouge blanc jaune, dans un tri décroissant.
    + Les ruptures intra couleur pour xmp sont sous les gen mja ade abq blo pour respectivement, cyan rouge blanc jaune, dans un tri décroissant.
    + Pour faciliter le regroupement par couleur j'ai créé une colonne p1 et après avoir trié la colonne xmp en décroissant, j'ai noté le cyan en 11 jusqu'à la rupture à l'intérieur du cyan et 12 jusqu'à la rupture du cyan avec le rouge. Puis j'ai fait de même avec le rouge 21 et 22, le blanc 31 32 et le jaune 41 42. Ensuite j'ai fait de même avec la colonne rest pour laquelle j'ai créé la colonne pr.
    + Un groupe homogène pour les 3 colonnes xmp flexp rest peut être à cheval sur une rupture, en contrôlant avec les colonnes p1 pr flexp, et donc le groupe peut avoir quelques couleurs différentes de sa définition ci-dessus.
    - Les moyennes (m) des colonnes sont mises en bas du tableau avec leur écartype (e). Après avoir marqué en gras les extrêmes la moyenne est faite sur la plage restante (p) et le nombre de génomes (g) correspondant.
    - Les moyennes des groupes G flexp supft sont celles des diagrammes en poly3 (flexp) et des diagrammes en moyenne glissante (supft). Le groupe a7 est le groupe a sans pub. La moyenne restf est effectuée avec restp+(supdt-supft).
    - Les moyennes des groupes Gf supdt: les groupes Gf sont définis dans la colonne Gf des diagrammes en moyennes glissantes. Le groupe af9 est le groupe af sans pub. Dans la sauvegarde dans le tableur, j'ai présenté af4 et af6, avec les génomes pub pmg ant mja pour af4 et les 6 restant pour af6.
    - Les paramètres du polynôme de d° 3: les abscisses vont de xm à 400 fréquences unitaires (freq1) ou jusqu'à pfin quand c'est nécessaire pour avoir une ordonnée du point d'inflexion (flexo) conséquente. L'abscisse du point d'inflexion (flexa) va servir à calculer le taux de la plage concernée par le rebond (flexp, il correspond à sup4t dans le chapitre de la diagonale) et sa longueur flexa-xm (l4) ainsi que le taux du rebond (sup4) au dessus de l'horizontale passant par le point d'inflexion entre ce dernier et l'abscisse xm. Quand un polynôme a un sommet convexe j'ai indiqué ses coordonnées (soma somo) dont l'ordonnée est à comparer à celle du point d'inflexion (flexo). La pente (pte) au point d'inflexion, en ‰, est intéressante à comparer aux pentes des diagrammes en moyennes glissantes. Les paramètres xm et flexa sont indiqués par une étoile bleue dans les diagrammes en moyennes glissantes dont le lien est dans la dernière colonne, gen, du tableau. Les différents paramètres d'un génome se trouvent dans le lien de la 2ème colonne, gen, du tableau.
    - Importance des 3 régions des diagrammes en polynôme d°3: xmp de 0 à xm-1, flexp de xm à flexa, r400 de flexa+1 à l'abscisse 400 et enfin le reste rfin au-delà de 400. La colonne rest est la somme de r400+rfin. Cette importance est définie par le pourcentage de la plage en ‰ par rapport au total des intercalaires CDS-CDS positifs continus (effect).
    - Le rebond sup4: sup pour supérieur à flexo et 4 pour un diagramme de xm à 400 à courbe de tendance en polynôme de d°3. Voir sa description et son calcul. Son appréciation se fait par le rapport sup4/flexp (supF), en %. J'ai classé les génomes (gen) par rapport à sup4 dans la colonne clas. Les colonnes forme clasf sont celles des diagrammes en moyenne glissante. La différence flexa-bornf se trouve dans la colonne flexf (bornf est obtenu dans les moyennes glissantes par lonf+xm) et correspond sur les diagrammes à l'étoile (flexa) et au gros point (bornf) de la fin de la forme. La différence (supdt-flexp)/flexp, en %, se trouve dans la colonne flexd.
    - L'indice de rfin, i.rfin exprimé en , correspond au rapport (effectif de rfin-somme des effectifs au-delà de et99)/(et99-400) où et99 est l'abscisse du diagramme correspondant à 99% des intercalaires. Pour pub le reste après 400 est 4 et ne correspond pas au 1% attendu, 6/601. Pour ce génome j'ai mis l'indice à zéro, mais il se comporte comme les autres entre les abscisses 90 et 320 ( en freq10) avec un indice de 69, (somme des effectifs de 90 à 320, égale 9)/130=0.069.
int51.400 Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, en abscisses unitaires freq1.
clade gen effect pfin xm soma somo pte flexa flexo sup4 xmp flexp r400 rfin rest supF l4 clas G forme clasf flexf flexd et99 i.rfin gen
act1 ase 3854 200 25 4,6 5,67 34,65 92,9 3,64 81,85 217,4 328,2 378,6 75,8 454,3 24,94 67,9 C12 c3 E4 E12 -2 84 1030 402 ase
act2 blo 1045 35 47,7 4,07 18,50 201,0 2,17 256,86 213,4 575,1 162,7 48,8 211,5 44,66 166,0 C43 i2 M4 M48 17 6 660 158 blo
act3 ksk 3995 25 44,1 4,17 18,43 197,3 2,29 232,14 110,6 616,8 193,5 79,1 272,6 37,64 172,3 C42 i3 M4 M42 60 18 1060 418 ksk
act4 sma 3894 49 51,6 3,47 14,27 200,7 2,06 150,45 254,5 451,7 209,3 84,5 293,8 33,31 151,7 C32 f6 P2 Q8 42 41 930 547 sma
act5
al1 abq 1565 35 38,2 4,19 20,13 189,2 2,16 229,28 276,0 535,5 152,1 36,4 188,5 42,82 154,2 C42 h4 P2 Q5 43 8 560 256 abq
al2 abqp 921 45 -23,2 4,63 17,70 165,9 2,40 169,67 335,5 423,5 191,1 49,9 241,0 40,07 120,9 C33 g6 M3 M26 -8 27 720 112 abqp
al3 abs 1570 45 28,4 4,27 19,41 187,7 2,21 205,77 314,6 496,2 154,1 35,0 189,2 41,47 142,7 C41 h1 P2 Q4 43 6 570 229 abs
al4 absp 873 45 -29,7 4,71 17,46 164,4 2,45 172,41 326,5 426,1 197,0 50,4 247,4 40,46 119,4 C33 g7 M4 M28 -20 12 910 65 absp
al5 agrc 1466 45 87,2 3,64 20,56 212,7 1,92 230,18 316,5 527,3 133,0 23,2 156,2 43,65 167,7 C42 h2 M5 M45 38 5 480 250 agrc
al6 agrl 1040 250 35 -23,3 4,84 20,42 110,6 3,02 98,43 341,3 288,5 330,8 39,4 370,2 34,12 75,6 C21 b6 C M31 27 77 710 100 agrl
al7 aua 1803 35 55,3 3,68 17,15 205,0 1,97 220,98 266,2 528,6 154,2 51,0 205,2 41,81 170,0 C42 h3 M4 M25 43 17 710 242 aua
al8 oan1 1517 45 13,7 3,67 13,89 183,9 2,09 155,68 326,3 418,6 209,0 46,1 255,1 37,19 138,9 C32 g4 M4 M23 29 24 640 229 oan1
al9 oan2 914 250 45 74,1 3,71 28,53 143,9 2,39 133,66 407.0 330,4 227,6 35,0 262,6 40,45 98,9 C31 d3 M4 M44 -27 29 670 85 oan2
alp1 pub 601 150 25 29,2 4,91 62,10 80,3 2,79 101,34 633,9 229,6 129,8 6,7 136,4 44,13 55,3 C21 a1 E4 E10 13 15 400 0 pub
alp2 rpl 527 45 111,6 3,09 20,91 223,6 1,53 263,93 260,0 463,0 83,5 193,5 277.0 57.00 178,6 C43 f8 M4 M46 46 -15 1800 69 rpl
alp3 rpm 1847 45 17,6 3,88 15,61 188,1 2,10 159,30 329,7 445,6 183,5 41,1 224,7 35,75 143,1 C32 gb M2 M24 22 24 710 187 rpm
alp4 rru 2136 35 -79,1 5,49 17,86 140,4 2,88 116,61 279,5 402,6 285,1 32,8 317,9 28,96 105,4 C23 f2 E4 E13 34 46 580 278 rru
alp5 rtb 505 45 116,2 3,05 21,63 224.0 1,49 250,44 269,3 447,5 85,1 198.0 283,2 55,96 179.0 C43 f4 M4 M49 19 -4 1850 66 rtb
alp6
arc1 mba 2379 45 - - 2,62 242,7 1,32 116,95 198,4 340,9 163,5 297,2 460,7 34,31 197,7 C23 c4 E8 E28 45 32 1550 595 mba
arc2 mfe 2011 55 -67,9 2,71 5,78 195,1 1,70 90,61 236,2 293,4 238,2 232,2 470,4 30,89 140,1 C12 c2 E8 E29 -22 65 1490 410 mfe
arc3 mfi 1545 25 25,1 3,77 14,87 187,1 2,17 202,09 202,6 514,6 222,7 60,2 282,8 39,27 162,1 C41 i1 E5 E24 27 21 720 244 mfi
arc4 mja 1069 250 45 42,2 4,01 25,82 134,5 2,42 115,54 477,1 303,1 203,9 11,2 215,2 38,12 89,5 C23 d4 F6 E21 -30 15 440 50 mja
arc5
bac1 ban 3289 45 45,9 3,48 15,24 193,8 1,98 162,80 324,4 437,5 187,0 51,1 238,1 37,21 148,8 C32 g8 M4 M22 42 11 640 562 ban
bac2 bsu 2512 45 -32,3 5,13 20,87 150,8 2,59 137,90 397,7 398,1 184,7 19,5 204,2 34,64 105,8 C31 a5 C M35 13 24 510 218 bsu
bac3 lam 1248 35 -89,1 5,64 19,42 120,5 2,93 120,02 373,4 349,4 257,2 20,0 277,2 34,35 85,5 C23 e5 M2 M37 -8 39 520 108 lam
bac4 lbu 1098 35 12,4 3,83 16,23 176,7 2,05 190,31 340,6 445,4 167,6 46,4 214,0 42,73 141,7 C41 ga M4 M27 6 14 670 148 lbu
bac5 lmo 1849 45 51,1 3,45 17,65 192,7 1,78 187,97 425,1 427,3 120,1 27,6 147,6 43,99 147,7 C41 a7 M4 M38 53 5 600 160 lmo
bac6 pmq 4540 300 45 - - 7,18 185,6 2,08 117,98 279,7 397,8 244,5 78,0 322,5 29,66 140,6 C23 f1 E4 E18 31 32 910 606 pmq
bac7 ppm 3176 55 42,3 3,46 13,78 209,0 1,93 158,22 318.0 442,4 170,0 69,6 239,6 35,77 154,0 C32 g9 E5 E14 62 13 830 440 ppm
bac8 ppmp 438 45 -135,9 5,21 13,29 133,1 2,83 111,52 214,6 292,2 369,9 123,3 493,2 38,16 88,1 C22 c1 C M32 25 90 1020 81 ppmp
bac9
bct1 myr 2273 250 45 65,5 3,70 29,33 142,3 2,20 118,03 411,4 315,0 194,5 79,2 273,6 37,47 97,3 C23 d2 M4 M34 20 22 900 314 myr
bct2 fps 1628 250 35 27,5 4,59 28,71 122,8 2,77 118,75 328.0 346,4 263,5 62,0 325,6 34,28 87,8 C23 e4 M2 M39 2 49 870 181 fps
bct3
bde1 cvi 2412 250 35 39,5 4,83 31,29 137,0 2,79 147,26 315,5 420,4 225,1 39,0 264,1 35,03 102,0 C32 g5 C M12 16 15 680 250 cvi
bde2 ade 2335 250 35 39,6 4,63 29,70 138,9 2,66 148,36 355.0 410,3 200,4 34,3 234,7 36,16 103,9 C32 g3 C M11 29 13 630 248 ade
bde3 ant 1700 250 35 54,0 4,14 35,99 134,2 2,21 153,23 507,6 354,7 120,6 17,1 137,6 43,20 99,2 C32 a3 M3 M33 30 8 540 86 ant
bde4
clo1 cbc 2572 45 -43,7 3,13 8,78 153,6 1,98 75,35 318.0 272,2 283,0 126,7 409,8 27,69 108,6 C11 b4 F6 E25 -31 50 920 579 cbc
clo2 cbei 4010 300 35 - - 5,50 246,8 1,52 157,56 224,7 462,6 164,1 148,6 312,7 34,06 211,8 C32 f7 E6 E27 40 12 990 941 cbei
clo3 cbn 1775 45 -3,3 3,92 14,99 175,9 2,13 145,39 368,5 401,7 194,9 34,9 229,9 36,20 130,9 C32 g1 E6 E23 -4 27 540 314 cbn
clo4 cdc 2589 250 45 36,0 2,98 13,53 137,7 2,06 70,11 373,1 248,7 283,1 95,0 378,1 28,19 92,7 C11 b2 E2 E16 1 55 910 433 cdc
clo5 cdc8 2727 250 45 29,0 3,06 13,48 138,0 2,08 71,86 379,2 251,6 280,5 88,7 369,3 28,57 93,0 C11 b3 E2 E15 1 55 910 422 cdc8
clo6 cle 2900 300 45 7,6 3,48 13,19 151,9 2,22 85,99 372,4 309,0 254,8 63,8 318,6 27,83 106,9 C12 e2 F9 E22 -21 43 870 334 cle
clo7 hmo 1867 300 47 34,0 3,89 17,71 155,1 2,46 112,24 316.0 361,0 265,1 57,8 323.0 31,09 108,1 C22 e7 P4 Q2 38 51 660 342 hmo
clo8 psor 2350 45 89,4 3,00 16,32 216,1 1,62 192,27 378,7 448,9 116,6 55,7 172,3 42,83 171,1 C41 a8 M4 M47 36 0 740 318 psor
clo9
cya1 npu 3999 25 -12,3 3,77 11,77 180,3 2,26 149,48 99.0 486,6 267,8 146,5 414,4 30,72 155,3 C32 c5 M4 M21 56 33 1060 826 npu
cya2 pmg 948 150 44 38,2 5,68 58,83 102,4 3,17 108,60 520.0 272,2 185,7 22,2 207,8 39,90 58,4 C22 a2 P1 Q1 13 14 450 220 pmg
cya3
ga1 amed 2382 45 -29,4 5,02 18,34 162,0 2,68 150,27 267,0 447,5 239,7 45,8 285,5 33,58 117,0 C32 f3 M4 M36 24 27 700 287 amed
ga2 eal 2286 200 35 -21,0 4,78 21,94 111,8 2,84 77,24 335,5 283,0 321,1 60,4 381,5 27,29 76,8 C11 b5 E5 E17 -26 60 950 211 eal
ga3 eco 2204 250 35 24,3 4,10 20,88 137,1 2,53 117,43 358.0 353,4 259,5 29,0 288,6 33,22 102,1 C23 e6 M3 M13 16 32 520 350 eco
ga4 ecoN 2822 250 35 14,7 4,46 24,21 123,1 2,71 103,64 355,1 327,4 273,2 44,3 317,5 31,65 88,1 C21 e3 M3 M14 7 53 670 363 ecoN
ga5 spl 2482 42 -69,7 4,16 12,31 150,2 2,36 97,38 284,9 334,0 279,2 101,9 381,1 29,16 108,2 C21 b7 E5 E19 3 45 860 493 spl
ga6 vha1 1945 43 -15,9 3,84 13,48 179,2 2,08 150,24 322,4 407,2 195,4 75,1 270,4 36,90 136,2 C32 g2 P5 Q6 21 15 700 423 vha1
ga7 vha2 1075 35 37,1 3,42 14,29 191,1 1,96 196,05 277,2 448,4 196,3 78,1 274,4 43,73 156,1 C41 f5 M4 M43 33 16 740 215 vha2
ga8 vpb1 1757 55 50,2 3,15 13,57 209,7 1,71 167,59 407,5 405,8 133,8 52,9 186,7 41,30 154,7 C33 a6 M5 M29 25 18 670 278 vpb1
ga9 vpb2 828 45 -159,6 4,68 11,20 127,0 2,54 77,49 335,7 246,4 341,8 76,1 417,9 31,45 82,0 C11 b1 F6 E26 -65 98 810 134 vpb2
gam
neg1 afn 1385 44 -54,0 3,71 11,99 150,8 2,08 102,38 434,7 299,6 226,7 39,0 265,7 34,17 106,8 C21 d1 P2 Q3 11 22 670 148 afn
neg2
spi1 scc 1000 170 35 - - 21,07 109,6 2,77 107,59 365.0 290,0 311.0 34,0 345.0 37,10 74,6 C22 e1 E6 E11 11 45 570 141 scc
ter1 abra 980 35 -20,7 4,15 17,24 154,6 2,14 159,70 420,4 390,8 155,1 33,7 188,8 40,86 119,6 C32 a4 P4 Q7 -6 13 600 115 abra
ter2 apal 919 28 -65,0 4,70 17,35 131,3 2,43 140,69 396,1 354,7 207,8 41,3 249,2 39,66 103,3 C31 d5 M4 M41 -18 16 770 78 apal
ter3
clade gen effect pfin xm soma somo pte flexa flexo sup4 xmp flexp r400 rfin rest supF l4 clas G forme clasf flexf flexd et99 i.rfin gen
Moyennes des colonnes
m 1812,8 4,09 18,3 159,3 2,3 139,3 324,1 376,4 204,2 52,0 280,6 36,4 122,0 796,3 287,0
e 678,2 0,75 5,1 30,1 0,3 32,7 63,5 60,2 49,1 21,0 63,8 5,0 29,3 294,1 189,0
m/e 2,7 5,4 3,6 5,3 7,1 4,3 5,1 6,3 4,2 2,5 4,4 7,2 4,2 2,7 1,5
g 48 54 49 50 49 46 53 46 50 47 49 55 51 57 57
p 830-3300 2,7-5,7 11-31 102-210 1,6-2,8 82-206 198-435 272-463 117-285 20-102 187-418 27-45 75-172 440-1850 50-941
Moyennes des groupes G, flexp
sup4 xmp flexp rest flexa sup4 xmp flexp rest flexa sup4 xmp flexp rest flexa sup4 xmp flexp rest flexa sup4 xmp flexp rest flexa
a7 b7 c5 d5 e7
m 158,2 436,7 385,4 177,9 165,8 81,1 338,3 274,9 386,8 132,7 110,1 193,1 348,3 458,6 168,8 122,1 425,2 320,6 253,3 140,6 109,4 352,6 333,8 313,6 131,4
e 29,0 54,9 58,0 26,9 41,9 11,8 32,1 31,1 19,2 17,1 26,3 54,3 80,2 28,8 57,7 15,2 32,2 22,6 23,1 7,8 12,0 22,2 26,2 23,1 17,1
m/e 5,5 7,9 6,6 6,6 4,0 6,9 10,5 8,8 20,1 7,8 4,2 3,6 4,3 15,9 2,9 8,0 13,2 14,2 11,0 18,1 9,2 15,9 12,8 13,6 7,7
f8 g11 h4 i3
m 175,4 264,0 440,1 295,9 196,8 160,0 332,9 425,3 241,7 173,9 221,6 293,4 521,9 184,8 198,7 230,4 175,5 568,8 255,6 195,2
e 56,3 18,3 25,5 19,1 34,9 13,4 16,2 15,6 16,7 21,7 11,3 26,0 17,5 20,6 12,2 27,4 56,5 51,4 38,6 7,2
m/e 3,1 14,4 17,3 15,5 5,6 11,9 20,6 27,2 14,4 8,0 19,6 11,3 29,8 9,0 16,2 8,4 3,1 11,1 6,6 27,1
Moyennes des groupes G, supft
supf xmp supft restf bornf supf xmp supft restf bornf supf xmp supft restf bornf supf xmp supft restf bornf supf xmp supft restf bornf
a7 b7 c5 d5 e7
m 141 429,6 343,3 227,1 142,4 78,6 347,6 285,0 367,5 145,7 86,7 169,0 328,9 502,1 148,4 148,3 430,3 334,9 234,8 149,2 108,1 348,9 319,1 332,0 125,0
e 44,1 66,3 73,9 25,2 36,3 49,2 32,2 67,4 53,8 35,8 35,8 50,0 59,4 58,3 55,3 42,8 38,2 52,2 65,6 19,5 40,5 40,0 47,7 58,7 23,0
m/e 3,2 6,5 4,6 9,0 3,9 1,6 10,8 4,2 6,8 4,1 2,4 3,4 5,5 8,6 2,7 3,5 11,3 6,4 3,6 7,7 2,7 8,7 6,7 5,7 5,4
f8 g11 h4 i3
m 162,6 257,1 381,1 361,8 163,3 124,3 343,9 372,0 284,1 156,2 164,5 295,9 426,2 277,9 157,0 199,7 170,4 491,3 338,3 160,3
e 112,2 45,7 57,7 38,0 33,6 35,2 25,5 65,4 58,4 23,3 52,0 24,2 26,1 28,0 14,3 49,9 65,4 44,5 96,6 23,5
m/e 1,4 5,6 6,6 9,5 4,9 3,5 13,5 5,7 4,9 6,7 3,2 12,3 16,3 9,9 11,0 4,0 2,6 11,0 3,5 6,8
Moyennes des groupes Gf, supdt
supd xmp supdt restp x1m supd xmp supdt restp x1m supd xmp supdt restp x1m supd xmp supdt restp x1m supd xmp supdt restp x1m
af 9 bf 7 cf 5 df 5 ef 7
m 158,5 433,3 437,2 129,5 193,7 159,6 319,7 416,0 264,2 213,1 162,1 171,5 531,1 297,4 277,4 176,7 410,5 406,4 183,1 184,4 164,2 348,1 466,6 185,3 223,9
e 41,3 64,0 72,6 16,4 39,7 99,8 47,8 34,1 44,9 32,3 101,2 53,3 76,2 75,4 15,6 33,6 9,0 30,8 22,1 13,1 51,2 24,6 18,0 11,7 17,8
m/e 3,8 6,8 6,0 7,9 4,9 1,6 6,7 12,2 5,9 6,6 1,6 3,2 7,0 3,9 17,8 5,3 45,8 13,2 8,3 14,1 3,2 14,1 26,0 15,8 12,6
ff 5 gf 9 hf 7 if 3
m 221,9 253,0 564,0 183,0 226,2 154,5 343,5 503,4 153,1 230,4 201,5 302,1 567,7 130,2 241,6 208,8 152,5 662,6 184,9 257,3
e 103,9 35,3 45,2 14,6 15,6 44,2 22,3 18,4 9,0 30,3 42,6 26,3 30,1 12,9 18,4 80,3 54,1 57,5 15,6 4,7
m/e 2,1 7,2 12,5 12,6 14,5 3,5 15,4 27,3 17,0 7,6 4,7 11,5 18,8 10,1 13,2 2,6 2,8 11,5 11,9 54,5
Intergen51. Classement des courbes CDS-CDS positifs continus fc+400, avec le polynôme de d°3.Note
modifier
  • Le rebond avec l'horizontale est plus grand qu'avec la diagonale. C'est comme si dans les moyennes glissantes il y avait 2 processus en action, celui du rebond qui a une forme et l'autre, entre la diagonale et l'horizontale x1m, un processus qui diminue suivant la pente de la diagonale. Le reste, sous les horizontales de poly3 et x1m, est un processus aléatoire qui n'a pas de rôle particulier. Aussi le sens du rebond est différend dans les 2 tableaux étudiés, et ce n'est pas seulement une question de différence de calcul.
  • Les différences flexf se répartissent ainsi (en valeurs absolues): 5 supérieures à 50%, 11 entre 46 et 36% et 42 entre 34 et 0%
  • Les moyennes par clasf: je retrouve l'ordre des moyennes avec poly3 sauf pour s4/l4 de M11 qui est trop élevée. Les différences en % sont divisées par la valeur la plus faible. Lien au tableur: Intergen51. Comparaison diagonale poly3
Int51.fc+400. Comparaion diagonale poly3
Poly3 Forme s4-sf sd-s4 sd-sf
clasf l4 s4/l4 s4 flexo lf sf/lf sf ld sd/ld sd %s4f %sd4 %sdf
E1 101,5 1,01 99,9 2,52 86,6 0,69 57,1 191,3 0,56 103,1 74,9 3,2 80,5
E2 131,6 0,90 118,6 2,00 147,3 0,76 106,4 209,7 0,69 136,0 11,4 14,7 27,8
M11 99,0 1,30 129,2 2,67 73,3 1,12 81,3 168.0 0,77 127.0 58,9 -1,7 56,2
M21 143,6 1,21 172,0 2,11 123,6 1,15 142,8 198,9 0,94 183,6 20,5 6,7 28,6
M31 100,4 1,33 132,9 2,56 80,3 1,81 142,1 167,2 1,28 214,5 -6,9 61,4 51.0
M41 154,8 1,36 210,7 1,98 132,1 1,80 237,7 176,0 1,57 270,7 -12,8 28,5 13,9
Q 122,2 1,28 152,3 2,29 100,6 1,14 111,9 166,6 0,99 155,4 36,2 2,0 38,9
  • Les sommets de poly3: M41 a 8 sommets convenables, c'est à dire dont l'abscisse est supérieure à xm (+xm). Les autres sont soit négatifs soit positifs mais inférieurs à xm (-xm).
soma	+xm	-xm
E1	0	4
E2	2	1
M11	2	2
M21	4	2
M31	3	1
M41	8	0
Q	2	3
  • Les ruptures des classes sup4
C11	 C12	 C21	 C22	 C23	 C31	 C32	 C33	 C41	 C42	 C43
5.6	 7.5	 3.8	 2.9	 11.4	 3.3	 2.9	 9.0	 7.4	 7.9	
  • Fréquences des flexf, flexa-bornf
5	10	15	20	25	30	35	40	45	50	55	60	65
6	5	5	6	7	8	5	4	6	1	1	1	3	58
  • Fréquences des x1m-flexa
10	20	30	40	53	70	80	153	total	flexa	x1m
6	10	7	11	8	10	0	6	58	26>165	53 >165
  • Les déterminants R2 des moyennes glissantes (mg9) et des polynômes de d°3
fréquences	mg9	R2,21			poly3	R2,3	
500	1		ppmp			200	0			
550	0					250	3	mba mfe	ppmp
600	2		vha2	vpb2		300	2	oan2	agrl>275
650	6		rtb mba blo absp	350	6			
700	2		abqp	mfi		400	4			
750	4					450	4	55	275-715
800	16		48	686-901		500	8			
850	18					550	8			
900	8					600	6			
	1		pub			650	8			
						700	9			
différences%	mg9			%			%			
scc	165	750-850		rpl	87		10	2		
cbei	129			mja	102		20	4		
cdc	148			rtb	89		30	9		
cdc8	139			vpb2	90		40	10		
agrl	166			pmg	107		50	4		
oan2	174			cbc	104		60	6		
pub	137	924					70	2		
mba	173	600		41,2	131,9		80	3		
mfe	169	600		20,9	33,2		90	3		
				2,0	4,0			43		
				43	15							
  • Les diagrammes fc+400
    - Lien au tableau
    - Les diagrammes fc+ (freq10) présentent un minimum local autour de l'abscisse 50 suivi d'un rebond puis d'une inflexion aux alentours de l'abscisse 200 (images  fcp1fcp2). L'objectif de l'étude des diagrammes fc+400, en fréquences unitaires (freq1), est de caractériser ce rebond pour déterminer les pics de fréquences susceptibles d'avoir des rôles de contrôle des CDS adjacents à ces intercalaires, comme les pics identifiés en 1er dans les diagrammes fc40 autour des fréquences 1 et 12 .
    - Les diagrammes de sup4 en fonction des paramètres pte flexp effect . . .
    - Le rebond: j'ai détaillé les paramètres du tableau et notamment le calcul de sup4 dans description et calcul des rebonds poly3 et mg9.
    • Après avoir repéré (xm,ym) dans les colonnes des données en fréquences unitaires (en s'aidant du diagramme en lots de fréquence de 10), j'utilise un tableau de calc contenant les formules mathématiques pour calculer les coordonnées du sommet (soma, somo) qui nécessite la dérivée 1ère, du point d'inflexion (flexa, flexo) qui nécessite la dérivée seconde, et l'ordonnée yc en xm sur la courbe de tendance du polynôme de d°3, poly3. En entrée de ce tableau je donne les 4 coefficients du polynôme et xm. J'ai calculé aussi, dans ce tableau de formules, les coefficients (a’, b') de la droite tangente au point d'inflexion.
    • Une fois obtenu flexa et flexo je calcule, pour chaque abscisse, de xm à flexa, la différence y-flexo. La colonne des y-flexo est sauvegardée numériquement, les cellules à valeurs négatives (recherche du signe moins (-)) sont recherchées et effacées. La somme de cette colonne donne sup4.
    - Classement des diagrammes
    • par le sommet du polynôme 3, somo.
      - L'ordonnée du sommet, somo, n'est pas très informative parce que sa moyenne de 4.1 varie peu avec un m/e de 5.4 pour 54 génomes. Les 4 génomes restants n'ont pas de sommet.
      - Le classement par le sommet n'a de sens que relativement au rebond qui est défini par la différence somo-flexo, et cette différence est très peu informative puisqu'elle est très faible et varie très peu comme somo et flexo avec les valeurs de m m/e g respectivement, 4.1 5.4 54 contre 2.3 7.1 49 pour flexo.
    • par le rebond sup4:
      - Comparaison avec les diagrammes fc40 qui sont nets pour oan2 ban psor ou bien aussi déchiquetés ( en dents de scie ) que les fc400 comme blo ou bien quasiment sans pics comme aua npu. Les fc400 sont systématiquement en dents de scie mais présentent régulièrement des ondulations, chacune s'étendant sur une dizaine de fréquences comme les fc40 nets.
      - Calcul du rebond
      • Une façon de calculer le rebond, qui tient compte de toutes ces dents de scie (qui seraient chacune un pic de contrôle) et s'étend sur une plage 3 fois plus grande que la plage des fc40, soit 120 fréquences, est de sommer toutes les portions de pics qui dépassent l'ordonnée du point d'inflexion, flexo. Voir sa construction à partir du lien au début de ce chapitre, "Le rebond".
      • Le point d'inflexion est le mieux approprié pour ce calcul parce que, en faisant partie de la courbe, celle-ci résume l'ensemble des points considérés alors que prendre ym, le minimum local, ne représente que lui-même. Une ordonnée d'un autre point de la courbe qui me paraissait intéressant est celle correspondant à l'abscisse xm. Or, pour une courbe à coefficient du monome x3 négatif, cette ordonnée, yc sur l'image, peut être très grande et dépasser tous les autres points du diagramme, ce qui rend nulle la somme sup4.
      • J'ai opté pour l'utilisation du point d'inflexion parce qu'il permet d'inclure les courbes à coefficient négatif de x3, mais j'ai eu 21 courbes anormales, sans point d'inflexion. Sur 36 tests de ces génomes, avec comme limite l'abscisse 400, 16 tests ont un flexa, positif ou negatif, qui dépasse 400 et 20 dont le flexo est trop grand, supérieur à 3 (7) ou trop petit, inférieur à 0.9 cbei (13). Suite à une étude précédente en abscisse 200, où beaucoup de ces génomes avaient des courbes avec un point d'inflexion, j'ai réduit la limite de 400 à pfin pour ces génomes (voir cette colonne dans le tableau). Ainsi 4 génomes vont jusqu'à 300, 12 jusqu'à 250, 2 jusqu'à 200 (eal ase), scc jusqu'à 170 et 2 jusqu'à 150 (pmg pub). La majorité des 58 génomes étudiés ont un xm moitié de l'abscisse freq10 du minimum local des diagrammes en freq10, étendus de 1 à 400. Ces xm se terminent donc par 5. J'ai testé 15 génomes normaux en prenant un xm unitaire, autour du minimum local en freq10. Pour ces tests flexo et flexa changent très peu. J'ai pris seulement 7 xm ne se terminant par 5 et seul hmo présente un écart élevé du sup4, 50 entre 45 et 400 et 118 entre 47 et 300. J'ai mis en sauvegarde, dans le tableur, ces courbes avec le 1er choix du xm, l'équation de la courbe et les valeurs du point d'inflexion et de sa tangente.
      - Classement des fc400 avec le paramètre sup4 en tri croissant, colonne clas.
      • Principe du classement: dans le chapitre des rebonds en diagonale des fc+400, j'ai pu attribuer des formes qui se regroupent naturellement avec des tailles de rebond homogènes. Dans le cas des polynômes de d°3, ceux-ci ont tous la même forme basée sur le point d'inflexion, aussi je n'ai pas pu trier en tri croissant sur l4 comme avec lf pour une forme donnée. Sans la forme, les petites longueurs l4 vont être un mélange de E1 M11 M31 Q avec des sup4 extrêmes, les plus petits avec E1 M11, les plus grands avec M31 et les moyens avec Q. Ainsi, seule la classification avec sup4 arrive à donner des groupes homogènes.
      • Comparaison des rebonds en moyennes sup4 supf:
        + En principe le rebond avec l'horizontale est plus grand qu'avec la diagonale (voir la construction des rebonds). C'est comme si dans les moyennes glissantes il y avait 2 processus en action, celui du rebond qui a une forme et l'autre, entre la diagonale et l'horizontale x1m, un processus qui diminue suivant la pente de la diagonale. Le reste, sous l’horizontale en x1m, est un processus aléatoire qui n'a pas de rôle particulier. Aussi le sens du rebond est différend dans les 2 tableaux étudiés, et ce n'est pas seulement une question de différence de calcul.
        + Suivant ce principe, sup4>supf, seulement 2 classes clasf sur 7, M31 M41, n'y conviennent pas avec sup4<supf. Cependant, comme bornf et flexa sont proches (voir les différences) je m'attendais à ce que supd soit largement supérieur à sup4. Seul M31 répond à ce critère avec une différence de 61 %, puis largement après M41 avec 28 % . Les 5 autres groupes ne dépassent pas les 15 %. C'est en essayant de comprendre ces différences que j'ai comparé M11 et M31 qui ont les mêmes 6 paramètres sur 10 et ne diffèrent que par supf et supd, de même pour sf/lf et sd/ld puisque les 2 lf et les 2 ld sont identiques entre eux. Le rebond sup4 est quasiment identique entre eux, mais il se comporte différemment relativement à supf et supd,
        1. pour M11 sup4 est égal à supd, comme s'il ne voyait pas la forme supf puisque supd est égal à supf+sdf
        2. pour M31 sup4 est égal à supf, comme s'il ne voyait que la forme supf et pas sdf
        + Aussi, en tablant sur la colonne %sd4, je peux regrouper les 3 clasf E1 M21 Q avec M11. Ces 4 clasf ont, en gros, une forme en escalier. C'est effectivement le cas de E1 mais pour les 3 autres ont un indice sf/lf faible (1.12 1.15 1.14) qui masque leur forme en plateau par rapport à la diagonale.
        + En parallèle on peut regrouper les 2 clasf E2 M41 avec M31 suivant la colonne %s4f. La clasf E2 est une forme en escalier, avec un sf/lf de 0.76, mais comme sup4=supf cela veut dire que ses marches sont plus élevées que celles de E1. Cependant E2 reste intermédiaire entre les 2 groupes puisque les différences %s4f et %sd4 sont faibles et presque égales, 11% et 15%. La clasf M41 ressemble beaucoup à M31, elle se différencie d'elle par le %sdf, tres faible, 14% contre 51% qui explique aussi la faiblesse de %sd4, 28% contre 61%. Malgré le %sdf élevé de M31, il est masqué par son %sd4 encore plus élevé, ce qui explique que sup4 ne voit que supf, la forme.
      • Homogénéité des classes en poly3, clas: Voir tableau des moyennes.
        + Par construction les classes et les sous-classes de sup4 sont très homogènes par rapport à sup4, tableau int51.11 des moyennes, les rapports m/e des 4 classes C sont supérieurs à 8.
        + Les classes C sont aussi homogènes par rapport aux plages flexp à partir desquelles j'ai calculé les rebonds sup4, tableau int51.24, m/e supérieurs à 7. Cela correspond à l'homogénéité du rapport sup4/flexp, colonne supF du tableau des diagrammes poly3, avec un m/e supérieur à 7 et une moyenne de 36%. Plus flexp est importante et plus le rebond est grand.
      • Hétérogénéité des clades par rapport au rebond sup4:
        + Les clades sont très hétérogènes avec un m/e, du tableau des moyennes, inférieur à celui du total, 4.3 pour sup4 et 6.3 pour flexp
        + Comme pour la discussion sur les formes du tableau des rebonds supf par rapport à "la diagonale", diagrammes des diagonales, discussion, le rebond sup4 ne dépend pas du clade mais du chromosome. Ainsi
        • Pour un même génome à 2 éléments, ceux-ci ont des rebonds différents: plasmide et chromosome abq abs ppm (170 229, 172 206, 112 158), 2 chromosomes circulaires oan vha vpb (156 134, 196 150, 168 77), 1 chromosome circulaire et l'autre linéaire agr (230 98).
        • Deux génomes qui se ressemblent, pour tous les paramètres de classement, ont le même rebond: cdc cdc8 (70 72), abq abs (229 206), abqp absp (170 172), rpl rtb (264 250).
    - L'importance de la zone de rebond, flexp:
    • Le rebond m'a permis d'appréhender la forme des courbes avec la méthode de la diagonale et de les numériser avec la méthode du poly3. Mais le rebond ne concerne qu'environ le tiers des intercalaires de sa zone, moyenne de 36% pour poly3 (supF) et 34% pour la méthode diagonale (%sd %sf), alors que c'est la totalité de cette zone qui doit être prise en compte pour étudier le rôle de ces intercalires dans le contrôle des CDS ou de l'architecture du chromosome en entier. Par ailleurs les 2 zones définies par les 2 méthodes ont chacune une importance: celle de poly3 donne une vue globale (flexp) et un point d'inflexion (flexa) qui serait la frontière entre 2 processus, le contrôle et un autre processus; celle de la méthode diagonale (supdt), plus étendue que flexp, permet de mettre en valeur les formes en escaliers qui sont mal définies dans poly3 parce qu'elles n'ont pas un sommet convexe, bien défini, du polynôme (soma somo) ou bien leur point d'inflexion n'est que visuel pour la zone supft comparable à flexp et qui est limitée à la forme constatée. La zone supdt concerne donc la totalité du processus de contrôle et se distingue de l'autre processus d'après qui décroît exponentiellement de flexa à la fin du reste des intercalaires (rfin). Ce 2ème processus débute souvent avec des intercalaires de plus de 300 pbs (correspodant à des protéines de plus de 100 aas) et concerne soit des CDS non définis par la base de données soit des zones de contrôle importantes comme celles nécésaires pour résoudre les contraintes de la réplication ou soit encore des intercalaires en cours de formation pour donner un CDS.
      - Les diagrammes de sup4 en fonction des paramètres pte flexp effect: flexp est proportionnelle à sup4 avec un R2 de 0.790 comme supft et supf avec un R2 de 0.410, mais ce n'est pas le cas de supd et supdt avec un R2 de 0.114.
    • Importance relative des 3 zones xmp, flexp (et supft), rest (et restp):
      - les moyennes: la zone de rebond est très importante avec une moyenne de (376-6.3-46 et 272-463) pour flexp, (492-6.8-55 et 350-648) pour supdt et (349-4.8-57 et 178-468) pour supft. Je note la ressemblance entre flexp et supft. J'ai refait le calcul pour supft avec 53 genomes: (360-5.7-53 et 246-468).
      - les groupes:
      * Quand j'ai commencé à regrouper les génomes dans le tableau des poly3, par leurs zones flexp, j'ai remarqué que, pour une même valeur de cette zone, je pouvais avoir 2 génomes totalement différents, avec un tandem (xmp rest) inverse l'un de l'autre. Par exemple pour les 4 génomes ppmp mfe afn mja, après tri sur flexp, le trio (xmp flexp rest) donne respectivement (215 292 493) (236 293 470) (435 300 266) (477 303 215). Ainsi le couple (ppmp mfe) a 2 génomes semblables tout comme (afn mja), par contre mfe et afn sont très différents. J'ai détaillé la méthode de classement dans la légende du tableau. L'aspect de Trois diagrammes, en forme de cône, illustrent bien ce classement: effect/xmp rest/xmp effect/rest, avec un coefficient R2 linéaire, respectivement de 0.165 0.264 0.070. Pour une même valeur de l'abscisse (xmp ou rest) j'ai un groupe à ordonnées élevées et un groupe à ordonnées faibles, ce qui se traduit par des verticales qui diminuent (effect/xmp rest/xmp) ou augmentent (effect/rest) de taille avec l'abscisse. Dans le diagramme rest/xmp j'ai séparé les groupes a b c d e f g h i avec 2 couleurs et avec un représentant pour chaque groupe. Deux groupes qui ont le même xmp ont un rest et un flexp différents mais dans un groupe donné les génomes ont les 3 quantités proches.
      * Moyenne et dispersion de chaque groupe:
      1. Ce sont les groupes Gf que j'ai choisis pour l'analyse. Parce que leurs limites x1m sont clairement définies à l'encontre des limites flexa et bornf. Les courbes de tendance des poly3 s'adaptent mal aux formes en escalier (clasf E11 et E21) et n'ont pas un flexa bien défini; De même que pour mon appréhension pour définir leur inflexion, bornf, correspondant à la limite de la forme. Par contre les formes de clasf, M11 M21 M31 M41 Q, présentent une décroissance rapide après leur forme et leur bornf se trouve bien définie. Ainsi les formes en escalier seront représentées uniquement avec x1m, alors que les autres formes peuvent être comparées entre flexa, bornf et x1m.
      2. Mise à l'écart du génome pub: Que ça soit pour les groupes Gf ou G ce génome a des valeurs extrêmes. Aussi les groupes af10 et a8 deviennent af9 et a7. Je l'ai regroupé avec les 3 génomes pmg ant mja qui ont aussi des valeurs élevées notamment en xmp et les valeurs de ce groupe, af4, sont homogènes comme le groupe if3 extrême en restp (voir la sauvegarde dans le tableur). Ses valeurs [supd xmp supdt restp x1m] et leurs dispersions (m/e) sont [126/4,2 549/7,6 327/6,3 124/3,5 137/5,2]. Les 6 génomes restant du groupe af10 forment un groupe af6 beaucoup plus homogène que le groupe af9 avec les valeurs [171/4,1 393/16,4 482/18,7 125/14,6 217/11,7]. Si les 2 groupes af9 et af6 restent semblables avec xmp/supdt et x1m respectivement de (1.0 194) et (0.8 217) le groupe af4 Se distingue de tous les autres groupes Gf par un rapport nettement inverse 1.7, contre un rapport inférieur à 1.0, et un x1m très petit de 137 contre 184 pour le plus petit de df5.
      3. Les groupes G flexp sont semblables aux groupes Gf supdt: l'ordre relatif des rest et des restp, le nombre de génomes par groupe et les plages de définition sont les mêmes.
      4. Ils diffèrent par les valeurs du rebond sup4 avec 2 dispersions seulement, par contre les valeurs du rebond supd sont tous dispersées (sauf pour le groupe df5). La dispersion de supd se comprend parce que celui-ci représente la forme d'un génome dans le tableau de la diagonale et j'ai montré, dans la note de diagonale, que supd est indépendant de toute caractéristique du génome. Comme par construction un groupe est homogène, en xmp et restp seulement, ceci implique que supd est indépendant de ces 2 caractéristiques. De même par construction (polynôme de d°3, poly3) les rebonds sup4 sont calculés par rapport à l'horizontale passant par flexo comme flexp l'est par rapport à l'abscisse. Donc flexp et sup4 doivent être analogues dans leur homogénéité aussi. Il faut remarquer que la plage de définition de supd (xm-x1m) est plus grande que celle de sup4 (xm-flexa) alors que leurs moyennes sont presque égales, 164 contre 139 pour sup4, avec une même dispersion de 4.2.
      5. Les flexa sont très dispersés (6 groupes <8 dont 3<5 et 3>16) les x1m non ( 3<8 dont 1 seul <5 avec 4.9 pour af9, et 6>13). Ce qui justifie la clareté des x1m.
      6. Les supf, comparaison avec les sup4 avec les mêmes groupes G. Les colonnes restf et bornf ne sont pas incluses dans le tableau mais elles le sont dans le lien au tableur. La moyenne de restf est (299/5.1 pour 46 genomes etendue sur 205-390). La moyenne de bornf est (149/4.8 pour 57 génomes étendue sur 84-217). Comme pour supd, à cause de la forme, supf est dispersé dans les 9 groupes de G. Pour bornf, qui est mal défini pour les formes en escalier E (voir ci-dessus), les groupes dispersés sont b7 avec 6 formes E, c5 avec 3E et f8 avec 3E. Le groupe a7 est dispersé et n'a pas de formes en escalier, il déroge à la règle. Les autres groupes ont d5 1E, e7 2E, g11 2E, h4 0E et i3 1E. Pour l'ordre relatif des restp, les gropues G supft les respectent avec 2 exceptions sur 9 pour les non extrêmes: les max b7 c5 donnent 368 502, les min a7 g11 h4 donnent 227 284 278 et les intermédiaires d5 e7 f8 i3 donnent 235 363 332 338. Ainsi le groupe d5 est celui qui déroge clairement à la règle.
      7. Les classements des groupes par restp: J'ai choisi restp à cause de ses valeurs faibles qui permettent de dégager les extrêmes bien qu'il soit peu dispersé par construction. J'ai ainsi 2 groupes b7 c5 à maximum (restp > 264), 3 groupes a9 g9 h7 à minnimum (restp < 153) et 4 groupes intermédiaires d5 e7 f5 i3 à 184 ± 1. Dans chaque grand groupe restp, les groupes diffèrent par le rapport xmp/supdt auquel j'ajoute x1m qui n'est pas corrélé à restp.
        + bf 7 rpl rtb cbc cdc scc cdc8 spl . . . . . . 264  0.77  213
        + cf 5 mba mfe npu cbei ppmp . . . . . . . . 297  0,32  277
        .
        + af 9 pmg ant mja lmo ade eco bsu cbn agrl . . . . . . 130  0,99  194
        + gf 9 lam ecoN vpb1 cvi lbu ppm oan1 abs pmq . . . 153  0,68  230
        + hf 7 abqp rpm agrc hmo abq rru aua . . . . . . . . . . . 130  0,53  242
        .
        + df 5 afn myr apal oan2 abra . . . . . . . . . . . . 183  1,01  184
        + ef 7 psor cle eal vpb2 vha1 absp ban . . . . . 185  0,75  224
        + ff 5 fps vha2 amed ase blo . . . . . . . . . . . . . 183  0,45  226
        + if 3 mfi sma ksk . . . . . . . . . . . . . . . . . . . . . .185  0,23  257
        .
        + af 6 lmo ade eco bsu cbn agrl . . . . . . . . 125  0,82  217
        + af 4 pub pmg ant mja . . . . . . . . . . . . . . 124  1,68  137
Intergen51. Classement des courbes CDS-CDS positifs continus.Note. Moyennes des classes et des clades
modifier
  • fc+400. Moyennes par classe et clade. lien au tableur. La bordure dans chaque tableau des classes sépare les classes des sous-classes. La bordure dans chaque tableau des clades sépare les moyennes au nombre de génomes supérieur à 2, des clades réduits à 1 ou 2 génomes sans moyenne.
Int51.fc+400 Moyennes des clades et des classes
Int51.11 Classes du sup4
clas m e m/e gen
C11 74 3,3 23 5
C12 86 4,4 20 3
C21 101 2,6 38 5
C22 110 2,2 49 4
C23 118 1,4 86 8
C31 137 3,5 39 3
C32 153 5,4 28 14
C33 170 2,4 70 3
C41 196 7,0 28 6
C42 228 4,9 46 4
C43 257 6,7 38 3
total 139 33 4,3 46
C1 79 7,0 11 8
C2 111 7,7 14 17
C3 153 10,3 15 20
C4 220 26 8,3 13
Int51.12 Classes du pte
clas m e m/e gen
C11 14 5,0 2,8 5
C12 18 15 1,2 3
C21 26 21 1,3 5
C22 28 21 1,3 4
C23 19 10 2.0 8
C31 22 6 3,9 3
C32 18 8,4 2,1 14
C33 16 2,3 7,0 3
C41 16 1,9 8,8 6
C42 19 1,6 12 4
C43 20 1,6 12 3
total 18 5,1 3,6 49
C1 15 9,1 1,7 8
C2 23 16 1,5 17
C3 18 7,5 2,5 20
C4 18 2,3 7,8 13
Int51.13 Classes du xmp
clas m e m/e gen
C11 348 26 13 5
C12 275 85 3,3 3
C21 410 136 3,0 5
C22 354 127 2,8 4
C23 338 87 3,9 8
C31 400 6 68 3
C32 317 94 3,4 14
C33 356 44 8,0 3
C41 323 78 4,1 6
C42 242 90 2,7 4
C43 248 30 8,3 3
total 324 64 5,1 53
C1 321 62 5,2 8
C2 363 109 3,3 17
C3 335 85 3,9 20
C4 281 80 3,5 13
Int51.14 Classes du flexp
clas m e m/e gen
C11 260 16 16 5
C12 310 17 18 3
C21 296 42 7,1 5
C22 304 39 7,8 4
C23 351 35 10 8
C31 361 34 11 3
C32 427 33 13 14
C33 418 11 38 3
C41 463 34 14 6
C42 552 43 13 4
C43 495 70 7,1 3
total 376 60 6,3 46
C1 279 30 9,3 8
C2 324 44 7,3 17
C3 416 38 11 20
C4 498 58 8,6 13
Int51.15 Classes du rest
clas m e m/e gen
C11 391 21 18 5
C12 414 83 5,0 3
C21 294 99 3,0 5
C22 342 117 2,9 4
C23 310 71 4,4 8
C31 239 31 7,8 3
C32 256 63 4,1 14
C33 225 33 6,7 3
C41 213 55 3,9 6
C42 206 49 4,2 4
C43 257 40 6,5 3
total 281 64 4,4 49
C1 400 49 8,2 8
C2 313 87 3,6 17
C3 249 56 4,5 20
C4 221 51 4,4 13
Int51.21 Clades du sup4
clade m e m/e gen
alpha 179 55 3,3 14
gama 126 42 3,0 9
bacilli 148 31 4,7 8
clostrid 114 46 2,5 8
actino 180 80 2,3 4
archeo 131 49 2,7 4
total 139 33 4,3 46
bacter 118 119 2
cyano 149 109 2
teneri 160 141 2
cvi 147 1
ade 148 1
ant 153 1
afn 102 1
scc 108 1
Int51.22 Clades du pte
clade m e m/e gen
alpha 22 12 1,9 14
gama 17 4,7 3,5 9
bacilli 15 4,3 3,6 8
clostrid 13 4,0 3,2 8
actino 21 9,0 2,4 4
archeo 12 10,4 1,2 4
total 18 5,1 3,6 49
bacter 29 29 2
cyano 12 59 2
teneri 17 17 2
cvi 31 1
ade 30 1
ant 36 1
afn 12 1
scc 21 1
Int51.23 Clades du xmp
clade m e m/e gen
alpha 334 95 3,5 14
gama 327 45 7,3 9
bacilli 334 67 5,0 8
clostrid 341 54 6,3 8
actino 199 62 3,2 4
archeo 279 133 2,1 4
total 324 64 5,1 53
bacter 411 328 2
cyano 99 520 2
teneri 420 396 2
cvi 316 1
ade 355 1
ant 508 1
afn 435 1
scc 365 1
Int51.24 Clades du flexp
clade m e m/e gen
alpha 426 91 4,7 14
gama 361 71 5,1 9
bacilli 399 54 7,4 8
clostrid 344 87 4,0 8
actino 493 130 3,8 4
archeo 363 103 3,5 4
total 376 60 6,3 46
bacter 315 346 2
cyano 487 272 2
teneri 391 355 2
cvi 420 1
ade 410 1
ant 355 1
afn 300 1
scc 290 1
Int51.25 Clades du rest
clade m e m/e gen
alpha 240 63 3,8 14
gama 312 72 4,4 9
bacilli 267 105 2,5 8
clostrid 314 79 4,0 8
actino 308 104 3,0 4
archeo 357 128 2,8 4
total 281 64 4,4 49
bacter 274 326 2
cyano 414 208 2
teneri 189 249 2
cvi 264 1
ade 235 1
ant 138 1
afn 266 1
scc 345 1
Intergen51. Les diagrammes CDS-CDS négatifs
modifier
Intergen51. Les fréquences de -1 à -5
modifier
  • Liens tableau des 51 génomes et le tableau avec des couleurs.
  • Notes:
    - Les fréquences 1 2 3 4 5: Les 2 lots continu c- et discontinu x- ont en commun les fréquences 3 4 5, avec la proportion la plus élevée de la fréquence 4 (47% en continu et 29% en discontinu), les fréquences 3 et 5 sont quasiment nuls. Par contre les 2 lots se différencient nettement par les fréquences 1 et 2: la 1 des continus a la 2ème proportion la plus élevée et rivalise avec la fréquence 8 (18% contre 10%) et la fréquence 2 est quasiment nulle avec un effectif de 11 contre 814 attendus par rapport aux discontinus, 85*23512/2456; la 1 des discontinus est nulle, par contre la fréquence 2 rivalise avec la fréquence 8 (3.5% contre 3.6%).
    - Ainsi les 2 processus se comportent de façon inverse pour le taux des 5 1ères fréquences par rapport à leur total: 33% pour les discontinus et 64% pour les continus ce qui explique la forte proportion du reste chez les discontinus, 10.7% contre 1.8%, accentuée par la forte progression des continus par rapport aux discontinus comme je le détaille à la suite. A ce comportement s'ajoute la forte dissymétrie c/x des négatifs, 9.6 contre 2.5 pour la totalité des intercalaires.
Intergen51. La périodicité de 3
modifier
  • Lien au tableur: les rapports pour t4.
  • Liens: tableau des 51 génomes.
  • Diagrammes:  t3.3  t4
  • Légende du tableau: 2/1 pour effectif de la fréquence 8 modulo 3, sur effectif de celle de 7 modulo 3. x et c pour discontinu et continu
cds-cds. Les fréquences des intercalaires négatifs cds-cds
inter fx- ‰x- 2/1x- fc- ‰c- 2/1c-
-1 4 2 4,140 176
-2 85 35 11 0
-3 3 1 12 1
-4 717 292 10,938 465
-5 5 2 19 1
-6 59 24 6 0
-7 41 17 351 15
-8 89 36 2.20 2,362 100 6.73
-9 47 19 7 0
-10 29 12 213 9
-11 94 38 3.24 1,255 53 5.89
-12 39 16 3 0
-13 35 14 242 10
-14 97 39 2.77 788 33 3.26
-15 43 18 6 0
-16 28 11 123 5
-17 68 28 2.43 537 23 4.37
-18 35 14 9 0
-19 29 12 107 5
-20 51 21 1.76 408 17 3.81
-21 17 7 2 0
-22 21 9 61 3
-23 42 17 2.00 264 11 4.33
-24 28 11 5 0
-25 22 9 91 4
-26 43 18 1.95 246 10 2.70
-27 13 5 3 0
-28 21 9 54 2
-29 43 18 2.05 158 7 2.93
-30 17 7 0 0
-31 20 8 48 2
-32 39 16 1.95 125 5 2.60
-33 14 6 0 0
-34 15 6 32 1
-35 31 13 2.07 125 5 3.38
-36 9 4 0 0
-37 8 3 27 1
-38 27 11 3.40 71 3 2.63
-39 15 6 0 0
-40 14 6 21 1
-41 24 10 1.71 58 2 2.76
-42 7 3 0 0
-43 10 4 31 1
-44 14 6 1.40 47 2 1.52
-45 6 2 0 0
-46 15 6 14 1
-47 19 8 1.27 43 2 3.07
-48 12 5 0 0
-49 13 5 23 1
-50 15 6 1.15 55 2 2.39
reste 264 107 420 18
total 2,456 1000 23,544 1000
  • Note1: Périodicité de 3
    Découverte de la périodicité: Elle est apparue dès les 1ères études des intercalaires négatifs qui ne tenaient pas compte des compléments. En séparant les discontinus des continus, les effectifs des fréquences continues 6 modulo 3 devenaient nulles à partir de la fréquence 15 sur 50 décomptées. Ce phénomène m'a fait penser immédiatement au code génétique à 3 bases. Ce qui m'a poussé à en faire une étude approfondie.
    Signification de cette périodicité pour les intercalaires continus: un intercalaire négatif entre 2 CDS est une partie commune entre eux. Ce qui fait que pour les intercalaires 6 modulo 3 les 2 CDS ont une séquence d'acides aminés identique. Mais pour les intercalaires 7 et 8 modulo 3 les séquences sont différentes, par décalage, entre les 2 CDS. Une différence de séquence ne pose de problème du point de vue fonctionnel pour 2 protéines, mais l'identité de séquence en pose. C'est ce qui explique l'absence d'intercalaires modulo 3 long. C'est ainsi qu'une longueur de 30 pbs limite correspond à 10 aas qui devrait avoir une fonction spécifique peu fréquente. Reste alors, pourquoi la fréquence 8 modulo 3 est avantagée à celle de 7? (voir les taux dans le petit tableau de fin de note) La 1ère explication est que les fréquences 1 et 4 qui appartiennent à la période 7 modulo 3 et qui représentent 64% des intercalaires continus, servent de barrage pour les intercalaires suivants de cette période. Les fréquences 2 et 5 étant de la période 8 modulo 3 et étant nuls laissent la voie libre aux suivants. Mais le problème n'est que reporté aux fréquences de 1 à 5. Je reprendrais la discussion à la fin de ce chapitre.
    La périodicité de 3 chez les discontinus: Celle des continus était très intéressante mais celle des discontinus l'est encore plus, puisqu'un intercalaire négatif discontinu entre 2 CDS étant sur 2 brins différents leurs bases sont complémentaires et donc les 2 séquences d'aas sont totalement différentes. Ce qui est intéressant, c'est pourquoi y a-t-il une périodicité? Cela ne peut être qu'une conséquence de la physique de l'ADN au moment des réparations à l'origine de la création du complément. Les fréquences de 1 à 5 sont analogues aux continus,surtout la fréquence 4: est-ce qu'on peut en déduire que les continus subissent une contrainte physique lors du chevauchement? (Voir le petit tableau pour la périodicité le chapitre des fréquences de 1 à 5).
    Les processus probables à l'origine de la périodicité des continus.
    - Les fréquences de 1 à 5: Elles représentent 64% de tous les négatifs continus. Une explication qui me vient à l'esprit est le départ de la transcription d'une base ou plus à l'arrière du 2ème CDS quand les 2 gènes sont contigus. J'avais retrouvé cette situation quand je lisais les séquences publiées par le NCBI. Ceci expliquerait les fréquences 1 et 4, la 1ère crée un déphasage de la lecture ce qui donne une nouvelle séquence d'aas et la 2ème rajouterait, en plus, le codon d'initiation de la traduction Metf.
    - Les fréquences supérieures à 5: Les longs intercalaires ne peuvent pas être expliqués par le dé calage de lecture. Mon idée c'est qu'ils sont créés lors des réparations qui apparaissent avec les contraintes physiques de l'ADN créées lors des réparations de délétions ou lors des transcriptions et de la réplication. Le processus de réparation provoquerait un état vibratoire plus ou moins fort prologeant celui du 1er CDS. Cela se traduirait par un décalage d'une à 3 bases pour respecter la périodicité des 3 bases du code génétique. La force du prolongement de l'état vibratoire serait nulle pour un décalage de zéro bases, conséquent pour une base et très fort pour 2 bases. Et plus la force serait grande plus sera grand le décalage. Ce qui donnerait la périodicité constatée chez les intercalaires continus, effectifs quasiment nuls pour la période 6 et qui s'annulent rapidement, de faibles effectifs pour la période 7 et enfin de forts effectifs pour la période 8. Cependant la période 7 accompagne la 8 jusqu'à 116 pbs et peut prendre le dessus sur la 8 pour les faibles effectifs. Dans la liste des grands intercalaires négatifs continus (ref), sur les 22 supérieurs à 120 pbs, 9 les plus grands à partir de 729 sont des 6 modulo 3 (sauf 1295) et peuvent s'expliquer par la terminaison de la transcription ou de la traduction, un seul 7 modulo 3 le 310 et 12 sont des 8 modulo 3, le dernier étant 500.
    Les processus probables à l'origine de la périodicité des discontinus.
    - Appariement du recouvrement: étant donné la rareté des discontinus négatifs, 2456/200502 soit 1.2%, cela montre qu'un CDS a un état quantique propre, différent des autres gènes et que 2 CDS puissent difficilement s'apparier ou autrement dit, le brin compléméntaire d'un CDS est rarement un CDS. C'est comme si l'état quantique des intercalaires, en général, étaient moins solides que celui d'un CDS. La formation d'une discontinuité se ferait alors plus facilement dans un intercalaire continu positif. C'est effectivement le cas puisque j'ai recensé 2,456 x- contre 51,366 x+, soit 20 fois plus. Ce rapport est encore décuplé si l'on considère le rapport de la longueur totale des intercalaires positifs à la longueur du génome, rapport qui se situe en général autour de 10%.
    - Formation d'un intercalaire discontinu négatif: Sur le schéma suivant je suppose que le gène de séquence b est sur le brin complément du gène de séquence a.
    a  a  a  a  a=  a=  a=  =  =
    °  °  b°  b°  b  b   b   b  b
    Le signe = pour le brin opposé de b, le signe ° pour le brin oppsé de a; a= et b° sont détruits, les 2 brins opposés glissent l'un par rapport à l'autre et a= b° sont remplacées par une base qui maintient le même aa dans la protéine.
    La proximité de 2 CDS imposant chacun sa force quantique contraint le système de réparation à supprimer l'intercalaire qui est entre eux et qui a une faible force quantique et pour résoudre la nouvelle contrainte il détruit quelques bases des 2 gènes pour faire glisser les 2 brins entre eux, ce qui réduit le chromosome. La réduction totale du chromosome est certainement compenser par un allongement plus loin de certains intercalaires positifs de faible force quantique. Au niveau des 2 gènes impactés, ici, le système de réparation reproduit le morceau de chaque gène à l'identique (en aas) contraint par leurs grandes forces quantiques. L'opération ne réussit pas souvent parce que certains aas n'ont pas beaucoup de codons analogues pour changer d'appariement. D'où la rareté du processus. Cependant la réparation résoud les contraintes et renforce encore plus le chromosome qu'il ne l'est par un seul gène sans recouvrement.
    - Conséquence de ce processus sur le recouvrement:
    + Plus la contrainte créée par les 2 CDS est forte plus long sera le recouvrement.
    + Pour les contraintes faibles la périodicité de 3 des CDS n'apparaît pas encore car le recouvrement est court. La périodicité de 2 prend la place avec 2 4 6 et reflète le processus de la réparation qui procèderait par paires de bases. Ce que j'obtiens c'est 3.5% de 2, 29% de 4 et 2.4% de 6. Un recouvrement de 4 paraît comme un minimum pour la consolidation d'un appariemment à problème, comme aussi pour la majorité des CDS moyens ou à force quantique moyenne. La différence de taux de la fréquence 4 entre continus, 47%, et discontinus, 29%, dénote la différence des processus mis en oeuvre.
    + Pour les contraintes fortes, c'est à dire des CDS à grande force quantique, leur périodicité de 3 apparaît à partir de la fréquence 6. Ici la période 6 n'est pas inhibée par chevauchement comme dans les continus. Au total elle a le même effectif que la période 7 (voir les taux dans le petit tableau de fin de note): 431 contre 388.
    + La période 8, dans les discontinus, fait 50% et la 6 26% et la 24%. Dans le CDS la périodicité de 3 ne se révèle qu'à la traduction qui est sensible à l'état quantique de chaque base du codon. Qu'elle est la force de la 1ère base, de la 2ème et de la 3ème base du codon? Je penses que les 2 processus, chevauchement et recouvrement, ont révélés ces forces par leur périodicité de 3. Chez les discontinus, si on considère la 1ère base du codon comme la période 7 alors la 2ème base correspond à la période 8. Ce qui est conforme au code génétique où les 2 premières bases définissent 1 2 ou 4 aas. Ceci est vrai pour les continus, mais étant donné la complémentarité les 2 dernières bases sont à égalité chez les discontinus.
    La périodicité des intercalaires négatifs et les tRNAs.
    - La périodicité des continus rappelle la genèse des tRNAs avec l’absence totale de ceux dont le codon se termine par t, c'est à dire la 3ème base comme les continus. Est-ce la base t ou bien la position du 3ème rang? Ce dernier cas expliquerait le cas du codon cgc qui est absent remplacé par le codon cgt.
    - La périodicité des discontinus rappelle l’occurrence de tous les aas mais n'explique pas pourquoi la répartition des bases chez les intercalaires est de 1 2 1 pour respectivement la 1ère base la seconde et la 3ème. Si j'applique la même règle que pour les continus pour chaque brin, 0 1 1 pour un brin et 1 1 0 pour le complément et en additionnant j'ai bien 1 2 1.
    - Si la genèse des tRNAs utilise le rRNA 5s comme modèle, comme je le montrerais plus loin avec les intercalaires 5s-CDS analogues aux tRNA-CDS, alors le tRNA se formerait, comme pour les intercalaires continus, sur le 5s et non sur le brin opposé et donc devrait s'en séparé par glissement. Si cette hypothèse était vraie alors le mystère de la genèse chez les eucaryotes des tRNA au codon se terminant par t s'éclaircisserait: ils utiliseraient les 2 rRNA 5s et 5,8s comme modèle et le second produirait les tRNA se terminant par t comme font les intercalaires discontinus x-.
    - Dans le tableau qui suit je montre la grande différence de la périodicité 3, entre intercalaires CDS-CDS et tRNA-CDS. Les données des derniers sont dans les intercalaires rares. Ce sont surtout les R- continus qui sont complètement dissymétriques par aux S- continus. Mais la fréquence -4 est nulle pour les R- alors qu'elle représente 50% des S- continus et 30% des discontinus ( voir le tableau des S- ci-dessus).
Totaux des 3 périodes jusqu'à la fréquence 120 pour CDS-CDS					
S-	continus	 		discontinus	
période	effect	%		effect	%
6	43	5.1		431	264.6
7	1604	190.9		388	238.2
8	6755	804		810	497.2
total	8402	1000		1629	1000
-	-	-		-	-
Totaux des 3 périodes jusqu'à la fréquence 44 pour tRNA-CDS					
R-	continus	 		discontinus	
période	effect	%		effect	%
6	4	571		4	444
7	2	286		0	0
8	1	143		5	556
total	7	1000		9	1000
  • Note2: Les diagrammes des périodes 3:  t3.3  t4   et les données dans le tableau des 51 génomes.
    - Construction du diagramme: J'ai représenté chaque période démarrant par 6 7 8 modulo3 (ou dans le titre 0 1 2 modulo 3) avec ses fréquences (freq -1) en abscisse et ses effectifs (effect) en ordonnée, jusqu'à la fréquence 50. J'ai ajouté le total des effectifs de chaque période avec le label diagr. Je ne suis pas allé jusqu'à la fréquence 120 que j'ai utilisée pour la périodicité 9 dans le chapitre suivant. Mais déjà on voit que les diagrammes x- pourraient être représentées par des droites avec des pentes négatives faibles et que les diagrammes c- sont mieux représentées par un polynôme de d° 6, notamment le diagramme 2 modulo3 avec un coefficient de détermination de 0.999. J'ai représenté cependant les 6 diagrammes avec le polynôme de d° 6. C'est ce qui permet de mettre en évidence la périodicité 9 des x- et pas des c-. Le tableau en fin de Note2 affiche les pentes et les effectifs des périodes successives de la périodicité 9 de 2 modulo3 x- (2x-) qu'on peut deviner aussi dans 1 modulo3 x-.
    - Les rapports entre périodes: J'ai représenté dans l'image t4 les rapports entre 2 périodes de x- entre celles de c-. Par exemple le diagramme 2/1x- est le rapport de l'effectif de la période 2 modulo3 sur celle de 1 modulo3 des x-. Il est indiqué dans le tableau coloré des négatifs en début de chapitre et on peut le retrouver en tableur au début aussi du chapitre. Pour les continus je n'est représenté que 2/1c-, la période 0 c- ayant beaucoup de valeurs nulles. Je retrouve avec ces diagrammes la périodicité 9 des x- avec 2/1x- où j'ai éliminé les rapports des fréquences 11 et 34 (j’ai donné le R2 avec ces 2 rapports). Il ressemble étonnamment à celui de la période 2 modulo3x-. Il montre la corrélation entre les périodes avec la pente de la droite et les séquences de la période 2 modulo. Les rapports de 1/0x- montre une pente faible mais pas de séquences périodiques avec un R2 faible de 0.504. Les rapports de 2/0x- ne montrent même de décroissent avec un R2 quasiment nul de 0.035. Le diagramme 2/1c- ne met pas en lumière la périodicité 9. Il a une décroissance polynomiale nette et ne présente pas de séquences périodiques comme 2/1x-.
    - Mise en évidence de la périodicité 9 chez les discontinus x- avec les droites des diagrammes t3.3. Pour les c- la pente est calculée entre les 2 1ères fréquences. J'ai ajouté les R2 des polynômes de d° 3 pour comparer à d'autres diagrammes du chapitre des négatifs.
 poly3	R2	pente	*mod3	8	14	23	35
							
2x-	930	-1.97	*2 x-	89	97	42	31
1x-	895	-0.64	*	94	68	43	27
0x-	926	-1.12	*	97	51	43	24
2c-	960	-369	*				
1c-	951	-46	*pente	1.33	-7.67	0.17	-1.17
Intergen51. La périodicité de 9
modifier
  • Lien au tableur: les données pour t3.9
  • Diagrammes:  t3.9
  • Périodicité de 9 : Le tableur contient tous les négatifs au-delà de -51 ainsi que les 6 périodes de 9, 6c 7c 8c 6x 7x 8x. Ci-dessous sont représentées les périodes 7c et 7x des continus et des discontinus ainsi que les 3 types d'ordonnées commençant par 6 7 8 des 3 périodes de la périodicité 9..
    - Chaque colonne a b c est une périodicité de 9 et la colonne t est leur total. Une ligne correspond à 3 périodes de 3. Dans l’exemple ci-dessous la 1ère ligne correspond aux effectifs des fréquences 7 10 13 des colonnes 7a 7b 7c et 7t la somme des effectifs de ces 3 fréquences, la 2ème ligne correspond de même aux fréquences 16 19 22 et ainsi de suite.
    - La colonne 7a a les fréquences 7 modulo 9 c'est à dire 7 16 25 ...etc, et la colonne 7b les fréquences 10 modulo 9, 10 19 34 ...etc.
c-	7ca	7cb	7cc	7ct	*	x-	7xa	7xb	7xc	7xt	*	Les 3 périodes de 9		
7	351	213	242	806	*	7	41	29	35	105	*	6	7	8
16	123	107	61	291	*	16	28	29	21	78	*	15	16	17
25	91	54	48	193	*	25	22	21	20	63	*	24	25	26
34	32	27	21	80	*	34	15	8	14	37	*	33	34	35
43	31	14	23	68	*	43	10	15	13	38	*	42	43	44
52	16	13	6	35	*	52	7	3	8	18	*	51	52	53
61	10	14	17	41	*	61	4	5	8	17	*	60	61	62
70	5	9	5	19	*	70	2	2	2	6	*	69	70	71
79	5	13	7	25	*	79	3	5	2	10	*	78	79	80
88	6	9	9	24	*	88	2	2	1	5	*	87	88	89
97	7	3	1	11	*	97	2	0	1	3	*	96	97	98
106	3	2	2	7	*	106	2	3	0	5	*	105	106	107
115	4	0	0	4	*	115	2	1	0	3	*	114	115	116
  • Les coefficients de détermination de toutes les courbes de tendance en polynôme de d°3, d°6 et leurs effectifs:
	R2	effect	d°6 		R2	effect	d°6 		R2	effect	d°6 
6ca	-	17		7ca	927	684	991	8ca	864	3372	995
6cb	-	19		7cb	969	478	999	8cb	908	2015	999
6cc	-	7		7cc	867	442	986	8cc	913	1368	999
6ct	-	43		7ct	928	1604	994	8ct	887	6755	997
											
6xa	990	173	994	7xa	997	140	998	8xa	993	287	996
6xb	966	129	979	7xb	908	123	930	8xb	975	271	989
6xc	893	129	975	7xc	970	125	988	8xc	953	253	984
6xt	994	431	997	7xt	988	388	988	8xt	987	811	994
  • Note:
    - J'ai montré la construction des diagrammes à la 1ère note "Périodicité de 9" ci-dessus. Je n'ai représenté que les courbes de tendances de 7xa 7ca 7xt 7ct avec leurs R2 en bleu. Sont représentés, affichés aussi, les R2 des 7xb et 7cb (rouge) ainsi que ceux de 7xc et 7cc (en vert). J'ai ajouté le total des effectifs de 7xt et 7ct avec le symbole diagr.
    - Le tableau ci-dessus des R2 de toutes les périodes modulo9 montre que les diagrammes des c- sont mieux représentés en polynômes de d°6, avec les 8 R2 supérieurs à 0.986, que par les polynômes de d°3, avec 7 R2 inférieurs à 0.928 alors même que leurs effectifs sont 10 fois supérieurs à ceux des x-.
    - Le même tableau montre que les x- sont suffisamment représentés par un polynôme de d°3, avec 2 R2 seulement inférieurs à 0.953 (0.908 et 0.893). Les polynômes de d°6 n'améliorent pas la situation comme les c- puis que 5 R2 sont inférieurs à 0.986: 2 avec 0.984 et 0.979 0.975 0.930. On peut attribuer ceci à leurs faibles effectifs relativement à ceux des c-.
    - En conclusion des diagrammes t3.3 t4 et t3.9, les x- avec leur décroissance lente montre bien une périodicité de 9 et les c- ne la montre pas parce qu'il décroissent rapidement et sont mieux représentés par des polynômes de d°6 et non de d°3 qui sont adaptés aux x-.
Intergen51. Les grands négatifs inférieurs à -120
modifier
  • Lien au tableur: les recouvrements.
  • Les recouvrements
    - Légende
    - add1 add2 adresse du début et de fin d'un cds. Je nomme pour les opérations qui suivent add11 add12 le 1er cds de la 1ère ligne. La ligne suivante contient les adresses du cds suivant que je nomme add21 add22.
    - Les opérations:
    + intercal, intercalaire entre un cds et le suivant. Il est calculé comme add12-add21-1.
    + shift, différence entre les extrémités de droite, des 2 cds, add22-add12. S'il est nul, il est remplacé par celui des extrémités de gauche, add21-add11. Les extrémités identiques, de droite ou de gauche, sont surlignées en jaune.
    + couvre, le recouvrement des 2 cds. Quand le shift est négatif (cyan) le cds est complètement recouvert et la longueur du recouvrement est égale à la longueur du 2ème cds, soit add22-add21+1, inférieure à l'intercalaire. Si le shift est positif le recouvrement est partiel et sa longueur est add12-add21+1, égale à l'intercalaire. Si les extrémités, d'un des 2 côtés, sont identiques le recouvrement d'un des 2 cds est total.
    - Note:
    - Tous les shift ou adresses colorés, au nombre de 22, ont un recouvrement total et la longueur de leurs intercalaires est supérieure à 310 (eal continu partiel) sauf 3 de eco, continus (242 212 153), et un de bsu discontinu (127). Les 12 intercalaires restants, sans couleurs, ont une longueur inférieure à 311 et des recouvrements partiels comme certainement les 97% des intercalaires négatifs de moins de 50 pbs.
    - Les continus ont de longs recouvrements allant jusqu'à 2400 et 12 sur 22 ont un recouvrement supérieur à 310. Les adresses en jaune: la traduction démarre en retrait pour le plus petit gène et garde la même séquence d'aas (idco: la longueur de l'intercalaire est égale au recouvrement) sauf l'intercalaire 153 où le recouvrement est tout à fiat différent pour les 2 gènes (diff); il suit le processus des recouvrements partiels non colorés ou en cyan. Alors que les autres jaunes suivent les processus de la traduction et non ceux des réparations au niveau de l'ADN.
    - Les discontinus, à l'inverse, un seul a 486 pbs de recouvrement sur un total de 12 et 6 sont en dessous de 100 pbs, 5 ayant moins de 297 pbs.
    - Les processus des intercalaires continus sont à 95% des non multiples de 3 comme je l'ai montré dans le chapitre de la périodicité 3. C'est le cas de toutes les adresses en clair et de l'intercalaire 153 qui est en jaune. Les autres jaunes suivant les règles de la traduction sont des multiples de 3. Les 4 adresses en cyan ont des recouvrements multiples de 3 mais n'ont pas d'aas en commun (diff) avec l'autre gène, donc ils suivent les processus partiels des réparations.
    - Les recouvrements des intercalaires discontinus sont totalitaires ou partiels et multiples ou non de 3 bien qu'ils aient de grandes longueurs.
cds-cds-. Les grands intercalaires cds-cds négatifs, les recouvrements.
intercal add1 add2 shift couvre multiple 3 intercal add1 add2 shift couvre multiple 3
continu
bsu eco
-7616 387744 398495 -7475 141 *diff -2400 164730 167264 136 2400 *idco
390880 391020 164865 167264
-2202 3313342 3315543 470 2202 *idco
-500 3717238 3717825 -20 480 *diff 3313342 3316014
3717326 3717805 -2181 3313342 3315522 20 2181 *idco
3313342 3315543
-492 2909520 2910011 735 492 *idco -2130 2731600 2733729 444 2130 *idco
2909520 2910746 2731600 2734173
-1674 1973360 1975033 290 1674 *idco
-164 1252815 1253021 52 164 1973360 1975324
1252858 1253073 -1295 492092 493386 637 1295 idco
492092 494023
-154 2466721 2467953 209 154 -897 4577958 4578854 483 897 *idco
2467800 2468162 4577958 4579337
-729 1179520 1180359 112 840 *idco
-143 1916663 1917097 205 143 1179631 1180359
1916955 1917302 -448 1639030 1639527 -193 255 *diff
rru 1639080 1639334
-137 2068001 2069146 934 137 -242 578107 578568 -59 183 *diff
2069010 2070080 578327 578509
lmo -212 508875 511379 2292 212 *idco
-161 509400 510287 925 161 511168 511379
510127 511212 -153 16751 16903 57 153 *diff
mfi 16751 16960
-161 515362 516138 142 161 eal
515978 516280 -310 1869470 1869865 467 310 diff
1869556 1870332
discontinu
bsu eco
-361 2601528 2603339 -64 297 * -723 3111128 3111988 -663 60 *
2602979 2603275 3111266 3111325
-530 3838248 3839171 -470 60 *
-127 3666841 3667059 -43 84 * 3838642 3838701
3666933 3667016 -527 10643 11356 -41 486 *
10830 11315
-93 2652993 2653463 1410 93 * -495 234027 234782 -462 33 *
2653371 2654873 234288 234320
eal -436 3796948 3798207 -361 75 *
-189 3265916 3266143 1749 189 * 3797772 3797846
3265955 3267892 -210 3993739 3994059 276 210 *
eal 3993850 3994335
-167 1123029 1123934 1507 167 -129 1240260 1240463 1608 129 *
1123768 1125441 1240335 1242071

Intergen51. Les diagrammes CDS-rRNA

modifier
Intergen51. Les diagrammes CDS-16s
modifier
  • Lien au tableur: Intergen51. Les diagrammes CDS-16s.
  • Diagrammes:  t5
  • Comparaison CDS16s 5sCDS
    - Les équations des polynômes de d°3
    CDS16sc f(x) = 1.06E-07 x3 – 2.31E-04 x2 + 1.37E-01 x - 1.28E+01
    CDS16sx f(x) = 2.38E-08 x3 – 5.97E-05 x2 + 4.11E-02 x - 4.25
    5sCDSc  f(x) = 1.86E-07 x3 - 2.41E-04 x2 + 7.56E-02 x + 1.12
    5sCDSx  f(x) = 1.28E-07 x3 – 1.54E-04 x2 + 3.86E-02 x + 4.50
    - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
		CDS16sc		CDS16sx		5sCDSc		5sCDSx
R2		0.687		0.456		0.655		0.592
xs		415.2		487.7		205.9		155.5
plage		180-780		330-750		90-330		60-300
total-p		181		69		75		69
%		86		74		74		78
queue		26		20		26		18
%		12		22		26		20
tête		3		4		3		2
%		1.5		4.3		3.0		2.2
max		450;22		480;9		180;13		120;16
total51		210		93		101		89
freq		30		30		30		30
Intergen51. Les diagrammes 5s-CDS
modifier
  • Lien au tableur: Intergen51. Les diagrammes 5s-CDS.
  • Diagrammes:  t5  et  t1  pour les tRNA-CDS
  • Comparaison avec les tRNA-CDS
    - Les équations des polynômes de d°3
    fct    f(x) = 1.04E-05 x3 - 7.10E-03 x2 + 1.21E+00 x + 1.35E+01
    fxt    f(x) = 3.16E-06 x3 - 2.46E-03 x2 + 4.87E-01 x + 9.58
    5sCDSc f(x) = 1.86E-07 x3 - 2.41E-04 x2 + 7.56E-02 x + 1.12
    5sCDSx f(x) = 1.28E-07 x3 – 1.54E-04 x2 + 3.86E-02 x + 4.50
    - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
		fct		fxt		5sCDSc		5sCDSx
R2		0.923		0.600		0.655		0.592
xs		113.5		133.1		205.9		155.5
plage		40-210		40-260		90-330		60-300
total-p		1125		788		75		69
%		58		63		74		78
queue		708		411		26		18
%		36		33		26		20
tête		98		40		3		2
%		5.0		3.2		3.0		2.2
max		110;84		100;57		180;13		120;16
total51		1945		1253		101		89
freq		10		10		30		30
  • Note:
Intergen51. Les CDS-rRNA rares
modifier
		5sCDSc		23sCDSc	5s16sc	23sCDSx	CDS5sx		CDS16sc	CDS23sc		23sCDSc	5s16sc
R2		0.655		-	-	-	-		0.687	-		188	183
xs		205.9		281	284	158	264		415.2	590		223	265
plage		90-330		90-330	90-330	90-330	90-330		210-780	210-780		237	266
total-p		75		8	7	6	4		181	5		299	267
%		74		67	64	100	100		86	100		313	317
queue		26		4	4	0	0		26	0		322	319
%		26		33	36	0	0		12	0		331	371
tête		3		0	0	0	0		3	0		336	866
%		3		0	0	0	0		1.5	0		357	1107
max		13;180		2;240	3;270	2;150	1;240		22;450	1;540		385	1125
total51		101		12	11	6	4		210	5		446	1319
freq		30		30	30	30	30		30	30		463	

															
23sCDSx	CDS5sx	CDS23sc		16sCDS	16sCDSx	5s16sx							
87	184	407		-3	228	161							
109	228	531		2	CDS23sx	340							
151	301	563		294	182	CDS5sc							
151	343	719		695	16s16sc	52							
188		736		1463	0	335							
260				2466										

Intergen51. Les diagrammes RNA-RNA

modifier
Intergen51. Les diagrammes rRNA-rRNA
modifier
  • Lien au tableur: Intergen51. Les diagrammes rRNA-rRNA.
  • Diagrammes:  t6
  • Comparaison entre les 4 rRNA-rRNA
    - Les équations des polynômes de d°3
    16s23sc  f(x) = 1.17E-06 x3 – 1.42E-03 x2 + 4.93E-01 x - 3.98E+01
    16stRNAc f(x) = 1.74E-06 x3 – 1.29E-03 x2 + 2.14E-01 x + 6.21
    tRNA23sc f(x) = 8.08E-07 x3 – 8.80E-04 x2 + 2.54E-01 x - 8.69
    23s5sc  f(x) = 1.74E-05 x3 – 1.00E-02 x2 + 1.55E-00 x - 3.11E+01
    - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
		16s23s		16stRNA		tRNA23s		23s5sc
R2		0.680		0.474		0.562		0.684
xs		252.2		105.4		198.7		107.9
plage		160-360		80-140		100-320		60-180
total-p		137		112		151		242
%		91		72		87		85
queue		11		35		16		27
%		7.3		23		9.2		9.4
tête		2		8		6		9
%		1.3		5.1		3.5		3.1
max		21;280		32;100		25;280		58;140
total51		150		155		173		286
freq		20		20		20		20
Intergen51. Les diagrammes tRNA-rRNA
modifier
Intergen51. Les diagrammes tRNA-tRNA
modifier
Les diagrammes
modifier
  • Diagrammes:  t7
Comparaison entre 5stRNA et les 3 types de tRNA-tRNA
modifier
type c		S40	%	R2	diag	total	reste	x+	restes	5stRNA	hors	hors	contig	in
hors		815	65	0.901	260	1254	17	17		155	261	439	138	6*161
contig		669	92	0.900	120	731	6	0		170	269	452	158	
in		72	51	0.454	120	140	6	0		175	278	479	265	
5stRNA		91	59	0.593	120	155	8	1		4*257	297	504	311	
										287	306	532	1472	
											341	539	2351	
											373	634		
											373	718		
												1172		
Les pourcentages des tRNA-tRNA extra bloc
modifier
  • Les intercalaires tRNA-tRNA hors blocs
hors		gama	alpha	cvi	ade	ant	bacilli	clostri	afn	ase	3actino	archeo	bact	cyano	tener	scc
20		20.3	12.5	36.4	6.9	58.6	68.4	70.3	81.5	51.0	22.4	12.2	8.3	79.3	73.3	20.0
40		31.2	27.3	45.5	16.7	20.7	21.1	16.8	7.4	12.2	36.2	12.2	56.7	0	6.7	70.0
60		24.6	18.2	13.6	16.7	6.9	3.0	5.0	7.4	8.2	22.4	8.2	18.3	6.9	0	10.0
80		6.3	6.8	4.5	16.7	6.9	0.8	3.0	0	4.1	5.2	24.5	0	3.4	20.0	0
100		5.1	4.5	0	0	6.9	1.5	1.0	0	6.1	3.4	18.4	5.0	6.9	0	0
120		6.0	4.5	0	0	0	2.3	0	3.7	4.1	0	12.2	0	0	0	0
140		1.7	5.7	0	8.3	0	0	0	0	0	1.7	2.0	0	0	0	0
160		1.0	3.4	0	8.3	0	0.8	1.5	0	8.2	0	0	3.3	3.4	0	0
180		0.2	4.5	0	0	0	0	0	0	0	1.7	4.1	0	0	0	0
200		1.2	1.1	0	0	0	0	0.5	0	2.0	0	0	1.7	0	0	0
220		1.2	8.0	0	0	0	0	0	0	0	3.4	0	1.7	0	0	0
240		0	0	0	0	0	0.8	0.5	0	0	1.7	2.0	1.7	0	0	0
260		0.2	1.1	0	8.3	0	0.8	0.5	0	2.0	1.7	0	0	0	0	0
restes		1.0	2.3	0	8.3	0	0.8	1.0	0	2.0	0	4.1	3.3	0	0	0
total		414	88	44	12	29	133	202	27	49	58	49	60	29	15	10
																
repete		47.8	55.4	53.3	0	11.1	11.4	12.0	11.1	13.3	45	25.7	77.8	40	0	0
sequence	21.7	0	26.7	0	11.1	2.9	22.0	11.1	0	6	11.4	0	0	0	0
éclaté		-	-	-	-	0	5.7	0	0	0	-	-	-	0	0	-
sans		30.4	44.6	20.0	100.0	77.8	80.0	66.0	77.8	86.7	48	62.9	22.2	60	100	100
clusters	115	65	15	6	9	35	50	9	15	31	35	27	5	8	4
																
5		-	-	-	-	10.3	23.9	29.7	29.6	34.7	-	-	-	41.4	13.3	-
10		-	-	-	-	13.8	24.6	23.3	33.3	2.0	-	-	-	34.5	33.3	-
15		-	-	-	-	17.2	12.3	6.9	11.1	8.2	-	-	-	3.4	20.0	-
20		-	-	-	-	17.2	5.1	10.4	7.4	6.1	-	-	-	0	6.7	-
  • Les intercalaires tRNA-tRNA contigus aux blocs
contig		bacilli	clostri	tener
20		77.4	85.3	70.0
40		13.4	8.7	5.0
60		4.9	2.7	20.0
80		1.0	0.7	5.0
100		1.0	2.0	0
120		1.0	0.3	0
140		0.8	0	0
160		0.3	0	0
180		0	0	0
200		0	0	0
220		0	0	0
240		0	0	0
260		0	0	0
restes		0.3	0.3	0
total		389	300	20
				
repete		0	3.2	0
sequence	0	9.7	0
éclaté		21.6	16.1	0
sans		78.4	71.0	100
clusters	37	31	2
				
5		26.2	24.0	20.0
10		23.9	41.0	30.0
15		15.7	15.3	15.0
20		11.6	5.0	5.0

Intergen51. Les RNA-RNA rares
modifier
type c		S40	%	R2	diag	total	reste	x+	
5stRNA		91	59	0.593	120	155	8	1	
tRNA5s		15	65	0.302	17	23	8	
******	
restes	
tRNA5s	tRNA16s	23stRNA	16s5s	5s23s	5s5s
149	459	476	néant	230	748
149	1063				89
336			
777			
1112			
1360			
  • Comparaison avec les rRNA-rRNA analogues
    - Les équations des polynômes de d°3
    16stRNAc f(x) = 1.74E-06 x3 – 1.29E-03 x2 + 2.14E-01 x + 6.21
    tRNA16sc f(x) = 1.20E-06 x3 – 8.01E-04 x2 + 1.54E-01 x – 6.62E+00
    tRNA23sc f(x) = 8.08E-07 x3 – 8.80E-04 x2 + 2.54E-01 x - 8.69
    23stRNAc f(x) = -1.26E-05 x3 + 2.37E-03 x2 – 5.95E-02 x + 5.71E-01
    - Les caractéristiques des courbes: xs abscisse calculée du maximum de la courbe en pbs, plage des effectifs forts et max de l'effectif maximum et son abscisse.
		tRNA16sc	16stRNAc	23stRNAc	tRNA23sc
R2		0.532		0.474		0.681		0.562
xs		140.5		105.4		111.2		198.7
plage		80-220		80-140		60-140		100-320
total-p		16		112		23		151
%		80		72		92		87
queue		4		35		1		16
%		20		23		4		9.2
tête		0		8		1		6
%		0		5.1		4		3.5
max		4;120		32;100		8;120		25;280
total51		20		155		25		173
freq		20		20		20		20
  • Comparaison de 5s16s et 16s5s: voir Les CDS-rRNA rares. bcts abrégé pour bacteroidites cyanobacterie tenericutes spirochete
    - Note. le xs sans R2 est la moyenne de la plage et bcts abrégé pour bacteroidites cyanobacterie tenericutes spirochete
	5sCDSc	5s16sc	16s5sc		effect	16s5sc			5s16sc			5s16sx	
R2	0.655	-	-		7	79	6cle 1cbc	183	bacilli		340	archeo
xs	205.9	284	198		1	102	ppm		265	bcts		161	clostridia
plage	90-330	90-330	90-330		1	117	ppm		266	bcts			
total-p	75	7	21		1	144	cle		267	bcts			
%	74	64	100		1	146	cle		317	gama			
queue	26	4	0		3	261	hmo		319	gama			
%	26	36	0		2	262	hmo		371	gama			
tête	3	0	0		1	336	hmo		866	actino			
%	3	0	0		4	337	hmo		1107	clostridia			
max	13;180	3;270	7;90						1125	clostridia			
total51	101	11	21						1319	gama			
freq	30	30	30