Recherche:Répétition des bases dans l'ADN des procaryotes
- Paris le 12.01.17.
- Paris le 12.01.17.
La rédaction de cet article de recherche est terminée. Je souhaite que les contributeurs me contactent pour des modifications importantes, parce que cette recherche est une réflexion personnelle et changer la formulation d'une hypothèse ou une présentation de résultats impactera profondément le sens de cette réflexion. J'ai sauvegardé l'ensemble sur mon disque et je pourrais rétablir l'original s'il y a vandalisme. Je suis disposé à dialoguer avec vous dans l'onglet discussion, et si le dialogue abouti alors je ferai les modifications nécessaires.
Merci d'avance pour votre compréhension.
L'auteur mekkiwik.
Paris le 8.9.16
- Précision sur le titre
Il s'agit des répétitions de la même base et de leurs longueurs dans le génome entier d'un procaryote donné. Exemple: A répétée 6 fois AAAAAA et non la répétition 6 fois de la paire AT comme suite, ATAATT, par exemple.
- Paris le 21.12.16: cet article s'intègre dans une longue réflexion sur les origines de la vie que j'ai amorcée dès 2005. Les réflexions quasi quotidiennes sont consignées depuis le 23.08.12 dans mon blog. Début mars 2015 j'avais entrepris de rédiger un concept global dont les prémisses, et le concept de la résonance de l'ADN, ont été consignés dans un dossier spécial du blog [5].
Résumé
Dans cet article j'ai étudié les taux des répétitions supérieures à 4 des 4 bases A T G C en fonction du contenu en GC (%GC) des chromosomes de quatre groupes de procaryotes ( cyanobactéries, autre-bactéries, euryarcheota et crenarcheota), de 2 lots de gènes protéiques 1 pour les cyanobactéries et 1 pour les autre-bactéries, de 2 lots de plasmides un lot chacun pour ces 2 groupes et enfin un lot de gènes de rRNA 23S du groupe autre-bactéries. Ces répétitions sont de la forme AAAAA.. TTTTT.. GGGGG.. CCCCC... . Ces taux sont calculés en %00 de paires de bases.
J'ai pu démontrer ainsi qu’une séquence de paires de bases est déterminée par l'interaction de l'ADN avec ses protéines. L'action/réaction de l'ADN dans cette interaction se ferait par le processus vibratoire sous-tendu par les nuages électroniques des paires de bases comme décrit dans la littérature physique de l'ADN[1]. Une des manifestations de ce processus serait représentée par le comportement des taux de répétitions étudiés ici. J'ai utilisé ces comportements pour différencier ce processus vibratoire d'autres processus intervenant sur l'ADN avec lesquels il peut être confondu.Ainsi:
- Le fait que ces répétitions font parties du contenu en GC et que leurs taux varient en fonction de ce contenu, montre que ce sont les processus de maintenance de l'ADN par ses protéines qui sont à l'origine de ces répétitions.
- Les comportements d'ensemble très différents de ces répétitions dans les 4 groupes et dans leurs gènes protéiques et leurs plasmides montrent que les processus de maintenance par les protéines de l'ADN sont différents dans les 4 groupes.
- Le comportement de ces taux de répétitions ne peut pas être expliqué par les taux des codons des acides aminés Gly (GGG), Pro (CCC), Lys (AAA) et Phe (TTT) dans les gènes de protéines qui constituent plus de 80% du génome d'un procaryote. D'abord il y a une grande variation des taux de répétitions entre les 4 groupes alors que les taux de ces 4 acides aminés ne devraient pas y varier beaucoup d'après les statistiques faites sur les protéines. Ensuite les rRNAs n'étant pas structurés en triplets affichent des comportements analogues de ces taux de répétitions.
- La variation des comportements des taux de répétition entre les plasmides d'un même organisme et ceux de son chromosome démontre que:
- Dans le cas où les plasmides seraient issus du chromosome hôte, leur détachement ne se fait pas au hasard mais se fait avec une transformation de leur état vibratoire. En effet les plasmides des cyanobactéries et du groupe homogène des autre-bactéries ont chacun un comportement d'ensemble différent l'un de l'autre.
- Le processus vibratoire à l'origine du comportement des répétitions est distinct de la maintenance de l'ADN puisque les protéines de celle-ci sont les mêmes pour le chromosome hôte et ses plasmides.
- De même la machinerie de la traduction, dont la sélection des codons par des tRNAs performants, n'impacte pas le processus vibratoire puisque cette machinerie est commune au chromosome hôte et à ses plasmides.
- Le processus vibratoire n'impacte pas l'appariement des bases puisque les 2 taux A ou T et G ou C des plasmides, varient dans les 2 sens par rapport au chromosome, en diminution et en augmentation.
- Dans le cas où les plasmides seraient acquis par transfert horizontal, la propriété de compatibilité, décrite dans la littérature, nécessaire entre-eux et le chromosome hôte prouve que leur séquence et donc leur état vibratoire doit être compatible avec les protéines de maintenance de l'hôte. Ceci montre encore que les variations des taux des répétitions observées entre les plasmides et le chromosome concernent le processus vibratoire et non une autre propriété de ces plasmides étrangers.
Introduction − 1
modifier Les répétitions de la même base doivent avoir un impact physique particulier sur l'ADN et donc influer sur son interaction avec les acides aminés et les protéines. Ces répétitions dans les gènes de protéines des procaryotes sont très limitées, et très rares sont les peptides contenant de longues séquences d'un seul acide aminé Lys ou Phe ou Gly ou Pro. Par contre on s'attend à retrouver ces répétitions dans les séquences non protéiques ou de contrôle.
Les propriétés des bases non liées et répétées doivent jouer de la même façon un grand rôle au début de l'évolution moléculaire ( origine de la vie) quand elles se trouvent regroupées et organisées dans un liposome en présence d'acides aminés aussi non liés, regroupés et organisés comme elles par le liposome. J'ai proposé cette hypothèses des acides aminés et des bases nucléiques libres regroupés dans un liposome comme étape initiale de l'évolution moléculaire dans 4 articles publiés dans wikipédia : pétrole prébiotique, chimio-osmose prébiotique, chiralité prébiotique et évolution de la membrane prébiotique. L'article, prebiotic petroleum dans springer [6], propose une synthèse de ces 4 articles. L'étude présente et une étude plus approfondie de la corrélation entre les codons dans les gènes de protéines sont la suite de cette réflexion sur les premières étapes de l'évolution moléculaire à l'origine de la vie (PEEMOV).
La variation du contenu en GC (%GC) d'un génome, grâce aux mutations silencieuses, offre l'opportunité d'étudier la fréquence des bases répétées en fonction de ce taux. Cette étude nous permettrait de comparer les comportements physiques des 4 bases dans les chromosomes des procaryotes qui sont de petite taille. Au fur et à mesure des découvertes j'ai étudié ces répétitions dans les cyanobactéries, les autres bactéries sans ces dernières, les archées, les plasmides, les gènes de protéines et les rRNA.
Matériels et méthodes − 2
modifierConstitution des fichiers contenant le génome des procaryotes − 2.1
modifierLes noms des génomes sont ceux codés dans la base de données KEGG: 3 à 4 lettres.
Les fichiers contenant la séquence du génome sont ceux de NCBI sous le format FASTA de 70 caractères. Pour y accéder depuis KEGG suivre ainsi:
- - allez à "genome" puis
- - "Enter KEGG organism code or use Organism button to select"
- - mettre le nom KEGG en 3 ou 4 lettres puis entrez
- retrouver la ligne contenant la référence à la séquence du chromosome commençant par "GB:",
- "Sequence RS: NC_000913 (GB: U00096)"
- cliquer sur "GB: U00096" on obtient une entrée de NCBI qui est dans ce cas u00096:
- cliquer alors sur FASTA puis copier la séquence du gène dans un fichier en ".txt",
- En fin de fichier supprimer les lignes à blanc s'il y a lieu. Puis sauvegarder.
Les listes de procaryotes servant à faire les diagrammes − 2.2
modifierLes listes sont les suivantes:
- 49 Cyanobactéries
- nota: le code ccmp n'existe pas dans KEGG, c'est pour les programmes en perl utilisés plus loin. Renommer le fichier cmp.txt, récupéré comme ci-dessus, en ccmp.txt
amr, ana, anb1, awa, calo, can, ceo, cep, cgc, ccmp, csg, cthe, cya, cyh, cytc, cyu, dsl, fis, gei, gen, glp, gvi, hao, lep, len, mar, mic, naz, non, oac, oni, plp, pma, pmg, pmh, pmm, pmt, pmb, riv, scs, syc, syf, syn, synd, synp, syp, syq, tel, ter.
- 192 Autre-bactéries
- nota: bmf1 et bmf2 sont les 2 chromosomes du code KEGG bmf. Aussi récupérer les 2 chromosomes dans 2 fichiers différents bmf1.txt bmf2.txt.
aae, aba, acp, ade, afw, age, amd, amo, ams, amt, ank, apt, asd, asf, bae, bla, blo, bmf1, bmf2, bmv, bpn, bsu, buc, cac, cad, cbd, cbl, ccx, cdf, cff, cft, cfv, cgl, cgq, chp, cje, cjr, cko, cle, clo, cmi, cmn, cnt, cpb, cpy, crp, cru, cta, cth, ctr, cvi, dba, dda, ddr, dge, dpd, dpt, dvl, eal, ebf, ebt, eca, ecla, eco, ecs, eha, eic, eno, ent, esa, eta, fnc, fra, gau, gba, gdi, gva, hav, ipa, kin, koy, kpn, ksa, ksk, lat, lhk, liv, ljf, lla, lpl, mcac, men, mhd, mrb, msv, mts, mxa, nfa, opr, pac, pae, pak, pam, pdo, pes, pfq, pgd, pge, pgi, phm, ple, plu, pmr, ppk, ppm, ppoy, psi, pst, ral, raq, req, rer, ret, rha, rho, rip, roa, ror, rpa, rpr, rpw, rri, rru, rty, saci, salb, sall, salu, sap, say, sbh, sbn, sbo, sbz, scb, scl, sco, sct, sect, sep, sepp, ser, sfl, sfo, sgr, sho, sma, smk, sms, smx, spe, spi, spl, spq, ssx, sti, stm, sty, sur, sus, tai, tde, tma, tme, tos, tpas, tra, tro, tsc, tsu, tth, ttl, tts, uur, vin, wbr, xac, xbo, xcb, ype, ypg, zin.
- 87 Archées
- nota: hma1 est le 1er chromosome du code KEGG hma. Aussi rechercher hma dans KEGG et récupérer le 1er chromosome dans hma1.txt .
abi, afu, aho, ape, asc, clg, cma, csu, dka, ffo, fpl, gac, hal, hbo, hbu, hla, hlr, hma1, hmu, hru, hsu, htu, hut, hvo, hwa, hxa, iag, iho, kcr, mac, marc, mba, mbg, mbn, mbu, mear, mel, mer, mev, mfe, mfv, mhu, mhz, mig, mka, mla, mmh, mmp, mok, mpd, mpi, mpl, mpy, mse, msi, mst, mth, mtp, mzh, nbv, neq, nga, nge, nkr, nmg, nmr, nou, nph, pai, pdl, pfm, pho, ppac, pto, sali, smr, sso, taa, tac, tag, tar, thg, tko, ton, tpe, tuz, vdi.
- 52 cyanobactéries et leurs plasmides
ana, ana1, ana2, ana3, ana4, ana5, ana6, anb1, anb2, anb3, anba, anbb, can, can1, cyt1, cyt2, cyt3, cyt4, cytc, cytl, syn, syn1, syn2, syn3, syn4, len, len1, len2, len3, mic, mic1, mic2, mic3, mic4, mic5, mic6, mic7, mic8, oac, oac1, oac2, oni, oni1, oni2, oni3, oni4, oni5, syf, syf1, synp, synp1, synp2.
- 35 autres bactéries et leurs plasmides
cac, cac1, cje, cje1, ecs, ecs1, ecs2, ent, ent1, kpn, kpn3, kpn4, kpn5, kpn6, kpn7, pst, pst1, pst2, sco, sco1, sco2, sfl, sfl1, stm, stm1, tos, tos1, tos2, xac, xac1, xac2, ype, ype1, ype2, ype3.
- Le codage des plasmides, suffixés par un nombre comme ci-dessus, n'est pas le codage de KEGG. Je l'ai utilisé pour faciliter la lecture des diagrammes mettant en jeu les plasmides.
- Tableau des correspondances entre le codage KEGG et la liste des plasmides: (Attention!! réduire le zoom si l'affichage est mauvais)
code plasmide Bactérie code plasmide Bactérie * code plasmide cyanobactérie code plasmide cyanobactérie code plasmide cyanobactérie cac1 pSOL1 cac sco1 pscp1 sco * ana1 panaa ana cyt3 pcytC cyt oac1 pOSCIL63041 oac cje1 pCJ419 cje sco2 pscp2 sco * ana2 panab ana cyt4 pcytD cyt oac2 pOSCIL63042 oac ecs1 pO157 ecs sfl1 pCP301 sfl * ana3 panac ana cytc+ cytc cyt oni1 pOSC71121 oni ecs2 pOSAK1 ecs stm1 pSLT stm * ana4 panad ana cytl cytl cyt oni2 pOSC71122 oni ent1 pENT01 ent tos1 pTHEOS01 tos * ana5 panae ana len1 AP017309 len oni3 pOSC71123 oni kpn3 pKPN3 kpn tos2 pTHEOS02 tos * ana6 panaf ana len2 AP017310 len oni4 pOSC71124 oni kpn4 pKPN4 kpn xac1 pXAC33 xac * anb1 panbA01 anb len3 AP017311 len oni5 pOSC71125 oni kpn5 pKPN5 kpn xac2 pXAC64 xac * anb2 panbA02 anb mic1 pMIC71131 mic syf1 CP000101 syf kpn6 pKPN6 kpn ype1 pCD1 ype * anb3 panbA03 anb mic2 pMIC71132 mic syn1 pSYSA syn kpn7 pKPN7 kpn ype2 pPCP1 ype * anba+ anb1 anb mic3 pMIC71133 mic syn2 pSYSG syn pst1 pDC3000A pst ype3 pMT1 ype * anbb anb2 anb mic4 pMIC71134 mic syn3 pSYSM syn pst2 pDC3000B pst * can1 pCYAN10605 can mic5 pMIC71135 mic syn4 pSYSX syn * cyt1 pcytA cyt mic6 pMIC71136 mic synp1 pSYN75021 synp * cyt2 pcytB cyt mic7 pMIC71137 mic synp2 pSYN75022 synp * − − − mic8 pMIC71138 mic − − − anba+ et cytc+: chromosomes principaux de anb et cyt ayant pour code KEGG anb1 et cytc respectivement.
- 73 protéines de 7 autre-bactéries et 75 protéines de 7 cyanobactéries
Les protéines ont été choisies pour leur longueur et communes aux 7 bactéries. Quand une est manquante, elle est remplacée par une autre de longueur équivalente. Voici la liste des différentes protéines suivant le code orthologique de KEGG KO:
- Les protéines
Protéines utilisées dans la recherche des répétitions des bases | ||||||||
abrégé | IUBMB Enzyme | Dénomination KEGG | code KO | * | abrégé | IUBMB Enzyme | Dénomination KEGG | code KO |
acnA | EC 4.2.1.3 | aconitate hydratase | K01681 | * | mfd | EC 3.6.4.- | transcription-repair coupling factor | K03723 |
aldo | EC 2.2.1.2 | transaldolase | K13810 | * | mukB | − | chromosome partition protein | K03632 |
carB | EC 6.3.5.5 | carbamoyl-phosphate synthase | K01955 | * | nuoG | EC 1.6.5.3 G | NADH-quinone oxidoreductase | K00336 |
cox1 | EC 1.9.3.1 | cytochrome c oxidase subunit I | K02274 | * | nuoL | EC 1.6.5.3 L | NADH-quinone oxidoreductase | K00341 |
cox3 | EC 1.10.3.10 | cytochrome o ubiquinol oxidase | K02298 | * | pdhA | EC 1.2.4.1 | pyruvate dehydrogenase E1 | K00163 |
dnaE | EC 2.7.7.7 | DNA polymerase alpha subunit A | K02337 | * | recB | EC 3.1.11.5 | exodeoxyribonuclease V beta subunit | K03582 |
dnaE1 | EC 2.7.7.7 | DNA polymerase III subunit alpha | K02337 | * | recC | EC 3.1.11.5 | exodeoxyribonuclease V gamma subunit | K03583 |
ftsK | − | DNA segregation ATPase | K03466 | * | rpoB | EC 2.7.7.6 | RNA polymerase subunit beta | K03043 |
gyrB | EC 5.99.1.3 | DNA gyrase subunit B | K02470 | * | rpoC | EC 2.7.7.6 | RNA polymerase subunit beta' | K03046 |
iars | EC 6.1.1.5 | isoleucyl-tRNA synthetase | K01870 | * | sbcC | − | exonuclease SbcC | K03546 |
lars | EC 6.1.1.4 | leucyl-tRNA synthetase | K01869 | * | secA | − | preprotein translocase subunit | K03070 |
lhr | EC 3.6.4.- | ATP-dependent helicase | K03724 | * | topA | EC 5.99.1.2 | DNA topoisomerase I | K03168 |
metE | EC 2.1.1.14 | homocysteine transmethylase | K00549 | * | PolA | EC 2.7.7.7 | DNA polymérase I | K02335 |
Les autre-bactéries et leurs protéines
bmv: lars, iars, carB, secA, rpoC, rpoB, dnaE1, ftsK, mfd, lhr, recB, recC
cft: lars, iars, carB, ftsK, rpoC, rpoB, recB, secA, dnaE, mfd
eco: dnaE, ftsK, lhr, mfd, mukB, recB, recC, rpoB, rpoC, sbcC
mhd: dnaE, rpoB, rpoC, secA, sbcC, mfd, ftsK, pdhA, topA, nuoG, cox1
sti: ftsK, rpoC, rpoB, cox1, aldo, acnA, sbcC, secA, dnaE, mfd
tos: dnaE, ftsK, secA, rpoB, rpoC, lars, iars, carB, sbcC, mfd
zin: dnaE, rpoB, rpoC, nuoG, nuoL, lars, iars, cox3, metE, gyrB
- Choix d'une protéine parmi un ensemble ayant le même code KO "orthology" de KEGG. 3 cas se sont présentés parmi les protéines du tableau précédent.
mhd cox1 Marky_0361, sti cox1 Sthe_0631, zin rpoC rpoC2.
Les cyanobactéries et leurs protéines
can:carB, cox1, dnaE, dnaE1, ftsK, iars, lars, rpoB, rpoC, mfd, sbcC, secA
cgc:carB, cox1, dnaE, iars, lars, mfd, recB, rpoB, rpoC, sbcC, secA
cya:carB, cox1, dnaE, iars, lars, mfd, rpoB, rpoC, sbcC, secA
mar:carB, cox1, dnaE, dnaE1, iars, lars, mfd, rpoB, rpoC, sbcC, secA
pmm:carB, dnaE, gyrB, iars, lars, mfd, recB, rpoB, rpoC, secA
syn:carB, cox1, dnaE, dnaE1, iars, lars, mfd, rpoB, rpoC, sbcC, secA
tel:carB, cox1, dnaE, dnaE1, iars, lars, mfd, rpoB, rpoC, sbcC, secA
- Notes:can, mar, syn et tel ont un dnaE en 2 parties avec le même code KO de KEGG k02337. Ces 2 parties font à peu près la même longueur que les autres k02337. Ces cas sont différents de la bactérie bmv dont le gène ne porte pas le même nom que dnaE, mais dnaE1.
- 35 rRNA 23S (1 seul par bactérie)
ade, bla, bsu, cbl, cgq, cje, crp, cta, eco, fnc, kpn, lla, pgd, ple, roa, sall, sbh, sbn, ser, sgr, sma, smv, spi, tth, tos, bmv, zin, wbr, tra, tai, mrb, mcac, mhd, rpr, uur
- Les tRNA de 3 bactéries pour le contenu en GC:
Sélection des procaryotes − 2.3
modifier L'objectif du choix des procaryotes, a été dès le début, de pouvoir représenter les courbes des effectifs des codons de gènes de protéines et des répétitions des bases dans le génome entier en fonction de son contenu en GC (%GC). Il fallait surtout ne pas sur-représenter certaines valeurs de %GC. Ce ne sont pas des valeurs statistiques que je cherchais mais la forme de la courbe, ou la tendance, qui caractériserait un codon donné. Cette courbe en serait sa caractéristique physique. Je me restreignais, au début exclusivement, aux bactéries me paraissant plus simples, aux espèces plus nombreuses et plus étudiées que les archées.
La découverte de la dissymétrie entre les répétitions A ou T et G ou C chez les bactéries m'a conduit, pour la conforter, à chercher des taux de répétition hors norme. C'est ce qui m'a conduit à étudier les cyanobactéries à part. D'autres valeurs hors norme sont apparues mais n'étaient pas propres à certains groupes. D'où le nombre élevé de bactéries étudiées spécialement pour les répétitions des bases. Les courbes de tendance caractéristiques des codons auront elles des valeurs de %GC assez régulières, couvrant tout l’intervalle d'étude et sans redondance. Cette dernière étude est publiée sous le titre de Corrélations entre les codons dans les gènes de protéines et comprendra les eucaryotes aussi.
Après la découverte de la dissymétrie des répétitions dans le génome des bactéries, je l'ai recherchée naturellement pour comparaison chez les archées. Mais j'ai cherché aussi le comportement de cette dissymétrie dans les plasmides. Est-ce que les plasmides se comportent-ils de la même façon que pour le contenu en GC qu'on a montré qu'il était le même que celui du génome hôte[2]? Ensuite je me suis intéressé aux protéines et aux rRNA bien que les longueurs étudiées soient 1 000 fois plus petites que les génomes. Il fallait que je puisses différencier entre régions de contrôle et protéines, ces dernières occupant 80% et plus du génome. Mais les régions de contrôle proprement dites, c'est-à-dire les promoteurs, les séquences de fixations des protéines, etc, je ne les ai pas étudiées parce qu'il faut des outils informatiques beaucoup plus puissants que les programmes que j'ai écrits ici.
Les programmes en Perl pour compiler les codons et les bases répétées − 2.4
modifier Compilations des codons
Décompte des répétitions
Les répétitions aléatoires
Les répétitions aléatoires − 2.4.1
modifier Les répétitions aléatoires
Le spectre des fréquences des répétitions n'a de sens que si on le compare à une distribution aléatoire des répétitions des 4 bases nucléiques. Pour cela j'ai écrit la même procédure de décompte que pour le génome, mais au lieu de déchiffrer base par base, j'exécute la fonction de randomisation de Perl "int rand(variable)" autant de fois qu'il faut pour obtenir un nombre différent du précédent. Suivant le pourcentage qu'on veut atteindre le numérateur et le dénominateur sont divisés, chacun, en 2 tranches égales de nombres. Chaque tranche correspond à une base nucléique. Une fois la répétition d'un nombre donné obtenue, elle est stockée comme pour les bases. Il suffit d'exécuter ce programme plusieurs fois avec des tailles de chromosome différentes pour obtenir les 2 équations des courbes A+T et G+C aléatoire. Les intervalles des erreurs sont très réduits étant donné la grande longueur des chromosomes qui va de 100 000 à 10 000 000 de pbs.
Si on veut comparer un chromosome donné seulement, d'une taille donnée et d'un contenu en GC (%GC) donné, il suffit de trouver le numérateur et le dénominateur convenable qui donne un %GC aussi proche que l'on veut, et l'on exécute le programme. Les 2 distributions, aléatoire et réelle, peuvent être alors comparées avec des chromosomes de même longueur.
Décomptes des répétitions − 2.4.2
modifier Décompte des répétitions: voir la documentation du programme.
- Le contrôle:
Le programme ne traite que les répétitions inférieures ou égales à 20. Au début du programme les enregistrements de 70 caractères sont lus itérativement et leur nombre est multiplié par 70, au produit duquel j'ajoute la longueur du dernier. Ce total moins le décompte des répétitions qui ne comptent que les lettres A G C T, donne une différence qui sert de contrôle. Si le contrôle est différent de zéro, 3 cas peuvent se produire et doivent être résolus manuellement dans le fichier préfixé ".txt":
- Le chromosome contient des lettres autres que A G C T. Ceci est du au fait que le séquençage n'est pas total. S’il y a une lettre ou 2, ou une seule séquence, on peut garder le chromosome.
- La fin du fichier peut contenir des lignes à blancs.
- Il y a des répétitions dont la longueur dépasse 20 caractères. Il faut les récupérer manuellement. Les distributions de ces chromosomes seront présentées au chapitre "Résultats".
- Enfin vérifier dans ce cas que la longueur du chromosome est la même que dans les bases de données.
- Les 2 fichiers des résultats:
- Fichier des distributions des répétitions de chaque chromosome. Il peut être copié dans un tableur et donc être traité. Il peut être consulté pour illustrer telle ou telle distribution.
- Fichier des tableaux numériques: donne une ligne par chromosome contenant
- Le contrôle
- la longueur du chromosome
- Le %GC calculé par le programme
- La somme des répétitions supérieures à 4, pour chaque base (limitées à 20).
- La somme des répétitions 2 et 3, pour chaque base.
- La répétition 4 pour chaque base.
- L'écriture en Perl des programmes:
Ils sont documentés et contiennent les recommandations nécessaires pour leur exécution. Ils sont stockés dans l'Annexe/Perl dont le lien est affiché au début du sous-chapitre.
Compilation des codons − 2.4.3
modifier Compilations des codons : voir la documentation du programme.
Ce programme décompte les 64 codons d'un gène d'une protéine d'un organisme donné. Les fichiers décomptés sont ceux de KEGG obtenus avec le code orthologique de KEGG KO. Voir ci-dessus le sous-chapitre de la liste des protéines étudiées pour leur code KO. Copier la séquence de nucléotides à la section "NT seq". C'est un fichier en minuscules de 60 caractères. Le programme traite 3 lettres par 3 lettres, ne pas donner donc en entrée des fichiers de 70 caractères.
- Le fichier en sortie, résultat du comptage des codons est codonsc.txt: Il contient les tableaux "1 gène/n procaryotes" et "1 procaryote/ n gènes".
- Le fichier en sortie, sommation des codons en acides aminés: codonsa.txt: Il contient les tableaux "1 gène/n procaryotes" et "1 procaryote/ n gènes".
Ce programme est utilisé ici pour illustrer les codons des procaryotes ayant des répétitions en G et C hors norme comparés aux procaryotes ayant un taux de répétition G et C normal. Ces fichiers sont consignés dans les tableaux numériques et les tableaux des répétitions dans le chapitre "protéines".
Ce programme sera la base de travail pour l'article "Corrélation entre les codonss de gènes de protéines". On peut néanmoins voir le détails de son fonctionnement dans sa documentation.
Résultats − 3
modifier- Les tableaux numériques, en annexe, sont utilisés ici, sous forme de textes séparés par des points virgules, à la place de tableaux formatés pour alléger la présentation et permettre au lecteur, avec un tableur, de manipuler les diagrammes à sa guise. Les diagrammes utilisés plus loin, utilisant ces tableaux numériques, sont issus du tableur Calc de LibreOffice, exportés sous format d’image .png .
- Les distributions des répétitions par organisme sont consignées dans l'annexe/Repetitions. Elles permettent de vérifier mes allégations et illustrations par la suite dans ce chapitre. Le lecteur pourra en outre étendre la manipulation de ces données.
- L'essentiel de cette présentation est de pouvoir reproduire tout résultat avec un ordinateur.
Les répétitions − 3.1
modifierTableaux numériques − 3.2
modifierDiagrammes − 3.3
modifierGalerie 1
modifier- Répétition de + de 4 bases dans l'ADN des cyanobactéries, d'autres bactéries et des archées
-
Répétition des bases A et T dans l'ADN des bactéries
-
Répétition des bases G et C dans l'ADN des bactéries
-
Répétition des bases A et T dans l'ADN des cyanobactéries
-
Répétition des bases G et C dans l'ADN des cyanobactéries
-
Répétition des bases A et T dans l'ADN des archées
-
Répétition des bases G et C dans l'ADN des archées
Galerie 2
modifier- Répétition de + de 4 bases dans l'ADN des plasmides des cyanobactéries et d'autre-bactéries
-
Répétition des bases A et T dans les plasmides des autre-bactéries
-
Répétition des bases G et C dans les plasmides des autre-bactéries
-
Répétition des bases A et T dans les plasmides des cyanobactéries
-
Répétition des bases G et C dans les plasmides des cyanobactéries
Galerie 3
modifier- Répétition de + de 4 bases dans les plasmides en fonction de ces mêmes répétitions dans les bactéries
-
Répétition A et T, plasmide/bactérie
-
Répétition G et C, plasmide/bactérie
-
Répétition A et T, plasmide/cyanobactérie
-
Répétition G et C, plasmide/cyanobactérie
-
%GC, plasmide/procaryote
Galerie 4
modifier- Répétition de + de 4 bases dans l'ADN des rRNA et des protéines des autre-bactéries
-
Répétition des bases A et T dans les gènes des rRNA des bactéries
-
Répétition des bases G et C dans les gènes des rRNA des bactéries
-
%GC, rRNA/bactérie
-
Répétition des bases A et T dans les gènes de protéines des bactéries
-
Répétition des bases G et C dans les gènes de protéines des bactéries
-
Répétition des bases A et T dans les gènes des rRNA des bactéries
-
Répétition des bases G et C dans les gènes des rRNA des bactéries
Galerie 5
modifier- Répétition de + de 4 bases dans l'ADN des protéines des cyanobactéries
-
Répétition des bases A et T dans les gènes de protéines des cyanobactéries
-
Répétition des bases G et C dans les gènes de protéines des cyanobactéries
Galerie 6
modifier- Répétition de 2,3 et 4 bases dans l'ADN des cyanobactéries, des autre-bactéries et des archées
-
Répétition des bases A et T dans l'ADN des bactéries
-
Répétition des bases G et C dans l'ADN des bactéries
-
Répétition des bases A et T dans l'ADN des cyanobactéries
-
Répétition des bases G et C dans l'ADN des cyanobactéries
-
Répétition des bases A et T dans l'ADN des archées
-
Répétition des bases G et C dans l'ADN des archées
Galerie 7
modifier- Répétition de plus de 4 bases dans l'ADN des Euryarcheota et d'autres archées
-
Répétition des bases A et T dans l'ADN des euryarcheota
-
Répétition des bases G et C dans l'ADN des euryarcheota
-
Répétition des bases A et T dans l'ADN des crenarcheota et autres archées
-
Répétition des bases G et C dans l'ADN des crenarcheota et autres archées
Galerie 8
modifier- Répétition de plus de 4 bases, synthèse des diagrammes
-
synthèse des diagrammes AT fonction puissance
-
synthèse des diagrammes GC fonction puissance
-
synthèse des diagrammes AT fonction polynôme 3°
-
synthèse des diagrammes GC fonction polynôme 3°
Galerie 9
modifier- Répétition de plus de 4 bases. Diagrammes des Écarts relatifs par rapport à l'aléa
-
Écart relatif par rapport à l'aléa, >4AT, Autres Bactéries
-
Écart relatif par rapport à l'aléa, >4GC, Autres Bactéries
-
Écart relatif par rapport à l'aléa, >4AT, Cyanobactéries
-
Écart relatif par rapport à l'aléa, >4GC, Cyanobactéries
-
Écart relatif par rapport à l'aléa, >4AT, Euryarcheota
-
Écart relatif par rapport à l'aléa, >4GC, Euryarcheota
-
Écart relatif par rapport à l'aléa, >4AT, Crenarcheota
-
Écart relatif par rapport à l'aléa, >4GC, Crenarcheota
Analyse des résultats − 3.4
modifierMéthode d'analyse − 3.4.1
modifierCe que je présente ici c'est la méthode de présentation d'un ensemble hétéroclite de résultats et non une méthode de recherche. Pendant la recherche, à chaque résultat non attendu pour un objectif donné, je passais à un autre sujet tout en cherchant toujours les répétitions des bases. Une présentation de tableaux numériques de grande dimension étant fastidieuse j'ai opté pour des représentations d'ensembles statistiques, de classements et de cas hors-normes. Le lecteur pourra vérifier ou procéder à d'autres analyses en copiant les résultats bruts qui sont dans les annexes, dans un tableur. Je procède ainsi d'abord pour les bactéries autres que les cyanobactéries étant donné que c'était l'objectif principal de me restreindre à un domaine homogène, simple et contenant de nombreuses études. Puis je présenterai les cyanobactéries qui se sont détachées rapidement de l'ensemble des bactéries. La recherche sur les archées s'est faite plus tardivement pour comparaison. Enfin je présenterai de façon succincte l'étude des rRNAs chez les bactéries que j'ai entreprise dès le début pour différencier entre séquences de contrôle et séquences codantes; C'est seulement une tentative d'illustration car les rRNAs ne sont pas des séquences de contrôle et qu'ils sont cependant différents des séquences codant les protéines qui représentent plus de 80% du génome des procaryotes. Le plan est le suivant pour les 4 groupes d'études:
- Les statistiques:
- Je présente d'abord les équations des courbes de l'aléa servant de repère pour toutes les études,
- Les diagrammes avec leurs courbes de tendance et leurs équations,
- Les écarts par rapport à l'aléa qui différencient des groupes entre eux,
- Les modèles de distributions et les distributions hors-normes,
- Les regroupements, surtout dans les bactéries autres que les cyanobactéries étant donné leur grand nombre.
Les équations des courbes de l'aléa − 3.4.2
modifierC'est l'exécution du programme perl repete-alea.pl qui permet d'avoir les résultats sous la même forme que pour les répétitions réelles. Il est dans Les répétitions aléatoires
Les équations − 3.4.2.1
modifier Les effectifs et les %GC nécessaires à la construction des courbes des aléas se trouvent dans le tableau numériques
Aléas.
>4AT c'est la somme de toutes les répétitions supérieures à 4 et inférieures à 21 des bases A et T, divisée par la longueur du chromosome (effectif) et multipliée par 10 000. De même, pour >4GC.
- >4AT = (répétions supérieures à 4 de A +T)*10 000/effectif.
- >4GC = (répétions supérieures à 4 de G +C)*10 000/effectif.
L'équation des 2 courbes >4AT et >4GC sont 2 polynômes du 3ème degré en fonction du %GC (x).
- >4AT(%GC) = − 0.000732x3 + 0.1607x2 − 11.96x + 302.4
- >4GC(%GC) = 0.000747x3 − 0.0609x2 + 1.869x − 19.90
- Les coefficients des polynômes ont été évalués dans 3 autres itérations avec des longueurs de chromosome fixes. Ci-dessous la moyenne et la fourchette d'erreur de ces évaluations.
- Les diagrammes faits avec toutes ces évaluations, ainsi que celle utilisée dans les équations précédentes se confondent complètement.
Chromosomes Nombre 74 10 13 29 moyenne erreur Longueur variable 2 mb 10 mb 5 mb − − >4AT x3 (x1000) -0.732 -0.807 -0.810 -0.738 -0.77 ± 0.04 x2 0.1607 0.1720 0.1730 0.1637 0.167 ± 0.006 x -11.97 -12.51 -12.57 -12.20 -12.3 ± 0.3 c 302.4 311.0 311.6 307.56 308 ± 4 >4GC x3 (x1000) 0.747 0.615 0.676 0.747 0.68 ± 0.06 x2 -0.0609 -0.0425 -0.0497 -0.0590 -0.052 ± 0.009 x 1.869 1.045 1.303 1.675 1.46 ± 0.04 c -19.90 -8.29 -11.08 -15.49 -13.7 ± 5
Ecart-types relatifs de %GC, >4AT et >4GC − 3.4.2.2
modifier Les écarts types relatifs à la moyenne ( en %), >4GC% et >4AT%, ont été calculés sur 10 itérations pour les mêmes paramètres %GC et effectif sur 14 chromosomes (tirés du tableau des aléas ), avec le programme Perl des Répétitions aléatoires.
L'intérêt du tableau ci-dessous est de nous permettre de distinguer les faibles effectifs de >4AT quand le %GC est supérieur à 60% de ceux de l'aléa. De même pour >4GC quand le %GC est inférieur à 43%.
dénom. numer. % effectif %GC >4GC% >4AT% 6 1 16.7 159,662 0.4 96.4 1.5 17 4 23.5 1,017,293 0.2 13.5 1.2 7 2 28.6 3,992,906 0.1 3.3 0.8 3 1 33.3 1,800,764 0.1 6.7 1.0 47 18 38.3 1,937,111 0.1 3.6 1.2 37 16 43.2 4,168,266 0.0 1.2 1.0 29 14 48.3 2,343,476 0.1 1.9 1.5 17 9 52.9 1,139,203 0.1 2.5 3.0 22 13 59.1 2,572,069 0.0 1.3 2.7 43 27 62.8 3,820,344 0.0 0.7 1.7 19 12 63.2 3,462,887 0.0 0.8 2.6 22 15 68.2 3,497,479 0.0 0.8 5.4 15 11 73.3 6,841,649 0.0 0.4 5.9 4 3 75.0 5,013,479 0.0 0.6 4.3
Les bactéries − 3.4.3
modifierLes 192 autre-bactéries
1er et 2ème diagrammes dans Galerie 1
Tableaux numériques
Répétitions
Tableau des diagrammes
- A−T et C−G : A est équivalent à T, et C est équivalent à G. D'où le choix de présenter les sommes A+T et G+C pour les répétitions.
- Cette équivalence peut se comprendre par le fait que le système de protéines qui font varier le contenu en GC (réparation, protection, binding proteins, transcription, réplication) de l'ADN double-brin ne distingue pas entre les paires AT et TA d'une part, et, GC et CG d'autre part. J'ai calculé la variation en % entre les 2 paires respectivement pour leur total de nombre de répétitions supérieures à 4. Le résultat d'après le tableau des 192 bactéries, est le suivant:
- >4(A−T) Moyenne(200*ABS(>4A − >4T)/(>4A + >4T)) = 4.5% Ecart-type 5.4% .
- >4(C−G) Moyenne(200*ABS(>4C − >4G)/(>4C + >4G)) = 8.0% Ecart-type 11.3% .
Les diagrammes − 3.4.3.1
modifierLes diagrammes des répétitions− 3.4.3.1.1
modifier- Diagramme >4AT
Galerie 1, 1er diagramme
- − Un très bon coefficient de régression, R2 = 0.94; d'où une homogénéité des points. On n'arrive pas à distinguer des groupements.
- − L'équation de la courbe de tendance est un polynôme du 3ème degré comme l'aléa. Le coefficient de x3 est largement supérieur à celui de l'aléa, -0.00206 contre -0.00073. Ce qui fait que quasiment tous les points sont au-dessus de l'aléa sauf à partir de 62% GC qui s'expliquent par des effectifs très faibles comme indiqué dans le chapitre de l'aléa.
- >4AT(%GC) = − 0.00206x3 + 0.3769x2 − 24.42x + 572.0. R2 = 0.94.
- Diagramme >4GC
Galerie 1, 2ème diagramme
- − L'équation de la courbe de tendance n'est pas un polynôme de 3ème degré si l'on veut un coefficient de régression maximal. Celui-ci est atteint avec une fonction puissance, R2 = 0.73.
- >4GC(%GC) = 0.00018x2.73. R2 = 0.73. 192 bactéries.
- Une courbe de tendance avec une fonction polynomiale du 3ème degré donne un R2 = 0.33, et avec une exponentielle on a un R2 identique à la fonction puissance, 0.73. L'intérêt de la fonction puissance est qu'elle est comparable à la fonction polynomiale de l'aléa. Nous remarquons, alors, que la courbe réelle s'éloigne encore plus que si elle était un polynôme du 3ème degré, puisque l'exposant de x est inférieur à 3. Le comportement des GC est donc de nature spécifiquement différente de celui des AT. Cette spécificité s'accentue avec l'apparition de groupes différents tout en gardant une grande homogénéité en dehors de ces groupes.
- − Les groupes:
- 1. − J'ai déjà mis à part les cyanobactéries, et en enlevant les 12 bactéries (opr, msv, mrb, tai, tsc, sur, mhd, tra, tos, tts, ttl, tth) aux alentours de 68 %GC ayant un >4GC supérieur à 38 nous améliorons à peine l'homogénéité des 180 bactéries restantes avec un R2 = 0.78 d'une fonction puissance encore plus accentuée, exposant de 2.50 par rapport à 2.73.
- >4GC(%GC) = 0.00040x2.50. R2 = 0.78. 180 bactéries.
- 1. − J'ai déjà mis à part les cyanobactéries, et en enlevant les 12 bactéries (opr, msv, mrb, tai, tsc, sur, mhd, tra, tos, tts, ttl, tth) aux alentours de 68 %GC ayant un >4GC supérieur à 38 nous améliorons à peine l'homogénéité des 180 bactéries restantes avec un R2 = 0.78 d'une fonction puissance encore plus accentuée, exposant de 2.50 par rapport à 2.73.
La fonction exponentielle de ces 180 bactéries donne à peu près le même R2 = 0.77. Par contre la fonction polynomiale se rapproche spectaculairement de la fonction puissance avec un R2 qui passe de 0.33 à 0.65. Donc la spécificité de la fonction exponentielle semblerait être due à ce groupe de 12 bactéries et peut être encore plus puisqu'on a surchargé l'effectif autour de 68 %GC. Et la spécificité des >4GC se réduirait à la grande dissymétrie par rapport aux >4AT et à l'apparition de 2 groupes, l'un autour de 33%GC (cyanobactéries) et l'autre autour de 68%GC.
- >4GC(%GC) = 0.00014x3 − 0.0124x2 + 0.522x − 5.89. R2 = 0.65. 180 bactéries.
- 2. − Si on enlève, outre les 12 précédentes, les bactéries qui ont plus de 20 comme valeurs de >4GC, un %GC entre 56 et 75, et qui semblent se détacher nettement des autres puisque le >4GC passe de 16.98 (cmi) à 20.94 (scl):
- afw, age, ccx, dge, dpt, dvl, ebt, fra, gdi, ipa, ksk, mts, mxa, pdo, phm, rru, saci, salb, sall, salu, sap, say, sbh, scb, scl, sco, sct, sgr, sho, sma, ssx
- afw, age, ccx, dge, dpt, dvl, ebt, fra, gdi, ipa, ksk, mts, mxa, pdo, phm, rru, saci, salb, sall, salu, sap, say, sbh, scb, scl, sco, sct, sgr, sho, sma, ssx
nous obtenons les mêmes courbes que précédemment avec des R2 de 0.65 pour la polynomiale, 0.76 pour la puissance et 0.71 pour l'exponentielle. Nous voyons alors que la spécificité, fonction puissance de >4GC est bien réelle et constante, avec un coefficient de régression élevé et constant autour de 0.74.
- >4GC(%GC) = 0.00126x2.18. R2 = 0.76. 149 bactéries.
- >4GC(%GC) = 0.00003x3 − 0.0023x2 + 0.266x − 4.07. R2 = 0.65. 149 bactéries.
- En conclusion, pour les groupes, nous pouvons dire qu'il y en a plusieurs sur toute la gamme de pourcentage en GC et que leur >4GC caractéristique suit une courbe de tendance d'une fonction puissance au-delà de 50% en GC.
Les diagrammes des écarts des répétitions, relatifs à l'aléa− 3.4.3.1.2
modifier Galerie 9, diagrammes 1 et 2. Tableau des 2 diagrammes des écarts
- Tableau des taux relatifs de répétitions significativement différents de l'aléa.
- Tableau montrant les taux relatifs par rapport à l'aléa ( >4GC% et >4AT% ) quand les effectifs comptés sont faibles (>4GCe et >4ATe). Quand le taux en GC (%GC) du génome est faible (effectif: >4GCe) ou extrême (effectif: >4ATe) les valeurs de l'aléa peuvent êtres très petites ou nulle rendant les dépassements non significatifs. Ce tableau est restreint aux 1ères et dernières bactéries (suivant un %GC croissant) car les écart-types relatifs de l'aléa par rapport à sa moyenne ( écart%) restent très faibles et ne dépassent pas les 10% en valeur absolue entre ces 2 extrêmes.
- (>4AT%)= 100*((>4AT) − (>4ATa))/(>4ATa) (>4GC%) = 100*((>4GC) − (>4GCa))/(>4GCa)
- où (>4AT) et (>4GC) sont les taux en %00 de la bactérie, (>4ATa) et (>4GCa) sont les taux des mêmes répétitions supérieures à 4 de l'aléa, du tableau des diagrammes des répétitions.
KEGG %GC >4GCe >4GCa >4GC% écart% KEGG %GC >4ATe >4ATa >4AT% écart% zin 13.54 17 0 − − bmv 68.15 1971 1.84 206 5.4 cru 13.98 6 0 − − gba 72.56 136 0.85 -70 − crp 16.56 4 0 − 96.4 cmi 72.66 133 0.83 -51 − wbr 22.48 64 0 − − sct 72.94 334 0.77 -31 − mcac 23.66 65 0.10 541 13.5 phm 73.29 226 0.70 -15 − sms 24.00 65 0.18 1791 − salb 73.32 313 0.69 -34 5.9 uur 25.50 84 0.52 116 − afw 73.53 174 0.65 -49 − ple 26.17 77 0.66 225 − ksk 74.20 336 0.51 -25 − buc 26.31 87 0.69 96 − acp 74.72 138 0.40 -32 − fnc 27.12 393 0.86 101 − ank 74.84 128 0.38 -33 − cbl 28.31 1199 1.12 169 3.3 ade 74.91 142 0.36 -22 4.3 cft 33.21 210 2.31 -49 6.7
- Pour les diagrammes des écarts relatifs à l'aléa les seuls procaryotes à être écartées sont les bactéries: zin, cru, crp, wbr, mcac, sms qui ont des valeurs relatives dépassant les 300%. Les cyanobactéries et les archées qu'on étudiera aux prochains chapitre ont des contenus en GC (%GC) supérieurs à 25% et ne posent pas de problème d'effectif faible.
- Il reste pour le diagramme des écarts relatifs des autre-bactéries que 186 sur 192 où ces écarts peuvent être comparés à ceux de l'aléa. C'est ainsi que j'ai pu mettre en évidence 2 nouveaux groupes aux valeurs extrêmes du %GC et dont les écarts relatifs par rapport à ceux de l'aléa sont significativement différents.
- 2 nouveaux groupes chez les autre-bactéries: Galerie 9, diagrammes 1 et 2.
Tableau des 2 diagrammes des écarts
Groupe %GC < 43% au-dessus de l’aléa GC et AT 22 Groupe %GC > 60% sous l’aléa GC et AT 33 KEGG >4GC% >4AT% KEGG >4GC% >4AT% * KEGG >4GC% >4AT% KEGG >4GC% >4AT% KEGG >4GC% >4AT% amt 98 63 cjr 31 141 * acp -82 -32 gba -86 -70 sall -65 -27 asf 122 25 cle 47 37 * ade -82 -22 ksk -68 -25 salu -66 -26 bpn 63 50 cmn 65 125 * afw -74 -49 mts -64 -64 sbh -65 -32 buc 96 117 fnc 101 77 * age -57 -36 mxa -66 -39 scb -62 -45 cac 46 48 lat 48 100 * amd -82 -26 nfa -80 -62 sco -69 -52 cad 60 28 ple 225 67 * ams -83 -27 phm -70 -15 sct -65 -31 cbd 34 198 pmr 35 84 * ank -82 -33 req -78 -75 sgr -61 -50 cbl 169 47 psi 22 96 * asd -71 -14 rer -79 -43 sho -68 -50 cdf 67 39 rip 24 126 * bla -78 -14 rha -74 -61 sma -67 -44 chp 18 87 tme 164 117 * ccx -67 -39 roa -75 -64 ssx -65 -47 cje 32 142 uur 116 64 * cmi -79 -51 salb -60 -34 sti -72 -58
- Dans le diagramme 1 de la Galerie 9 on distingue bien les bactéries entassées du groupe de 33 sous l'aléa du diagramme >4AT, il est signalé par la bactérie ade-22. Voir le tableau du groupe 33 pour les détails.
- Dans le diagramme 2, le groupe 22 au dessus de l'aléa du diagramme >4GC, 13 bactéries sont signalées par leur code KEGG et chp est signalé par son écart relatif 18%, pour indiquer que le groupe est significativement différent de l'aléa. L'écart relatif inférieur suivant est celui de aae avec 5%. Voir le tableau du Groupe 22 pour les détails.
- Quand on trie le tableau des diagrammes des bactéries suivant le %GC croissant, le nombre de bactéries de 25 à 42 %GC est de 45. Le complément du groupe précédent de 22 bactéries constitue un nouveau groupe de 23. A part leur position par rapport à l'aléa les 2 groupes sont très semblables avec, cependant, une nette augmentation simultanée des taux >4GC (position par rapport à l'aléa oblige, moyenne de 3.8 contre 2.6) et >4AT (pourquoi? moyenne de 111 contre 88) pour le groupe 22, malgré 5 chromosomes de très petite taille (DNA). Voir le tableau du Groupe 23 pour les détails.
- Les 5 groupes des autre-bactéries selon l'écart relatif par rapport à l'aléa.
- Ils sont placés dans le tableau
des groupes des écarts relatifs:
Groupe 22,
Groupe 23,
Groupe 33,
Groupe 41 et
Groupe 67.
Groupe 22 %GC >4GC >4AT DNA Groupe 23 %GC >4GC >4AT DNA Groupe 67 %GC >4GC >4AT DNA 25-42 %GC 25-42 %GC 43-59 %GC moyen. 32 3.8 111 2,335,119 moyen. 36 2.6 88 2,264,375 moyen. 52 8.5 35 4,070,018 écartt 5 2 39 1,542,011 écartt 4 2 24 1,200,989 écartt 5 5 13 1,332,214 % 17 65 35 66 % 12 67 27 53 % 9 53 35 33 Groupe 41 %GC >4GC >4AT DNA Groupe 33 %GC >4GC >4AT DNA 60-70 %GC 60-74 %GC moyen. 65 30 6.9 4,202,165 moyen. 71 21 0.8 7,191,057 écartt 3 30 4 2,530,326 écartt 3.5 7.0 0.8 2,694,790 % 5 98 58 60 % 5 34 102 37
- Aux groupes 22, 23 et 33, qu'on a décrits au paragraphe précédent, il faut ajouter le groupe 41 au-dessus de l'aléa >4AT symétrique du groupe 33 . Le 5ème groupe, groupe 67, est celui au-dessus de l'aléa >4AT sans équivalent en dessous. Ce récapitulatif traite de la moyenne (moyen.), de l'écart type (écartt) et de l'écart type relatif à la moyenne (%), du contenu en GC (%GC), des taux de >4GC et >4AT en %00 du nombre de bases du chromosome (DNA).
- La bonne homogénéité du %GC (5 -17%) des 5 groupes est le fait de la répartition régulière voulue pour cette étude.
- La longueur moyenne des chromosomes varie avec le %GC ( de 2 M ps vers 35 %GC à 7 M pbs à 70 %GC) et avec la position du groupe par rapport à l'aléa (le groupe 41 fait la moitié du groupe 33). Son homogénéité traduit les comportements combinés des 2 taux de répétitions étudiés.
- Dans les groupes 22 et 23 le taux >4GC faible est combiné à un taux >4AT très fort et homogène. Ce déséquilibre se traduit par des chromosomes petits de longueur hétérogène.
- Le groupe 67 au contenu %GC moyen, avec les 2 taux moyens et assez homogènes, a une longueur de chromosome moyenne et très homogène pour 67 bactéries. Cette homogénéité a été renforcée certainement par le fait qu'il n'a pas son symétrique au-dessus d'un des 2 aléas >4ATa ou >4GCa.
- Les 2 groupes 33 et 41 auraient pu se ressembler comme les groupes 22 et 23, étant symétriques et à fort taux >4GC. Mais c'est là la différence entre les répétitions AT et GC du point de vue physique de l'ADN et non d'un point de vue évolutif.
- Le taux >4GC très fort du groupe 41 est le plus hétérogène de toutes les moyennes des 5 groupes, alors que celui de >4AT des groupes 22 et 23, beaucoup plus fort encore, est très homogène. Au niveau 65 %GC, le groupe 41 subit une progression fulgurante du taux >4GC qu'une seule fonction hyperbole peut traduire à ce niveau de %GC. Le taux >4AT, relativement faible, et la longueur du chromosome suivent le même mouvement d’hétérogénéité.
- Le groupe 33 a un taux >4AT très faible qui ne rentre certainement pas en concurrence avec la longueur du chromosome ou le taux fort du taux >4GC. Est-ce que c'est ce taux >4GC relativement équilibré et homogène qui agit sur la taille du chromosome, double de celle du groupe 41, et sur son homogénéité? Ou bien est-ce l'inverse?
Les 5 groupes des autre-bactéries selon le taux de >4GC− 3.4.3.1.3
modifier- Les groupes sont placés dans le tableau des groupes du taux >4GC : Groupes 2 7, Groupes 14 25 68. Diagramme simplifié avec les groupes du taux >4GC.
Groupe 2 %GC >4GC >4AT DNA | Groupe 7 %GC >4GC >4AT DNA | Groupe 14 %GC >4GC >4AT DNA 38 b, 1−4 | 74 b, 5−10 | 31 b, 11−18 moyen. 34 2.3 100 2,334,524 | moyen. 52 6.8 37 4,104,170 | moyen. 63 13.8 12.1 4,597,594 ecartt 7 1 38 1,345,668 | ecartt 8 1 24 1,639,023 | ecartt 8 2 15 2,043,599 % 19 44 38 58 | % 16 19 66 40 | % 13 16 126 44 ----------------------------------------------------------------------------------------------------------------------------------------------------------------- Groupe 25 %GC >4GC >4AT DNA | Groupe 68 %GC >4GC >4AT DNA | 31 b, 21−33 | 12 b, 38−116 | moyen. 68 25.3 5.2 6,916,863 | moyen. 67 68 8.1 3,030,788 | ecartt 5 3 8 3,238,795 | ecartt 3 27 5 2,339,315 | % 8 12 159 47 | % 4 39 67 77 |
- Les groupes du taux >4GC s'étendent sur de grandes proportions de l'étendue du contenu en GC (%GC), et de façon irrégulière. Les étendues des groupes 7 et 14 , respectivement 34 et 28 %GC sont les plus grandes et laissent penser que le taux >4GC est constant de 25 à 60 %GC. Les groupes des taux >4AT s’étendent sur des proportions moyennes, inférieures à 20 %GC et de façon régulière. Ce qui fait que le taux >4AT progresse régulièrement. Voir les diagrammes simplifiés de ces taux en tête de ce sous-chapitre et du suivant. Le tableau ci-dessous donne la synthèse de ces étendues.
Etendues en %GC des groupes GC bande %GC %GC bande AT 2 20 25-45 25-41 16 V 7 34 35-69 27-45 18 IV 14 28 47-75 41-61 20 III 25 20 55-75 53-71 18 II 68 10 61-71 61-75 14 I
Les 5 groupes des autre-bactéries selon le taux de >4AT− 3.4.3.1.4
modifier- Les groupes sont placés dans le tableau des groupes du taux >4AT: groupes I II III groupes IV V Diagramme simplifié avec les groupes du taux >4AT.
Groupe V %GC >4GC >4AT DNA | Groupe IV %GC >4GC >4AT DNA | Groupe III %GC >4GC >4AT DNA 19 b, 122−330 | 35 b, 61−112 | 56 b, 23−52 moyen. 27 2 175 1,230,515 | moyen. 36 4 81 2,525,415 | moyen. 51 8 36 4,274,344 ecartt 7 1 62 894,543 | ecartt 5 2 15 1,358,428 | ecartt 4 4 7 1,195,261 % 26 71 36 73 | % 15 59 18 54 | % 9 52 19 28 ----------------------------------------------------------------------------------------------------------------------------------------------------------------- Groupe II %GC >4GC >4AT DNA | Groupe I %GC >4GC >4AT DNA 47 b, 3−20 | 35 b, 0.3−2.5 moyen. 63 26 9 3,687,892 | moyen. 71 22 1 7,534,602 ecartt 4 29 5 1,869,769 | ecartt 3 7 1 2,707,907 % 6 110 57 51 | % 4 32 68 36
- Les étendues des groupes en %GC, irrégulières et régulières respectivement des taux >4GC et >4AT, font qu'il y a chevauchement entre les groupes >4AGC et >4AT. Cependant le groupe 2 recouvre entièrement les groupes V et IV, et le groupe 25 recouvre à 90% les groupes I et II. Le groupe 7, lui, recouvre à 80% les groupes III et II. Il n'y a pas donc de correspondance univoque des 2 sortes de groupes.
Progression dans les groupes homogènes − 3.4.3.1.5
modifierGroupes de >4AT à progression homogène | Groupes de >4GC à progression homogène nom V IV III II I | 68 25 14 7 2 min 122.0 60.76 23.22 3.01 0.25 | 38.05 20.94 10.82 4.81 0.25 max 330.82 111.7 51.50 19.72 2.45 | 116.27 33.42 17.47 9.77 4.42 effectif 19 35 56 47 35 | 12 31 31 74 44 moyenne 174.9 80.9 35.8 8.7 0.8 | 68.5 25.3 13.8 6.8 2.1 | Pas 10.99 1.45 0.50 0.36 0.06 | 6.52 0.40 0.21 0.07 0.09 | Pas % 6.3 1.8 1.4 4.1 8.3 | 9.5 1.6 1.6 1.0 4.5 | rupture 330.8 122.0 60.8 23.3 3.0 | 116.0 38.1 20.9 10.8 4.8 − 111.7 51.5 19.7 2.4 | − 33.4 17.5 9.8 4.4 % − 9.2 18.0 18.3 22.8 | − 13.9 19.9 10.8 8.8
- Délimitation des groupes:
- En triant les bactéries suivant un taux croissant, apparaissent des ruptures nettes dans la croissance en passant d'une bactérie à l'autre. Ainsi cette rupture est calculée en %, de la différence entre 2 taux successifs divisée par le taux inférieur. Pour le groupe II nous avons par exemple: 100*(23.3-19.7)/19.7 = 18.3%; alors que sur les ruptures précédentes elles sont largement inférieures à cette valeur et surtout homogènes. Cependant pour les groupes des extrémités, V I 68 2, il peut y avoir plusieurs valeurs élevées avant celle choisie (I et 2) ou après ( V et 68), mais avant ou après les valeurs sont plus petites ou très petites.
- Le taux de progression ou pas: croissance moyenne entre les taux de 2 bactéries successives.
(maximum du groupe − son minimum)/son effectif: exemple pour groupe II, (19.72-3.01)/47 = 0.36.
- Le pas relatif en %: c'est le pas relatif à la moyenne du groupe multiplié par 100. Par exemple pour le groupe II, 100*0.36/8.7 = 4.1.
- Note sur les progressions : les groupes de >4AT et >4GC se ressemblent beaucoup.
- Aux valeurs faibles des taux, la progression relative à la moyenne est forte pour les groupes 2 et II avec 4.5% et 4.1% respectivement, très forte pour le groupe I avec 8.3%.
- Aux valeurs moyennes la progression est faible et s'étend sur 3 groupes pour >4GC (1.0, 1.6, 1.6) et sur 2 groupes pour >4AT (1.4, 1.8).
- Aux valeurs fortes la progression est forte, 6.3%, pour le groupe V et très forte, le maximum avec 9.5, pour le groupe 68.
Ces progressions ressemblent à une fonction polynôme de degré 3 avec un point d'inflexion sur un plateau plus étalé pour les >4GC que les >4AT. Nous avons constaté ces rapprochements avec les équations de tendances qui étaient légèrement différentes, mais ici avec les groupes le rapprochement est plus fort pour les taux faibles et moyens. Mais il y a 2 constats importants à noter:
- Pour les taux faibles les >4AT progressent beaucoup plus vite que les >4GC. Le comportement est le même mais d'intensité plus forte pour les >4AT. Les comportements des 2 paires sur l'ensemble diffèrent par leur intensité.
- Pour les taux forts les 2 progressions sont fulgurantes bien que différentes. Ce décrochage n'était pas visible jusqu'ici pour les >4AT car leur équation de tendance, un polynôme de degré 3, était bien caractérisée (R2=94) et leur groupe V ne se détachait pas aussi spectaculairement que le groupe 68 des >4GC. Nous pouvons dire alors que pour toutes les valeurs des taux, les >4AT diffèrent par leur intensité des >4GC.
Synthèse sur les diagrammes − 3.4.3.1.6
modifierSi nous résumons les résultats sur l'étude des diagrammes, les 4 approches, c'est-à-dire les diagrammes des taux, les diagrammes des écarts relatifs, les groupages par taux et les progressions dans les groupes homogènes, nous constatons que nous avons affiné de plus en plus des comportements semblables des 2 paires de bases AT et GC qui diffèrent seulement par leurs intensités.
- Les diagrammes des taux nous ont permis de voir leur dissymétrie très prononcée par rapport à l'aléa, jusqu'à penser que leurs comportements soient de nature différente. Ce qui est clair, en tout cas, c'est que leurs comportements sont très différents. Ces diagrammes nous ont permis de définir 3 groupes au niveau de 60-75 %GC.
- Les diagrammes des écarts relatifs nous ont permis de détecter 2 nouveaux groupes cachés, dans les diagrammes des taux, par les faibles valeurs de ceux-ci. Aux valeurs faibles des taux nous avons alors 4 groupes qui se répartissent comme suite: à 25-43 %GC on a un groupe au-dessus, un autre en dessous de l'aléa; de même à 60-75 %GC.
- Les groupages par taux nous ont permis de découvrir que les groupes sont très homogènes et certains très étendus dans les taux >4GC. L'homogénéité se traduit par une variation plus rapide chez les >4AT que chez les >4GC ce qui donne des groupes beaucoup plus étendus chez ces derniers. Ce qui explique que jusqu'à 60 %GC les >4GC semblent être constants. Et par ailleurs on a pu dégager 5 groupes dans chaque cas, ce qu'on n'a pas pu faire pour les >4AT avec les 2 1ères approches.
- Les progressions dans les groupes homogènes nous ont permis de conforter la ressemblance entre les courbes de tendances, la ressemblance dans les groupes et que toute différence entre les 2 paires de bases est une question d'intensité.
- En conclusion on peut dégager 2 concepts forts:
- La différence dans l'intensité du comportement des 2 paires est à mettre en parallèle avec la différence de la force de l'appariement qui lie les 2 bases des 2 paires. Cette force a été longuement étudiée et démontrée dans la littérature.
- Le décrochage très fort des 2 groupes des taux forts ressemble énormément à un phénomène de résonance. Cette résonance concerne les 4 codons ccc ggg aaa ttt qui sont révélés par cette étude de répétition au niveau de tout le génome. On peut supposer que les autres codons subissent aussi cette résonance quand les 4 codons étudiés précédents traversent les points d'inflexion de leurs courbes. Le décrochage concerne les 4 codons précédents en même temps. Détaillons. C'est dans les diagrammes des écarts relatifs qu'on peut mettre en évidence cette simultanéité parce que c'est dans les extrêmes qu'on trouve 2 fois 2 groupes symétriques 2 à 2 par rapport à l'aléa.
- De 25 à 43 %GC le taux de >4GC est faible alors que celui de >4AT est fort. Le décrochage principale qui se fait dans le groupe V on l'aperçoit dans le groupe d'écart relatif "groupe 22" avec >4GC = 3.8 %00 et >4AT = 111 %00; alors que dans le "groupe 23" symétrique on a >4GC = 2.6 %00 et >4AT = 88 %00. C'est-à-dire 50% de >4GC de plus dans "22" que dans "23", et 25% de >4AT de plus dans "22" que dans "23".
- De 60 à 75 %GC le taux de >4GC est fort alors que celui de >4AT est faible. Le décrochage principale qui se fait dans le groupe 68 on l'aperçoit dans le groupe d'écart relatif "groupe 41" avec >4GC = 30 %00 et >4AT = 6.9 %00; alors que dans le "groupe 33" symétrique on a >4GC = 21 %00 et >4AT = 0.8 %00. C'est-à-dire 43% de >4GC de plus dans "41" que dans "33", et 8 fois de >4AT de plus dans "41" que dans "33".
Les diagrammes <5AT et <5GC − 3.4.3.1.7
modifierGalerie 6. Répétitions de 2,3 ou 4 fois A ou T et G ou C chez les autre-bactéries, les cyanobactéries et les archées. Il y a compensation par rapport aux >4AT et >4GC pour autre-bactéries et >4GC des cyanobactéries mais pas de compensation des >4AT chez les cyanobactéries. Les archées sont très hétérogènes pour conclure. La compensation se comprend pour un contenu en GC donné, si les >4GC sont faibles il faut que les 2, 3 et 4 répétitions soient élevés. Pour les >4AT des cyanobactéries, elles sont tellement élevées que la compensation doit se faire sans répétitions.
Les distributions des répétitions par bactérie − 3.4.3.2
modifierLes répétitions au-delà de 20 − 3.4.3.2.1
modifier- 13 bactéries présentent ces répétitions parfois anormales. 2 bactéries sont ajoutées à ce tableau contenant Y ou S pour compléter les résultats manuels.
KEGG effectif %GC >4GC >4AT ctrl bases zin 208,564 13.54 0.82 295.48 21 T cru 162,589 13.98 0.37 330.82 22 A gva 1,617,545 42.02 1.77 45.95 1 Y clo 1,809,746 44.21 5.27 60.99 29 T sfl 4,607,202 50.89 5.68 35.71 49 A: 43 N: 6 sap 3,472,898 56.76 22.12 27.21 21 C tro 2,003,006 63.65 11.88 3.15 2 Y,S roa 8,376,953 67.37 14.36 0.74 67 C: 41+26 age 12,489,432 69.45 28.18 0.97 41 G mts 3,982,034 70.28 25.31 0.48 21 C sbh 11,936,683 70.75 25.40 0.84 175 C: 4*22+21 G: 21+22+23 sall 9,784,577 72.13 27.12 0.69 446 C: 310+31+27+24 G: 30+24 sct 6,283,062 72.94 28.63 0.53 30 C salb 6,841,649 73.32 33.42 0.46 29 G ksk 8,783,278 74.20 28.47 0.38 66 C: 21 G: 23+22
Les groupes − 3.4.3.2.2
modifier- Sur 192 bactéries 120 ont des répétitions inférieures ou égales à 11. Cette frontière de 11 c'est pour les aas. Ainsi, une telle répétition a tout au plus 3 aas à 3 bases identiques: Phe, Lys, Pro, Gly. Pouvant s'ajouter à cet aa un troisième identique ayant seulement 2 bases identiques. Donc tout au plus 4 mêmes aas l'un à côté de l'autre. Avec une frontière de douze on passe respectivement à 4 et 5 aas identiques côte à côte. J'ai repéré cette frontière en totalisant les bactéries ayant le même maximum de répétitions. Ainsi j'ai trouvé:
Répétition maximale: 8 9 10 11 12 13 14 15 16 17 18 19 20 nombre de bactéries: 2 18 47 27 22 23 12 11 5 8 5 6 6
J'ai alors combiné le fait que 10 soit le maximum et une limite raisonnable de 4 aas alignés. Le nombre de bactéries ayant 14 et plus de répétition, se réduisant brusquement à 12, j'ai décidé de considérer toute répétition supérieure ou égale à 14 comme solitaire ou anormale quand cette répétition est trop grande.
Le tableau suivant liste ces 120 bactéries pour que le lecteur n'ait pas à le refaire manuellement:
- 120 bactéries à répétition <= 11
aae asf cfv dge eic koy mts ral sap sho tai Moyenne 11 0.4 Moyenne 14-20 1.3 aba bla cgl dpd eno kpn mxa raq say sma tma bactéries total bactéries total acp bmf1 cko dpt esa ksa nfa req sbn smk tos 120 51 26 34 ade bmf2 cle dvl eta ksk pae rer sbz smx tro Anomalies amd bmv clo eal fnc lhk pam ret scb spe tsc bactéries max >20 amo bsu cmi ebf fra ljf pgd rha sct spl tth clo 17 T 29 T ams cac cnt ebt gba lla pge roa sect spq ttl mts 15 C 21 C amt cad cpy eca gdi mcac plu ror sep ssx tts roa 10 G 41+26 C ank ccx dba ecla gva mhd pmr rri sepp sti vin sct 11 C 30 C apt cff dda eco hav mrb ppoy rru ser sty ypg sap 10 … 21 C asd cft ddr eha kin msv psi rty sgr sus ksk 17 G 21 C, 22+23 G
- 59 bactéries à répétition => 11
afw cpb men rpa stm Moyenne 11-13 2.8 Moyenne 14-20 1.6 age cta opr rpr sur bactéries total bactéries total bae cth pac rpw tde 59 165 16 25 blo ctr pak saci tme bpn cvi pdo salb tpas Anomalies cbd ecs pfq salu tra bactéries max >20 cbl ent pgi sbo tsu age 14 G 41 G cdf gau phm scl xac sfl 17 G 43 A cgq ipa ppk sco xbo salb 15 C 29 G cje lat ppm sfl xcb cjr liv pst sfo ype cmn lpl rho spi
- Groupe à génome court avec gradient
−− Répétitions −− bactérie 11 12−13 >13 génome %GC max >20 cru 84 69 46 162,589 14.0 20 A 22 A crp 84 84 47 159,662 16.6 20 T − zin 105 92 46 208,564 13.5 19 T 21 T wbr 33 6 0 697,724 22.5 13 A − sms 23 14 3 190,657 24.0 14 T − ple 21 4 2 358,242 26.2 20 T − buc 16 5 5 640,681 26.3 18 T − rip 10 4 0 574,390 28.5 13 T −
- Groupe sans gradient
−− Répétitions −− bactérie 11 12−13 >13 génome %GC max −−−−−−− >20 −−−−−−−− sall 13 13 6 9,784,577 72.1 20 C C: 310+31+27+24 G: 30+24 sbh 12 15 45 11,936,683 70.8 20 CG C: 4*22+21 G: 21+22+23 pes 12 15 7 4,513,140 56.1 16 G − uur 0 0 10 751,719 25.5 19 T − chp 0 1 9 1,171,660 39.1 17 C −
Échantillon de distributions − 3.4.3.2.3
modifier- 120 bactéries à répétition <= 11, scb cac mcac
scb %GC %GC al −−−−− aléa −−−− cac %GC %GC al −−−−− aléa −−−− mcac %GC %GC al −−−−− aléa −−−− 71.45 71.41 98/70 10148695 30.93 30.99 31/100 3940880 23.66 23.81 24/101 1017293 n at gc at gc n at gc at gc n at gc at gc 1 2241377 3222758 2129580 2995867 1 1097691 793658 1165809 872807 1 242602 183686 296790 187999 2 294032 1286004 304765 1068654 2 371413 169647 402428 134583 2 110367 24851 112863 22432 3 17919 321993 43990 382558 3 142266 21161 139557 21024 3 46037 1916 43010 2609 4 2709 85826 6285 136306 4 61603 4311 47843 3334 4 20473 314 16481 317 5 486 24885 856 48479 5 23644 850 16541 495 5 9737 60 6214 38 6 93 3684 130 17479 6 9477 109 5600 76 6 4622 3 2514 5 7 17 94 11 6376 7 3652 20 1946 14 7 1874 2 959 0 8 3 23 2 2229 8 846 2 676 2 8 414 0 353 0 9 0 10 0 762 9 94 1 236 0 9 31 0 124 0 10 0 2 0 274 10 13 0 87 1 10 1 0 52 0 11 0 0 0 103 11 0 0 25 0 11 2 0 15 0 12 0 0 0 43 12 0 0 4 0 12 0 0 7 0 13 0 0 0 13 13 0 0 4 0 13 0 0 3 0 14 0 0 0 6 14 0 0 0 0 14 0 0 1 0 15 0 0 0 0 15 1 0 0 0 15 0 0 0 0 16 0 0 0 1 16 0 0 2 0 16 0 0 1 0 17 0 0 0 0 17 0 0 0 0 17 1 0 0 0 18 0 0 0 0 18 0 0 0 0 18 2 0 0 0 19 0 0 0 0 19 0 0 0 0 19 1 0 0 0
- 59 bactéries à répétition => 11, phm age men
phm %GC %GC al −−−− aléa −−−− age %GC %GC al −−−− aléa −−−−− men %GC %GC al −−−− aléa −−−− 73.29 73.24 74/101 3803225 69.45 69.31 70/101 12489432 43.52 43.70 44/101 538294 n at gc at gc n at gc at gc n at gc at gc 1 755815 1296678 763118 1121745 1 2825228 3971744 2747208 3695130 1 149444 145405 156457 144244 2 116026 491446 102279 409774 2 443447 1470682 421171 1280654 2 44060 35497 43842 31240 3 7396 114619 13823 149546 3 26527 389891 64646 444333 3 12277 4586 12420 6806 4 1167 28530 1829 54682 4 4370 101520 9928 154066 4 4292 781 3524 1453 5 175 7589 225 20067 5 885 27891 1590 53214 5 1385 154 980 339 6 38 1426 34 7369 6 235 5937 248 18353 6 506 23 294 78 7 8 324 2 2,665 7 66 1157 36 6526 7 214 4 86 12 8 3 79 1 1021 8 21 176 5 2235 8 92 3 27 5 9 1 22 1 354 9 3 25 0 739 9 25 2 5 2 10 1 5 0 129 10 0 2 0 278 10 4 0 0 0 11 0 4 0 42 11 0 0 0 96 11 0 0 1 0 12 0 0 0 22 12 0 1 0 35 12 1 0 0 0 13 0 1 0 11 13 0 0 0 10 13 0 0 0 0 14 0 0 0 2 14 0 1 0 1 14 0 0 0 0 15 0 2 0 0 15 0 0 0 0 15 0 0 0 0 16 0 0 0 0 16 0 0 0 0 16 0 0 0 0 17 0 1 0 0 17 0 0 0 0 17 0 0 0 0
- Bactéries à génome court, rip ple zin
rip %GC %GC al −−−− aléa −−−− ple %GC %GC al −−−− aléa −−−− zin %GC %GC al −−−− aléa −−−− 28.48 28.68 29/101 574390 26.17 26.19 27/103 358242 13.54 13.55 14/103 208564 n at gc at gc n at gc at gc n at gc at gc 1 141535 114542 169800 120806 1 92688 65393 105002 70786 1 51674 19092 58338 24546 2 53412 20741 60307 17364 2 34503 11641 39097 9300 2 19147 4091 25098 1682 3 21508 1936 21631 2507 3 15214 1214 14432 1230 3 9949 237 10898 112 4 10297 334 7644 358 4 6611 261 5188 163 4 5292 41 4784 3 5 5114 63 2784 42 5 2713 63 1912 13 5 2698 14 1957 0 6 2574 15 961 7 6 1177 10 724 5 6 1432 3 863 0 7 1193 4 338 1 7 557 3 252 1 7 741 0 351 0 8 608 0 137 0 8 359 1 117 0 8 571 0 158 0 9 211 0 39 0 9 229 0 40 0 9 289 0 74 0 10 43 0 17 0 10 92 0 11 0 10 188 0 26 0 11 10 0 5 0 11 21 0 4 0 11 105 0 15 0 12 2 0 2 0 12 2 0 3 0 12 60 0 6 0 13 2 0 1 0 13 2 0 0 0 13 32 0 4 0 14 0 0 0 0 14 0 0 1 0 14 15 0 2 0 15 0 0 0 0 15 0 0 0 0 15 8 0 1 0 16 0 0 0 0 16 0 0 0 0 16 10 0 0 0 17 0 0 0 0 17 1 0 0 0 17 11 0 0 0 18 0 0 0 0 18 0 0 0 0 18 1 0 0 0 19 0 0 0 0 19 0 0 0 0 19 1 0 0 0 20 0 0 0 0 20 1 0 0 0 20 0 0 0 0
- Bactéries sans gradient, pes chp uur
pes %GC %GC a −−−− aléa −−−− chp %GC %GC a −−−− aléa −−−− uur %GC %GC a −−−− aléa −−−− 56.06 56.00 56/100 4513140 39.06 38.99 39/100 1171660 25.50 25.52 25/98 751719 n at gc at gc n at gc at gc n at gc at gc 1 1085753 1348621 1209267 1310709 1 310815 290420 344478 295936 1 174326 142237 220376 145965 2 241692 426612 265321 367474 2 98849 58622 105327 58013 2 84432 20550 81701 18571 3 79192 77870 58466 101973 3 35305 11723 32151 11120 3 31967 2100 30881 2468 4 24611 16838 12988 28776 4 13857 2857 9990 2192 4 14688 404 11367 282 5 10365 3958 2763 8174 5 5413 522 2964 441 5 6355 72 4205 37 6 2476 946 614 2244 6 1827 92 924 79 6 3027 11 1616 5 7 1301 121 123 618 7 567 10 274 11 7 1303 1 589 0 8 244 21 33 157 8 214 6 79 2 8 337 0 255 0 9 17 22 9 40 9 39 0 24 0 9 29 0 68 0 10 3 15 1 15 10 6 0 9 0 10 1 0 23 0 11 1 11 0 2 11 0 0 3 0 11 0 0 16 0 12 0 7 0 1 12 1 0 0 0 12 0 0 5 0 13 0 8 1 1 13 0 0 0 0 13 0 0 0 0 14 0 2 0 0 14 0 5 0 0 14 1 0 1 0 15 0 4 0 0 15 0 3 0 0 15 1 0 0 0 16 0 1 0 0 16 0 0 0 0 16 3 0 0 0 17 0 0 0 0 17 0 1 0 0 17 3 0 0 0 18 0 0 0 0 18 0 0 0 0 18 1 0 0 0 19 0 0 0 0 19 0 0 0 0 19 1 0 0 0
- Bactéries sans gradient, sall sbh
sall %GC %GC a −−−− aléa −−−− sbh %GC %GC a −−−− aléa −−−− 72.13 72.26 73/101 9784577 70.75 70.61 72/102 11936683 n at gc at gc n at gc at gc 1 2065986 3074349 2015139 2882389 1 2670754 3801706 2554166 3528392 2 294247 1299200 278692 1043933 2 355487 1505027 375043 1244818 3 18871 307512 38569 376680 3 28563 362993 54643 439319 4 3080 81276 5326 135200 4 4569 97103 8144 155398 5 568 22976 782 49380 5 827 26474 1236 54881 6 84 3297 99 17672 6 116 3544 162 19400 7 18 117 8 6491 7 50 155 24 6731 8 1 71 3 2340 8 5 45 4 2481 9 0 32 0 821 9 2 18 2 908 10 0 11 0 304 10 0 12 0 291 11 0 13 0 99 11 0 12 0 127 12 0 8 0 35 12 0 7 0 41 13 0 5 0 17 13 0 8 0 15 14 0 2 0 5 14 0 6 0 2 15 0 1 0 2 15 0 13 0 1 16 0 0 0 1 16 0 6 0 0 17 0 0 0 0 17 0 7 0 0 18 0 1 0 0 18 0 5 0 0 19 0 1 0 0 19 0 0 0 0 20 0 1 0 0 20 0 8 0 0 24 0 2 0 0 21 0 2 0 0 27 0 1 0 0 22 0 5 0 0 30 0 1 0 0 23 0 1 0 0 31 0 1 0 0 24 0 0 0 0 310 0 1 0 0 25 0 0 0 0
Localisation des répétitions longues − 3.4.3.2.4
modifier- Après avoir trouvé la bactérie par son code KEGG, clic sur la séquence "GB:" qui affiche la page NCBI. Cliquer alors sur "graphics". Mettre l'adresse en kilo octets trouvée dans le fichier "FASTA", dans le champs "Find". NCBI affiche alors l'adresse demandée. Clic bouton gauche sur cette adresse, et choisir dans le menu déroulant, "reveal in sequence view". Puis ctrl+F pour recherchée la répétition en question. Si la séquence est dans une séquence fonctionnelle, le bouton droit donne le nom de cette protéine ou RNA.
- Sur 43 répétitions longues 35 se trouvent dans des séquences non identifiées
age 41G liv 19A sall 24C sbh 21G sfl 43A cjr 15G mcac 19A sall 24G sbh 22C tme 18A crp 20T phm 17G sall 27C sbh 22C tsc 20C cru 22A ple 20T sall 30G sbh 22C ttl 10C dge 18G roa 26C sall 310C sbh 22G ttl 16C ksk 22G roa 41C sbh 18G sbh 23G uur 19T ksk 23G salb 29G sbh 21C sct 30C zin 19T
- 8 se trouvent dans des protéines fonctionnellement importantes ou hypothétiques
bactérie répétition adresse protéine commentaire zin 21T 168392 EC 3.6.1.31 − cru 18T 99908 EC 6.1.1.10 − cru 20A 89720 hypothétique − buc 18T 247093 ftsL cell division k03586 (KEGG) chp 17C 644557 adherence factor− clo 29T 694734 hypothétique − sall 31C 4198230 pseudo-gène − sbh 22C 7439060 sensor kinase −
Note sur les répétitions longues − 3.4.3.2.5
modifier29.9.16 Paris
La répétition la plus longue est celle de 310C accolée à une autre de 27C. Puis nous avons 3 autres de C: 41+26 (côte à côte), 31, puis 30. Du côté de G nous avons 41, 30 et 29. Du côté de A, 43. Toutes ces longues répétitions supérieures à 29 sont en dehors des séquences fonctionnelles. Seule une répétition de 29T se trouve dans une protéine hypothétique. A quoi servent ces séquences et pourquoi C et G et rarement A ou T? Elles devraient être létales car l'homogénéité de C et G renforce encore plus leur appariement qui est d'ailleurs supérieur à celui de A et T. A mon avis l'ADN poubelle ou gratuit n'a pas de sens. Ces répétitions de C ou G doivent bloquer la progression des protéines de l'ADN quand elles le parcourent. C'est une contrainte majeur qui doit donc organiser cet ADN et sa dynamique. On peut expliquer par exemple le choix du brin à transcrire par une propriété de désappariement de ces répétitions longues de C ou de G. C étant plus léger peut être plus facilement à écarter ou bien au contraire c'est G. Le contenu en GC est faible dans les zones de contrôle (promoteurs..). Ce sont les AT qui prédominent, mais leurs répétitions ne sont pas grandes, tout au plus 20 ( voir Regulon data base [7]). Et d'ailleurs beaucoup de répétitions, A ou T, supérieures à 20 sont dans des protéines. Il en est de même des C ou G donnant la Gly mais pas la proline (brin complément).
Les plasmides − 3.4.3.3
modifier Galerie 2: 1er et 2ème diagramme, répétitions en fonction du %GC; Galerie 3, 1er et 2ème diagramme, répétitions en fonction des répétitions de l'hôte et 5ème diagramme pour le %GC des plasmides en fonction de celui de l'hôte.
Tableaux numériques
Répétitions
- Les 12 bactéries étudiées sont: cac, cje, ent, ecs, kpn, pst, sco, sfl, smt, tos, xac, ype.
Répétitions des plasmides en fonction du %GC − 3.4.3.3.1
modifier- Tableau des 2 diagrammes en fonction de %GC Galerie 2: 1er et 2ème diagramme.
Rapportées au %GC les répétitions des plasmides se comportent comme leurs hôtes. C'est-à-dire:
- Les répétitions >4AT sont toutes au-dessus de l'aléa et suivent une tendance en polynôme du 3ème degré.
- Les répétitions >4GC sont presque toutes en dessous de l'aléa avec la conservation des groupes décrits pour les bactéries et notamment la bactérie tos.
Cependant on peut distinguer 2 types de plasmides:
- Ceux qui restent regroupés autour de leur hôtes, dans la majorité des cas il y a au moins un plasmide qui reste près de son hôte.
- Ceux qui s'en éloignent.
Répétitions des plasmides en fonction de celles de l'hôte − 3.4.3.3.2
modifier Tableau des 2 diagrammes en fonction de l'hôte Galerie 3: 1er, 2ème et 5ème diagramme.
Dans tous les cas l'éloignement se fait presque toujours dans les 3 directions suivantes:
- Diminution du %GC par rapport à l'hôte. 1 cas seulement augmente son %GC nettement, ype3.
- Augmentation très prononcée du >4AT sauf pour celui de ype3 qui diminue nettement par rapport à son hôte .
- Augmentation nette du >4GC sauf pour 2 cas: ype3 et kpn6 dont le >4GC diminue nettement par rapport à leurs hôtes.
La différence entre le plasmide et l'hôte est matérialisée dans les diagrammes 1, 2 et 5 de la galerie 3 par la diagonale (diag) représentant ce dernier (ligne rouge).
La bactérie tos n'est pas représentée dans les diagrammes 1 et 2 de la galerie 3, car dans le 2ème diagramme la valeur élevée du >4GC de tos fait que les autres bactéries paraissent être regroupées dans un petit nuage. Le >4GC des plasmides de tos sont presque identiques à celui de leur hôte et donc le croisement naissant des 2 droites du diagramme 2 est effectif en ce point.
Note sur les plasmides − 3.4.3.3.3
modifierIl serait difficile de donner une tendance du comportement des plasmides vis à vis de leur hôte, tant l'effectif de 12 bactéries est faible. Mais le nombre des plasmides étant plus grands et leurs comportements restreints permettent de faire des regroupements et cerner certaines propriétés des diagrammes plasmide/hôte des répétitions des bases dans leurs ADNs.
- Les répétitions >4AT: on peut en faire 3 groupes,
- un groupe à très faible éloignement de l'hôte, de 0 à 10% (6 bactéries): cac1, cje1, ent1, stm1, sco1, sco2, tos1, tos2. Remarquons que cje1 a un ADN très petit, et sco et tos ont un %GC très élevé donc un >4AT très faible.
- un autre groupe à forte augmentation de 40 à 100% (5 bactéries): ecs1-2, kpn3-7, pst1-2, sfl1, xac1-2. Remarquons que ecs2 et kpn6-7 ont un ADN très petit, ce qui explique leur >4AT très élevé, et que xac1-2, malgré leur grand ADN ils doublent leurs >4AT plus que ecs2 et kpn6-7 à petit ADN.
- ype dont les plasmides ont un comportement erratique: ype1 augmente de 15% comme le 1er groupe, ype2 de 45% comme le 2ème groupe et ype3 diminue de 20% environ.
La droite >4AT des plasmides en fonction de celui de l'hôte (galerie 3, diagramme 1) est remarquablement parallèle à la diagonale et laisse penser que, chez les bactéries autres que les cyanobactéries, leur formation nécessite un surplus de répétitions >4AT de 12%00. On sait en effet que les séquences riches en AT contiennent l’origine de réplication nécessaire au plasmide pour qu'il se réplique, et les palindromes nécessaires à son détachement du chromosome hôte.
- Les répétitions >4GC: On peut distinguer nettement 3 groupes,
- Un groupe très homogène de 7 bactéries dont les plasmides doublent leur >4GC: cje1, ecs1-2, ent, pst1-2, sfl1, stm1, xac1-2.
- Un groupe moins homogène mais dont la caractéristique principale est d'avoir un plasmide au moins ou l'ensemble des plasmides de la bactérie qui ont un >4GC égale à celui de l'hôte: kpn3-7, sco1-2, tos1-2, ype1-2. Remarquons encore que ype3 se distingue comme pour >4AT, il diminue son >4GC de moitié par rapport à son hôte comme cac1. sco1 est égal au hôte, mais sco2 a un >4GC qui n'augmente que de 40%.
- un groupe de 2 plasmides dont le >4GC diminue nettement par rapport à l'hôte: cac1, ype3. Nous avons vu ype3 dans le groupe 2. cac1 a la particularité d'avoir un hôte à faible >4GC comme cje1.
La droite >4GC des plasmides en fonction de celui de l'hôte (galerie 3, diagramme 2) croise la diagonale aux %GC très élevés (sco et tos)et se trouve au-dessus d'elle. C'est comme si les bases G et C étaient nécessaires pour avoir un taux GC/AT convenable pour le plasmide. Ceci se traduit par la constante de l'équation de la droite égale à 4%00 de répétitions >4GC des plasmides.
- Le diagramme %GC plasmide/ %GC hôte (galerie 3, diagramme 5) est le résultat de l'augmentation des répétitions >4AT et des répétitions >4GC. Étant donné que la courbe >4AT/%GC des bactéries est au-dessus de l'aléa et que celle de >4GC est nettement en dessous, l’augmentation des >4GC n'arrive pas à compenser l'augmentation des >4GC et le %GC des plasmides ne peut être qu'inférieur à celui de l'hôte. Cependant l'augmentation des >4GC, comme on l'a dit ci-dessus est nécessaire et le %GC des plasmides dépasse celui de l'hôte en dessous de 35% de GC de l'hôte.
- Les plasmides subissent l'action des protéines de l'ADN de l'hôte et donc reproduisent le contenu en GC et les répétitions. Cependant certains plasmides s'écartent de leur hôte en termes de %GC ou en répétition.
- Soit le contenu en GC permet des zones hétérogènes dans le chromosome et permet la sortie des plasmides différents les uns des autres, avec des bouts complémentaires pour l'appariement.
- Soit les plasmides proviennent de l'extérieur par échange horizontal et ne sont pas encore entièrement formatés par les protéines de l'ADN de l'hôte.
- Soit ces protéines sont mutées et produisent une variation du %GC et des répétitions suivant la taille du plasmide.
Les protéines − 3.4.3.4
modifier4ème et 5ème diagrammes dans Galerie 4 Tableaux numériques Répétitions
Les diagrammes des protéines − 3.4.3.4.1
modifierCalculs de >4AT, >4GC (en %00) et de %GC ramenés au total des bases cumulées des protéines compilées pour 7 bactéries: bmv, cft, eco, mhd, sti, tos, zin. Voir la liste des protéines par bactéries au chapitre matériel et méthodes. Ces calculs sont nécessaires pour additionner A et T, d'une part, et G et C d'autre part; reprendre le compte de G+C en multipliant %GC du tableau numérique par l'ADN de la protéine et diviser le tout par 100; et enfin recalculer %GC, >4AT et >4GC. Le tableau de gauche donne l'exemple des calculs faits pour la bactérie bmv à partir du tableau numérique de ses protéines.
Le tableau de droite, récapitulation des calculs pour les 7 bactéries, est celui des diagrammes des protéines en fonction du contenu de l'ADN des protéines en GC, %GC p. Le %GC de la bactérie, %GC b, sert de rappel.
Extrait des tableaux numériques/protéines calculs | Tableau des protéines pour les diagrammes bmv bactérie | Aléas (équation) KEGG ADN %GC >4T >4A >4C >4G GC >4AT >4GC | %GC b KEGG ADN %GC p >4GC >4AT >4ATa >4GCa | lars 2,595 66.59 0 0 0 0 1,728 0 0 | 13.54 zin 26,208 13.31 1.53 309.83 170.0 0.0 iars 2,838 66.84 0 0 0 0 1,897 0 0 | 33.21 cft 31,560 34.79 0.32 102.98 49.9 2.8 carB 3,255 66.57 0 0 0 1 2,167 0 1 | 50.79 eco 38,310 54.54 2.61 20.62 9.3 21.9 secA 2,796 65.52 1 0 0 0 1,832 1 0 | 68.10 sti 30,300 66.34 6.60 2.31 2.4 53.9 rpoC 4,239 64.07 1 0 0 0 2,716 1 0 | 68.08 mhd 33,186 67.89 35.86 5.12 1.9 59.7 rpoB 4,107 63.06 0 0 0 0 2,590 0 0 | 68.55 tos 31,896 68.26 100.01 7.52 1.8 61.2 dnaE1 4,361 67.55 3 1 1 0 2,946 4 1 | 68.15 bmv 42,809 68.55 2.10 1.87 1.7 62.3 ftsK 2,469 67.68 0 0 1 0 1,671 0 1 | mfd 3,474 69.40 0 0 1 0 2,411 0 1 | lhr 4,797 74.96 0 0 1 0 3,596 0 1 | recB 3,813 73.04 0 1 0 2 2,785 1 2 | recC 4,065 73.92 1 0 1 1 3,005 1 2 | | totaux 42,809 29,344 8 9 | taux 68.55 1.87 2.10 | unités % %00 %00 |
Les diagrammes 4 et 5 des protéines, galerie 4, montrent clairement que les répétitions dans l'ADN ne sont que le reflet de la distribution des codons des protéines: les diagrammes ADN et protéines sont semblables. La conséquence de ce constat c'est que les 2 points de vue, ADN et protéines, sont équivalents. Si on regarde la forme des diagrammes du point de vue ADN, on dira que c'est lui qui détermine leurs formes, d'où ma théorie de la résonance de l'ADN. Si on regarde la forme des diagrammes du point de vue des protéines, on dira que ce sont elles qui déterminent leurs formes dans le cadre de la sélection naturelle. Nous détaillerons plus amplement cette question dans le chapitre "La résonance dans l'ADN".
Les répétitions dans les protéines − 3.4.3.4.2
modifier- Chez les 5 bactéries, eco bmv sti mhd tos, les répétitions des protéines ne dépassent pas une longueur de 8 comme pour 80% des génomes étudiés au chapitre autre-bactéries, malgré la petitesse des gènes. Sur leurs 63 protéines voici la fréquence des maxima atteints:
maximum atteint 4 5 6 7 8 total fréquence 4 16 19 16 8 63
- La bactérie zin: Malgré la petitesse de leurs gènes, ses protéines affichent des longueurs de répétitions très élevées de 14 jusqu'à 17, presque toutes en A. Ces répétitions posent le problème du nombre maximum possible de conformations qu'une protéine peut adopter tout en gardant la même fonction enzymatique. Les répétitions de l'adénine A, jusqu'à 6 lysines côte à côte, posent aussi le problème des propriétés de cet acide aminé. Avec sa charge positive, il doit être très réactif et hydrophile, il peut s'exposer à l'extérieur de la protéine au contact de l'eau. Mais par ailleurs avec sa longue chaîne aliphatique, il peut rester à l'intérieur de la protéine avec une charge neutre et interagir avec le substrat.
Le tableau à gauche ci-dessous donne le nombre de protéines ayant une longueur maximale de répétitions. Le tableau de droite donne le maximum de la liste continue des répétitions, de 1 jusqu'à 13 répétitions par exemple, et la répétition extra en discontinuité avec la liste. Seule la protéine nuoL présente une liste continue de répétitions jusqu'à 13 de la base T, sa répétition extra étant en A.
longueur maximale nombre de protéines gène max extra aas de répétitions sur 10 étudiées 12 1 iars 13 A 17 A 930 13 4 rpoC 13 A 16 A 782 14 1 gyrB 10 A 16 A 818 15 1 nuoL 13 T 15 A 641 16 2 lars 13 A 14 A 808 17 1
Les codons de la bactérie tos − 3.4.3.4.3
modifierProgramme perl des Compilations des codons. Résultats des compilations des codons
- Le tableau de mise en forme des codons. Codons des bactéries à 68% GC: tos, mhd, sti, bmv (eco à 51% GC). >4GC et >4AT en "pour 10 000" bases des gènes; les codons en "pour 10 000" acides aminés sur un total de 10 à 14 protéines.
- Tableau des rapports xxc/xxg pour les codons des aas à 4 ou 6 codons, L V S P T A R G (exemple: ggc/ggg). Ce tableau est construit à partir du tableau précédent de mise en forme des codons.Les rapports xxc/xxg décroissent systématiquement de tos à bmv, pour S P T A et croissent de même pour V R G. Ils restent constants pour L. Ce sont les doublets ou triplets qui paraissent jouer un rôle dans ces progressions.
aa c/g tos mhd sti bmv L ct 1.0 1.0 0.6 1.0 V gt 0.4 0.5 1.0 0.9 S tc 8.9 2.1 1.5 0.5 P cc 5.3 1.3 0.4 0.3 T ac 3.9 1.9 1.3 0.4 A gc 3.0 0.9 1.1 0.3 R cg 0.7 1.6 1.5 3.5 G gg 0.8 1.0 2.2 10.2
- Le codon agg: ce codon est anormalement élevé pour la bactérie tos. Il est 10 fois plus élevé que les 4 autres bactéries. En plus il va dans le même sens que le codon ggg qu'on vient de voir. Les études des corrélations entre codons dans les gènes de protéines montrent que la fréquence de ce codon est très faible: article "corrélation entre les codons dans les gènes de protéines" en préparation. Il est à peu près, pour 80% des bactéries, de 1 pour mille codons.
Note sur les protéines − 3.4.3.4.4
modifierLe changement général des codons majeurs et du codon agg dans la bactérie tos peut être expliqué
- soit par l'évolution des tRNAs
- soit par le processus d'épissage qui existe chez certaines bactéries: [8] groupe II intron 2013. [9] Mobile genetic elements 2015. [10] groupe I intron 2014. [11] ban groupe I intron. [12] ctet groupe II intron.
- soit alors par la résonance de l'ADN qui s'adapte aux conditions extrêmes du milieu des thermophiles dont fait partie tos. Cette résonance est la résultante en fait de l'interaction du couple "ADN et ses protéines" avec l'environnement proche qu'on peut définir comme le cytoplasme et la membrane, eux-mêmes en interaction avec le milieu extérieur.
- La réponse de l'ADN-protéines, par la résonance de l'ADN, peut être étendue à tout état de son environnement proche et non aux états extrêmes seulement.
- Si maintenant on se place aux premières étapes de l'évolution moléculaire à l'origine de la vie (PEEMOV), avec des monomères d'ADN et des acides aminés tous les 2 libres mais regroupés par l'organisation du liposome due aux forces non covalentes, alors la résonance de l'ADN peut se manifester, même faiblement, et participer à une organisation de plus en plus poussée.
Les rRNAs − 3.4.3.5
modifier 1er et 2ème diagrammes dans Galerie 4
Tableaux numériques
Répétitions Résultats
- Voir le chapitre Analyse des résultats pour les méthodes d'analyses et les légendes.
Diagrammes des rRNAs − 3.4.3.5.1
modifier- Tableau pour les diagrammes
Répétitions dans les rRNAs de 35 autre-bactéries Aléas équation Aléas équation KEGG Long %GC b >4GC >4AT >4ATa >4GCa KEGG Long %GC b >4GC >4AT >4ATa >4GCa zin 2,888 13.54 10.39 76.18 168.1 0.0 eco 2,904 50.79 27.55 13.77 13.5 15.6 crp 2,827 16.56 3.54 99.04 145.0 0.0 cgq 3,080 54.15 9.74 12.99 9.7 21.2 wbr 2,922 22.48 13.69 37.65 106.4 0.0 kpn 2,904 57.48 27.55 10.33 6.8 28.0 mcac 2,908 23.66 10.32 13.76 99.7 0.1 pgd 2,824 59.62 17.71 7.08 5.3 33.1 smv 2,879 24.00 3.47 45.15 97.8 0.2 bla 3,065 60.49 52.20 6.53 4.8 35.4 uur 2,903 25.50 13.78 6.89 89.8 0.5 mrb 2,893 63.38 17.28 3.46 3.4 43.9 ple 2,869 26.17 6.97 27.88 86.3 0.7 tai 2,972 63.79 23.55 3.36 3.2 45.2 fnc 2,906 27.12 20.65 6.88 81.6 0.9 roa 3,132 67.37 28.74 3.19 2.1 57.7 cbl 2,902 28.31 3.45 20.68 76.0 1.1 mhd 2,917 68.08 34.28 3.43 1.9 60.5 rpr 2,761 29.00 10.87 28.98 72.8 1.3 tra 2,950 68.14 16.95 0.00 1.8 60.7 cje 2,890 30.55 13.84 10.38 66.1 1.6 bmv 2,882 68.15 27.76 3.47 1.8 60.7 ser 2,922 32.15 13.69 6.84 59.6 2.0 tos 2,877 68.55 41.71 6.95 1.7 62.4 lla 2,901 35.33 10.34 6.89 48.1 3.0 tth 2,893 69.44 69.13 6.91 1.5 66.0 spi 2,903 38.32 13.78 3.44 38.8 4.2 sma 3,124 70.72 22.41 6.40 1.2 71.5 cta 2,869 41.30 17.43 13.94 30.9 5.9 sbh 2,525 70.75 15.84 3.96 1.2 71.7 bsu 2,928 43.51 10.25 3.42 25.9 7.6 sall 3,909 72.13 25.58 7.67 0.9 78.0 sbn 2,903 46.28 24.11 10.33 20.4 10.1 sgr 3,129 72.23 22.37 6.39 0.9 78.5 ade 2,985 74.91 10.05 6.70 0.4 91.9 %GC b, contenu en GC du génome Long, longueur du rRNA
- Bien que la courbe de tendance ait un coefficient de régression élevé, 21 points sur 35 forment une bande constante de 25 à 75 %GC, comprise entre 0.0 %00 (tra) et 7.7 %00 (sall) de >4AT, comme si il n'y avait pas progression avec le %GC. De 57 à 30 %GC 7 points amorcent une croissance entre 10 et 14 %00 de >4AT. En dessous de 30 %GC 7 points se décrochent brusquement pour passer de 20 %00 (cbl) à 100 %00 (crp).
- L'équation est de la même forme que pour les 192 autre-bactéries, mais apparemment à partir de 30 % de GC il n'y a pas régression et la courbe jusqu'à 30 %GC, est en dessous de la courbe des aléas contrairement au diagramme des 192 autre-bactéries.
- À partir de 30 %GC les rRNAs des bactéries ont un faible taux de répétition des bases A ou T. Ce qui les différencie du génome et des protéines.
- −. Là encore la courbe de tendance est plutôt de la forme de celle des 192 autre-bactéries avec une fonction puissance au coefficient de régression de 0.45 (0.73 pour les génomes) supérieur à celui du polynôme du 3ème degré qui fait seulement 0.38 (0.33 pour les génomes). Alors que le diagramme des >4AT est complètement en dessous de la courbe des aléas, contrairement aux génomes, le diagramme des >4GC a 2 parties bien distinctes:
- Une partie qui va jusqu'à 50 %GC avec 18 points qui sont largement tous au-dessus de la courbe de l'aléa, contrairement aux génomes. Les 4 points à valeurs faibles s'expliquent par un %GC très faible, mais les 14 autres points ont des valeurs fortes, tous au-dessus de 10 %00 jusqu'à 28 %00 à 51 %GC (eco). Dans cette partie les génomes restent pour la majorité en dessous de la courbe des aléas et ne dépassent pas les 10 %00, même à 50 %GC. Et contrairement à la courbe des >4AT cette partie amorce une croissance franche avec une droite ( courbe de tendance pour l'ensemble des points) de pente 0.4 et un R2 de 0.34.
- L'autre partie, au-delà de 50 %GC, ressemble énormément à celle des génomes avec un étagement des valeurs des plus faibles aux valeurs les plus fortes. Une partie des points se trouve en dessous de la courbe des aléas et l'autre au-dessus comme pour les génomes. Voici ci-dessous le tableau de correspondance entre les taux en >4GC des génomes et de leur rRNA 23S.
Autre-bactéries Taux >4GC (en %00 pbs) dans les rRNA 23S de 60 à 75 %GC du génome %GCb KEGG rRNA DNA %GCb KEGG rRNA DNA %GCb KEGG rRNA DNA 54.15 cgq 9.74 7.81 57.48 kpn 27.55 9.41 60.49 bla 52.20 7.94 59.62 pgd 17.71 14.95 63.79 tai 23.55 82.29 68.08 mhd 34.28 51.08 63.38 mrb 17.28 48.09 67.37 roa 28.74 14.36 68.55 tos 41.71 116.27 68.14 tra 16.95 47.06 68.15 bmv 27.76 5.25 69.44 tth 69.13 95.48 70.75 sbh 15.84 25.40 70.72 sma 22.41 23.65 74.91 ade 10.05 16.35 72.13 sall 25.58 27.12 72.23 sgr 22.37 30.32
- cgq appartient au groupe 7 des taux de >4GC défini dans les génomes voir chapitre 3.4.3.1.3, il est loin de la tranche 60-75 %GC où se produit l'étagement et reste dans le groupe 7. kpn proche de 60 %GC subit une transformation avec le rRNA et saute le groupe 14 pour passer au groupe 25. Certains se maintiennent dans leur groupe (pgd, ade, sma, sall, sgr) ou tout en restant dans leur groupe s'affaiblissent (mhd, tos, tth). bla passe du groupe 7 au groupe 68 directement, bmv lui, passe de 7 à 25. tai descend de 68 à 25, mrb et tra de 68 à 14. Aucun rRNA ne descend au groupe 2 ou 7. Ce qui souligne l'importance de la force de l'appariement de la paire GC pour les rRNAs.
- −. Le comportement des rRNAs analogue à celui des génomes dans le diagramme >4GC montre que les codons des acides aminés ne peuvent pas, à eux seuls, être responsables de ce comportement. Aussi la théorie de la résonance de l'ADN, que j'ai signalée dans la note sur les protéines précédemment, semble plus adéquate et peut être généralisée aux protéines et aux rRNAs.
- Diagrammes en >3AT et >3GC ont été construits en ajoutant les répétitions 4 aux diagrammes >4AT et >4GC (Galerie 4 diagrammes 5 et 6). Voir le tableau des diagrammes >3AT et >3GC. Ces diagrammes reproduisent les résultats des diagrammes >4AT et >4GC. Cependant les valeurs faibles de >4AT disparaissent et le coefficient de régression des >3GC passe à 0.71 au lieu de 0.45 pour les >4GC. La courbe des aléas intègre aussi les 4AT et 4GC et a été faite avec des DNA fictifs de 300 000 pbs.
- La comparaison des 2 diagrammes des rRNAs, >4AT et >4GC, nous enseigne sur 3 points très importants concernant le comportement des protéines (80% du génome bactérien) et des rRNAs:
- −.Les rRNAs comme les protéines peuvent subir fortement la contrainte des processus qui modifient le contenu en GC et donc la distribution des répétitions.
génome protéine rRNA %00 >4AT >4GC | >4AT >4GC | >4AT >4GC crp 283 0.3 | − − | 99 3.6 zin 295 0.8 | 310 1.5 | 76 10.4 tth 4.4 95 | − − | 6.9 69 tos 6.9 116 | 7.5 100 | 7.0 42 bmv 5.6 5.2 | 1.9 2.1 | 3.5 28
- −. Malgré cette forte contrainte les rRNAs, ayant une gamme de fonctions très restreinte par rapport à celle des protéines, ont un taux de répétitions >4AT qui varie très peu entre 30 et 70 %GC pour la majorité des cas.
- −. Le taux de répétition, dans les rRNAs, des >4GC ( de 10 à 30 %00) est 2 fois plus élevé que celui des >4AT (de 0 à 8 %00) entre 25 et 75 %GC. Ceci dénote de l'importance de la force de l'appariement GC par rapport à celle de AT, force nécessaire à la pérennité et à la fonction des rRNAs. Cet appariement, d'après les diagrammes 1 et 2 est d'autant plus fort qu'il y a des répétitions de plus en plus longues de G ou C.
- Le contenu en GC des rRNAs. Galerie 4, 3ème diagramme.
Cette force de l'appariement en GC, nécessaire au fonctionnement des rRNAs et en dehors de la répétition des bases G ou C, se voit clairement dans le diagramme du %GC des rRNAs en fonction du %GC des génomes. Le %GC des rRNAs augmente faiblement avec le %GC des génomes, pente de 0.30. Mais le %GC des génomes peut descendre presque à 10%, alors que celui des rRNAs ne descend pas en dessous de 40%. Le maximum du %GC des rRNAs, 60%, reste plus proche cependant de celui des génomes, 75%. La constance du %GC chez les rRNAs, 40-60 %GC, atteste de cette force plus que les répétitions de G ou C.
J'ai adjoint pour comparaison le %GC des tRNAs de 3 bactéries, crp, cbl, ade. Les tRNAs se comporteraient de la même façon que les rRNAs.
Répétitions des rRNAs − 3.4.3.5.2
modifier- Distribution des répétitions des rRNAs Répétitions
- −. Comme pour les protéines, 32 des 35 rRNAs étudiés ont des répétitions dont le maximum ne dépasse pas 8. Voici la fréquence des maxima atteints:
maximum atteint 5 6 7 8 9 10 total fréquence 5 22 3 2 2 1 35
Deux constatations importantes par rapport aux protéines étudiées au chapitre précédent, rRNAs et protéines ayant tous des longueurs en paires de bases, équivalentes autour de 3000.
- Le maximum de 6 atteint chez les rRNAs dépasse 60% en fréquence, alors que les 73 protéines autres que celles de zin, ce maximum ne fait que 30% en fréquence. Ceci dénote encore la fonctionnalité restreinte des rRNAs.
- Seulement 5 rRNAs ont des répétitions extra, c'est-à-dire en rupture avec la liste des maxima. Soit respectivement extra, base extra et fin de liste: bla (8, C, 6), smv (9, A, 7), crp (10, T, 6), mcac (8, A, 6), zin (9, A, 7). smv et crp ont respectivement 24 %GC et 17 %GC. crp est l'équivalent de zin (14 %GC) pour les protéines. Pourtant crp n'a qu'une seule répétition de 10 alors que zin sur 10 protéines une seule a un extra de 16 avec fin de liste de 10, toutes les autres ont des extras avec des fins de listes supérieures à 10. Ce qui confirme la fonction spécifique des rRNAs dans toutes les bactéries.
Les tRNAs par acide aminé − 3.4.3.6
modifier- Sont reportés ici les aas à un seul tRNA pour ceux qui sont codés par 4 ou 6 codons, soit 8 aas: colonne tRNA/8. La colonne tRNA affiche le nombre total de tRNA par bactérie. D'après gtRNAdb [13].
- 41 bactéries sur les 192 autre-bactéries ont 1 à 5 aas avec un seul tRNA pour traduire 4 ou 6 codons. Et cela ne fait intervenir ni le contenu en GC (%GC), ni le nombre de protéines codées par le génome, ni le nombre de tRNAs par génome. Cela ne se comprend que s'il y a perte d'une ou plusieurs protéines de la chaîne de fabrication du tRNA perdu. Contrairement à l'hypothèse du codon avantagé par le processus du "codon bias", ici c'est le tRNA qui est sélectionné pour pouvoir traduire les 4 ou 6 codons à la fois. Tous les codons doivent être traduits impérativement. C'est une contrainte majeure. Ainsi:
- zin [14] (14%GC, 206 protéines, 25 tRNAs ) a 5 aas ayant 1 seul tRNA. Alors que men [15] (43%GC, 406 protéines, 41 tRNAs ) n'en a aucun. Tous les 2 sont des symbiotes.
- ror [16] (55.9%GC, 4409 protéines, 79 tRNAs ) a un seul aa, Pro, avec 1 seul tRNA. Et cdf [17] (29%GC, 3767 protéines, 88 tRNAs ) a 4 aas ayant 1 seul tRNA. Tous les 2 sont hétérotrophes, ror aérobie et cdf anaérobie.
- spi [18] (38%GC, 1979 protéines, 63 tRNAs ) a 3 aas ayant 1 seul tRNA. Et ral [19] (44%GC, 3872 protéines, 75 tRNAs ) a 2 aas ayant 1 seul tRNA.
- Un seul cas, zin où Leu, à 6 codons, n'a qu'un seul tRNA. Et un seul cas pour la Gly, mcac [20] (24%GC, 670 protéines, 30 tRNAs ). Les aas les plus touchés sont, dans l'ordre décroissant, PAVT.
aa L S R A G P T V total cas 1 0 0 24 1 34 9 21 90 tRNA/8 0 1 2 3 4 5 6 7 bactéries 151 19 6 7 7 2 0 0 192
Les cyanobactéries − 3.4.4
modifier3ème et 4ème diagrammes dans Galerie 1 Tableaux numériques Répétitions
Les diagrammes des cyanos − 3.4.4.1
modifierVoir le Tableau des diagrammes des cyanobactéries et le Tableau des diagrammes des autres bactéries
Diagrammes des répétitions − 3.4.4.1.1
modifierPour savoir plus sur la méthode d'analyse se référer aux chapitres 3.4.1 et 2 et sur le détail des diagrammes 3.4.3.1. Si le diagramme des >4AT est semblable à celui des autre-bactéries, celui de >4GC change complètement et subira une analyse plus approfondie.
- Diagramme >4AT
Galerie 1, 3ème diagramme.
- −. Comme pour les bactéries tous les points sont au-dessus de l'aléa. Le coefficient de régression est quasi identique, R2 = 0.93, et la courbe de tendance, un polynôme du 3ème degré. Il n'y a aucune valeur relative négative par rapport à l'aléa.
- Diagramme >4GC
Galerie 1, 4ème diagramme.
- −. La courbe de tendance des cyanobactéries diffère de celle des autre-bactéries. Alors qu'avec les autre-bactéries elle a pour équation plutôt une "fonction puissance" avec un R2 de 0.73 au lieu d'un polynôme du 3ème degré avec un R2 de 0.33 (voir 3.4.3), celle des cyanobactéries diffère peu de l'équation de l'aléa avec un polynôme du 3ème degré avec un R2 de 0.58, sa "fonction puissance" donnant un R2 de 0.61.
Les diagrammes des écarts des répétitions, relatifs à l'aléa− 3.4.4.1.2
modifier Galerie 9, diagrammes 3 et 4. Tableau des 2 diagrammes des écarts. Les Groupes 22c, 67c1, 67c2 des écarts relatifs à l'aléa des cyanobactéries.
Voir le chapitre 3.4.3.1.2 pour les groupes définis par les écarts relatifs chez les autre-bactéries, ainsi que les diagrammes 1 et 2 de la galerie 9 , et le Tableau des 2 diagrammes des écarts des autre-bactéries pour les comparaisons.
Nous avions défini 5 groupes pour les écarts relatifs chez les autre-bactéries qui sont:
Groupe 22,
Groupe 23,
Groupe 33,
Groupe 41 et
Groupe 67.
Nous allons travailler sur les mêmes étendues du contenu en GC (%GC) pour définir des groupes semblables à ceux des autre-bactéries. Les groupes des cyanobactéries seront suffixés par c (pour cyanobactérie) ou c1, c2, si le groupe vient à être divisé en sous-groupes.
- Le groupe 22c, jusqu'à 43 %GC et au-dessus de l'aléa, contient 26 cyanobactéries: ana, anb1, awa, calo, can, ceo, cep, csg, cyh, cytc, cyu, dsl, fis, gen, hao, mar, naz, non, pma, pmb, pmg, pmh, pmm, riv, synp, ter.
- Le groupe 23c,en dessous de l'aléa, ne contient qu'une seule cyanobactérie, scs.
- Le groupe 67, de 43 à 60 %GC, sous l'aléa, se subdivise en
- groupe 67c1 au-dessus de l'aléa avec 9 cyanobactéries: oni, cthe, mic, amr, tel, syp, oac, syq, syn.
- groupe 67c2 en dessous de l'aléa avec 10 cyanobactéries: syf, len, syc, glp, synd, pmt, lep, gei, plp, ccmp.
- Le groupe 41c, en dessous de l'aléa, contient 2 cyanobactéries: gvi, cgc et cya.
- Le groupe 22c des cyanobactéries s'étend de 31 à 43 %GC, alors que le groupe 22 équivalent des autre-batéries commence dès 15 %GC en tenant compte des 6 bactéries à faible contenu en GC qui ont un écart relatif très élevé. De 15 à 31 %GC le groupe 22 contient les écarts les plus élevés au nombre de 12 sur 18, alors que les 10 bactéries restantes de 31 à 43 %GC ne contiennent que 2 écarts élevés, 98 (amt) et 164 (tme). Le groupe 22c, lui, se comporte comme la 1ère partie du groupe 22, avec 12 écarts élevés sur 26. Par ailleurs le groupe 23 s'étend presque comme le groupe 22c, entre 29 et 43 %GC. Comme le groupe 23c a presque disparu, on a l'impression que le 23 s'est transformé en 22c. Mais on peut voir aussi cette différence entre cyano et autre-bactéries comme un glissement des groupes 22 et 23 vers des contenus en GC plus élevés, ce qui donne alors 22c et 67c2 respectivement. 67c1 et 67c2 deviennent alors symétriques par rapport à l'aléa comme le sont 22 et 23.
- Les 2 groupes 67c1 et 67c2 sont effectivement symétriques par rapport à l'aléa et se comportent aussi comme eux pour la simultanéité des changements des taux >4AT et >4GC (voir le résumé des groupes des autre-batéries au chapitre 3.4.3.1.2). Le tableau qui suit résume les changements dans les 3 groupes majeurs des cyanobactéries.
Groupe 67c1 n=9 Groupe 67c2 n=10 %GC >4GC >4AT DNA %GC >4GC >4AT DNA moyen. 48 22 44 5,355,988 moyen. 50 10 30 4,312,933 ecartt 3 10 10 2,126,339 ecartt 6 6 15 1,563,339 % 6 45 23 40 % 12 56 48 36 Groupe 22c n=26 Groupe41c n=3 %GC >4GC >4AT DNA %GC >4GC >4AT DNA moyen. 37 8 75 4,529,192 moyen. 64 35 14 3,644,716 ecartt 4 5 25 2,083,497 ecartt 4 11 10 901,970 % 11 59 33 46 % 7 30 74 25
- Nous voyons bien que le taux >4GC double de 67c2 à 67c1 et le taux >4AT augmente de 50%. A comparer au tableau des autre-bactéries
Les répétitions des cyanos − 3.4.4.2
modifier- Sur les 49 cyanos il n'y a pas eu de répétitions dépassant 20.
- Il n'y a de génomes courts comme pour les autres bactéries. Le plus petit est cyu avec 1.4 Mpbs, suivi de 5 génomes appartenant au genre Prochlorococcus (pma b g h m) avec des génomes très regroupés environ 1.7 Mpbs. 5 de ces génomes ont un %GC de 31 et 1 de 36.
- Les groupes:
- −. 42 génomes ont une taille qui progresse de façon homogène de 2.4 à 7.7 Mpbs. 1 seul génome se rapproche des 10 Mpbs comme les plus gros des autres bactéries, riv avec 8.7 Mpbs. Le contenu en GC de ces 43 cyanos est compris entre 33 et 69 %GC.
- −. Les critères de groupages sont identiques à ceux définis pour les 90% des autres bactéries. Voir le chapitre 3.4.3.2.2. Un des critères est basé sur les répétitions maximales dont voici les fréquences:
Répétition maximale: 9 10 11 12 13 14 15 16 17 total Nombre de bactéries: 3 17 9 3 7 4 2 3 1 49
- 32 cyanobactéries à répétition <= 11
amr dsl pma Moyenne 11 0.9 Moyenne 14-20 1.8 ana fis riv Bactéries total Bactéries total anb1 gei scs 32 30 4 7 awa glp syc calo gvi syf Maxima ceo hao syn Bactérie max cmp lep synd cthe 15 C cthe len syp cya 14 G cya non syq oni 14 T cyh oac tel synd 16 CG cyu oni
- 17 cyanobactéries à répétition => 11
can pmh Moyenne 11-13 5.7 Moyenne 14-20 1.7 cep pmm Bactéries total Bactéries total cgc pmt 17 97 6 9 csg pmb Maxima cytc synp Bactérie max gen ter cgc 15 G mar mar 14 G mic pmg 15 A naz pmm 16 G plp pmt 17 G pmg pmb 16 A
- Échantillons de répétitions
- 32 cyanobactéries à répétition <= 11 cyu tel synd
cyu %GC %Gc al −−−− aléa −−−− tel %GC %Gc al −−−− aléa −−−− synd %GC %Gc al −−−− aléa −−−− 31.12 31.08 32/103 1443806 53.92 53.94 54/100 2593857 59.09 58.98 59/100 2572069 n at gc at gc n at gc at gc n at gc at gc 1 381240 302778 427299 319527 1 616880 684484 707975 746467 1 619075 761558 666928 754195 2 147339 57664 146675 49936 2 171740 208971 163001 201732 2 150180 254700 136269 222116 3 51788 7759 50876 7759 3 47582 57219 37721 54242 3 29132 55407 28296 65966 4 20983 1604 17459 1204 4 14153 18949 8551 14537 4 7135 14330 5701 19247 5 8855 262 6142 189 5 5112 6745 1939 3827 5 2178 3717 1206 5631 6 3755 25 2140 33 6 1322 1820 439 1058 6 701 861 244 1700 7 1232 1 756 7 7 239 460 91 292 7 207 164 38 509 8 398 0 244 0 8 48 90 28 72 8 40 26 9 148 9 77 0 85 0 9 4 10 5 30 9 11 3 1 57 10 2 0 26 0 10 0 0 3 7 10 2 1 0 7 11 0 0 14 0 11 0 0 0 0 11 0 1 0 2 12 0 0 3 0 12 0 0 0 0 12 0 0 0 2 13 0 0 0 0 13 0 0 0 0 13 0 0 0 2 14 0 0 0 0 14 0 0 0 0 14 0 2 0 0 15 0 0 0 0 15 0 0 0 0 15 0 0 0 0 16 0 0 0 0 16 0 0 0 0 16 0 2 0 0
- 17 cyanobactéries à répétition => 11 pmm mar cgc
pmm %GC %Gc al −−−− aléa −−−− mar %GC %Gc al −−−− aléa −−−− cgc %GC %Gc al −−−− aléa −−−− 30.80 30.67 31/101 1657990 42.33 42.44 42/99 5842795 68.71 68.63 70/102 2296444 n at gc at gc n at gc at gc n at gc at gc 1 405703 327423 491229 364256 1 1407318 1352467 1706556 1538278 1 762278 939576 512180 680646 2 167880 68983 169888 55881 2 488424 336613 491260 326815 2 114880 424491 80060 233430 3 65500 11128 59117 8565 3 164811 90404 141474 69125 3 13670 101866 12684 80110 4 25298 2249 20538 1355 4 66767 28703 40214 14743 4 2302 30614 2056 27463 5 11619 431 7007 217 5 28249 7921 11782 3168 5 487 11139 304 9438 6 4785 91 2416 31 6 9546 2938 3312 680 6 133 3075 40 3162 7 1833 15 842 6 7 2739 408 988 142 7 42 600 7 1060 8 761 7 271 0 8 646 131 285 28 8 16 136 0 400 9 226 0 98 0 9 98 30 76 6 9 1 22 1 100 10 34 0 40 0 10 8 11 24 0 10 0 9 0 37 11 7 0 7 0 11 0 4 5 0 11 0 4 0 19 12 0 0 7 0 12 1 0 1 1 12 0 2 0 4 13 1 0 0 0 13 0 0 1 0 13 0 0 0 3 14 0 0 0 0 14 0 1 0 0 14 0 2 0 1 15 0 0 0 0 15 0 0 0 0 15 0 1 0 0 16 0 1 0 0 16 0 0 0 0 16 0 0 0 0
Les protéines des cyanos − 3.4.4.3
modifier1er et 2ème diagrammes dans Galerie 5 Tableaux numériques Répétitions
Les diagrammes − 3.4.4.3.1
modifiervoir chapitre 3.4.3.4.1 pour la conception du tableau des protéines pour les diagrammes.
Tableau des protéines pour les diagrammes Aléas équation %GC b KEGG ADN %GC p >4AT >4GC >4ATa >4GCa 34.96 can 36,384 37.38 76.1 9.1 41.6 3.8 68.71 cgc 34,755 69.82 0.3 42.3 1.4 67.6 60.24 cya 30,792 61.34 17.2 31.2 4.4 37.8 42.33 mar 30,963 45.26 52.3 18.1 22.3 9.1 30.80 pmm 31,614 31.70 86.7 2.5 61.4 1.9 47.72 syn 31,305 48.65 47.6 27.5 16.5 12.8 53.92 tel 30,993 55.10 25.2 36.5 8.7 23.0
- Comme les protéines constituent plus de 80% du génomes des bactéries, les diagrammes des protéines reproduisent les diagrammes des génomes des cyanobactéries. Les cyanobactéries sont choisies d'après le diagramme >4GC des cyanobactéries. Une cyanobactérie pmm à %GC faible de 30% et positionnée sur la courbe de l'aléa, 4 cyanobactéries can mar syn tel de %GC entre 30 et 60% se positionnant nettement au-dessus de la courbe de l'aléa et enfin 2 cyanobactéries cya cgc semblables à la bactérie mhd avec un >4GC autour de 40 %00, un %GC supérieur à 55% et se positionnant sur ou en dessous de la courbe de l'aléa. Ce choix a été fait dans le but d'étudier la distribution des codons de leurs protéines comme pour les autre-bactéries.
Comparaison entre protéines, cyanobactéries / autre-bactéries − 3.4.4.3.2
modifier- Pour les codons de Ser, Pro, Thr, Ala, Trp, Arg et Gly contenant les doublets cc et gg.
- Programme perl pour les Compilations des codons.
- voir les tableaux numériques pour la conception du tableau de comparaison.
- Cyanobactéries protéines: Répétitions, codons
- Autre-bactéries protéines: Répétitions, codons, Tableau Autre-bactéries
- Autre-bactéries protéines, complément: Répétitions, codons
- Tableau des rapports c/g
Autre-bactéries Cyanobactéries Bacterie tos mhd sti bmv eco cft cgc cya tel syn mar can pmm #GC % 86 -16 -72 -91 -65 -49 -29 7 70 173 194 322 96 %GC b 68.6 68.1 68.1 68.1 50.8 33.2 68.7 60.2 53.9 47.7 42.3 35.0 30.8 >4GC 100.0 35.9 6.6 2.1 2.6 0.3 42.3 31.2 36.5 27.5 18.1 9.1 2.5 >4AT 7.5 5.1 2.3 1.9 20.6 103.0 0.3 17.2 25.2 47.6 52.3 76.1 86.7 Pro 612 578 561 512 486 307 581 557 513 470 458 417 363 c/g 5.3 1.3 0.4 0.3 0.2 0.1 1.4 1.3 3.2 2.8 2.3 3.6 1.6 Gly 781 785 752 764 621 599 810 703 678 688 672 613 597 g/c 1.3 1.0 0.5 0.1 0.4 0.3 0.3 0.6 0.7 0.8 0.9 1.4 0.9 Thr 393 436 542 440 481 430 494 488 540 555 532 551 466 c/g 3.9 1.9 1.3 0.4 1.9 0.9 4.2 3.1 2.4 3.2 3.1 3.4 2.2 Ala 975 1059 977 1344 931 647 1210 904 891 742 723 638 482 c/g 3.0 0.9 1.1 0.3 0.6 1.4 3.6 3.3 2.9 2.3 2.2 1.3 1.0 Ser 321 363 430 427 542 646 448 474 461 497 551 588 702 tcc/gc* 1.5 0.5 0.3 0.1 0.4 0.1 0.6 0.7 0.7 1.7 0.9 0.8 0.9 Arg 863 871 847 856 751 426 776 705 663 563 569 493 464 gg*/cgc 1.4 0.6 0.7 0.3 0.3 1.2 0.8 0.7 0.6 1.4 0.7 1.0 47.5 0.8-1.2~1 0 2 1 0 0 2 1 0 0 1 2 2 3 −. Pro: somme de tous les codons de Pro −. c/g ou g/c: xcc/xcg ou xgg/xcg −.gg*: cgg+agg−. gc*: tcg+agc −. %GC b: %GC bactérie −. #GC % : >4GC − >4GCa, génome − aléa −. 0.8-1.2~1: nombre de rapports proches de 1
- Notes −. Pro: somme de tous les codons de Pro. −. c/g ou g/c: xcc/xcg ou xgg/xgc. −. gc*: tcg+agc. −.gg*: cgg+agg. %GC b: %GC bactérie.
Ce sont les triplets ccc et ggg qui sont à l'origine des répétitions >4GC. Les codons ayant un doublet cc ou gg participent aussi à ces répétitions. Ainsi ce sont les colonnes 2 et 4 du code génétique qui sont étudiées pour les rapports: tcc/(tcg+agc) ccc/ccg acc/acg gcc/gcg (cgg+agg)/cgc ggg/ggc. #GC % représente la différence de >4GC du génome avec l'aléa ramenée en % de l'aléa. La ligne "0.8-1.2~1" affiche le nombre de rapports, parmi les 6 du tableau, qui sont proches de l'unité.
- Tableau des effectifs (%00 acides aminés) des codons
- Légende: Comparaison entre des codons de protéines de cyanobactéries et d'autre-bactéries à fortes répétitions de bases G ou C. Je considère ici la somme de plus de 4 répétitions de G et C (>4GC). De même est représenté >4AT pour les bases A et T. Le %GC b, représente le contenu en GC du génome. #GC % représente la différence de >4GC du génome avec l'aléa ramenée en % de l'aléa. ccx et ggx représentent respectivement la somme des codons Pro sauf ccc et la somme des codons Gly sauf ggg.
- Méthode de comparaison:
- −. Les groupes
J'ai regroupé les bactéries en 4 groupes pour tenir compte du contenu en GC et du taux de répétition des bases GC. Chaque groupe contient des cyanobactéries et d'autre-bactéries. Les sous-groupes de cyanobactéries sont suffixés par a. Je n'ai pas mis la bactérie zin qui a un contenu en GC très faible qui rend les rapports c/g peu significatifs et les effectifs non comparables.
- Le groupe I, en jaune. Les cyanobactéries Ia ont un taux de répétition élevé, comme la bactérie tos (groupe I), qui les positionne au-dessus de l'aléa avec un contenu en GC élevé (plus de 42 %GC) ou très élevé ( tos avec 69 %GC).
- Le groupe II, en orange. Contenu en GC très élevé, autour de 68%, un taux de répétition des GC moyen qui les positionne proche de l'aléa, soit en dessous (mhd, cgc) soit presque sur lui (cya).
- Le groupe III, en gris. Il n'y en a pas pour les cyanobactéries. C'est la 1ère étude qui a révélé la bactérie tos par comparaison. Ses 2 bactéries se distinguent par un contenu en GC très élevé (68 %GC) mais avec un taux de répétition des GC très bas, et même parmi les plus bas (bmv) avec ce contenu en GC. Ce groupe représente en fait la majorité des bactéries des diagrammes autre-bactéries en ce qui concerne le taux de répétition.
- Le groupe IV: La bactérie eco, positionnée en dessous de l'aléa, sert de référence pour l'ensemble de l'étude mais spécialement pour les cyanobactéries Ia, parce que ces dernières ont un contenu en GC moyen de 48% ± 6% équivalent au sien, 51 %GC. C'est pour ça que je l'ai mise en jaune.
- Le groupe V, en cyan. Son contenu en GC est très bas, 31 %GC pour pmm. La bactérie cft a un taux de répétition bas qui la positionne sous l'aléa, mais très courant pour les autre-bactéries avec un tel contenu en GC ( groupes 22 et 23). Le groupe Va de cyanobactéries se caractérise par son taux de répétition élevé en GC en tenant compte de son contenu en GC, ce qui positionne can nettement au-dessus de l'aléa et pmm à peine au-dessus.
- −. Les 2 tableaux
- Le tableau des rapports c/g: c et g sont les 3èmes bases des codons qui varient avec le contenu en GC, alors que les 3èmes bases a et t varient inversement avec le contenu en GC. J'ai inversé ce rapport c/g de la 2ème colonne, en g/c pour la 4ème colonne. Ceci pour mettre en valeur les impacts de g et de c sur le taux de répétition, impacts qui peuvent être concomitants ou séparés. Deux codons, agc (Ser) et agg (Arg), se trouvent en compétition avec 2 autres codons chacun parce qu'ils appartiennent au même acide aminé. Leur comportement s'est révélé intéressant avec les taux de répétitions. Ils sont inclus dans ces rapports car ils influent respectivement sur tcg et cgg. Par ailleurs j'ai ajouté une ligne pour le total de l'acide aminé correspondant au rapport étudié pour montrer que ce total varie très peu avec les procaryotes étudiés, d'une part, et que pour un même contenu en GC la variation du rapport c/g ou g/c est propre au procaryote considéré. La variation du contenu en GC (%GC) devrait impacter également 2 codons variant dans le même sens que lui comme par exemple ccc et ccg. Par contre il existe en général 2 tRNAs différents pour ces 2 types de codons, alors qu'en général un tRNA ne distingue pas entre 2 codons se différenciant uniquement par la 3ème base si ce sont 2 purines (a,g) ou 2 pyrimidines (c,t). Aussi un rapport proche de de l'unité est aussi significatif qu'un rapport très différent de l'unité. La ligne "0.8-1.2~1" affiche le nombre de rapports, parmi les 6 du tableau, qui sont proches de l'unité.
- Le tableau des effectifs des codons: ce tableau permet d'alléger le tableau des codons et ne considère que les codons qui sont impactés dans les taux élevés de répétitions. Ce qui fait que les procaryotes à taux faibles de répétition auront des effectifs faibles de ces codons. J'ai encadré les effectifs remarquables. Ce sont les triplets ccc et ggg qui sont à l'origine des répétitions >4GC. Les codons ayant un doublet cc ou gg participent aussi à ces répétitions. Ainsi ce sont les colonnes 2 et 4 du code génétique qui sont étudiées ici aussi. ccax est la somme de cca+cct+ccg, de même pour ggx est égale à la somme gga+ggt+ggc.
- Analyse
3 résultats importants à l'analyse de ces 2 tableaux.
- La répétition des >4GC impacte tous les rapports. Sur 78 rapports il n'y a que 11 qui se rapprochent franchement de l'unité soit 14% à peine et le critère du rapprochement à l'unité est tout à fait fictif puisque 2 rapports dépassent légèrement ces 2 frontières. Et même si on prend une bactérie de référence, eco par exemple, le résultat reste le même, tous les rapports varient par rapport à elle.
- Le constat c'est que l'hypothèse selon laquelle ce sont les tRNAs qui évoluent pour traduire efficacement certains codons, et que c'est ainsi que leur nombre varie, ne tient pas la route étant donné que presque leur totalité doit évoluer et que cette évolution pour chaque codon doit faire intervenir de nombreuses mutations et la sélection de nombreux grands enzymes nécessaires aux modifications des tRNAs actifs. Alors même que les organismes n'utilisant pas certains codons ( hors les codons stops) se limitent à des états limites extrême de non-autonomie. On peut dire que c'est à cause de la sélection que c'est ainsi, mais il est évident qu'une fois les chaînes des modifications des tRNAs mises en place, au début de l'évolution moléculaire à l'origine de la vie, elles ont été perpétrées justement par sélection, sans pour autant qu'elles soient plus ou moins efficaces après.
- L'impact de la répétition qui varie avec le contenu en GC: Prenons l'exemple de pmm plus can, et tos. Leurs taux de répétition des >4GC (#GC %) sont très élevés, mais parce qu'il y a moins de G et C l'impact est presque identique entre tos et can pour Pro et Gly, mais inférieur pour pmm. Le résultat est encore plus net avec une variation moindre du contenu en GC (68.6% pour tos et autour de 48% pour tel, syn et mar). L'impact du %GC agit sur tous les codons de façon modérée mais nette.
- Le constat est que c'est le processus de variation du contenu en GC qui est responsable de ces répétitions et donc de la fréquence de tous les codons. Ce processus de variation du %GC a été démontré, de nombreuses fois, être le fait de l'interaction entre l'ADN et ses protéines ( réplicases, transcriptases, enzymes de protection et de réparation) en réponses aux contraintes du milieu (refs[3]).
- Il y a cependant des codons qui n'obéissent pas à la variation du %GC:
- C'est le cas de agg qu'on voit sur le tableaux des effectifs, plus que dans celui des rapports, être élevé quand le %GC est élevé (tos) ou très bas (can, pmm, cft), être intermédiaire pour des %GC élevés (cgc, cya) ou moyens (syn, mar), être au bas niveau pour des %GC élevés (sti,bmv, mhd) ou moyens (eco, tel) mais pas, en tous cas sur ces tableaux, pour des %GC bas.
- 2 tableaux (effectifs et rapports) sont dans les tableaux numériques, avec 15 nouvelles autre-bactéries étudiées pour le comportement de agg. Ces tableaux confortent les résultats précédents. Dans le tableau des effectifs le codon agg est très élevé aux faibles %GC (31-41) et aux forts %GC (54-65). Il se comporte comme devrait se comporter cga (même acide aminé, arg) variant dans le sens contraire de %GC et comme cgg dans le même sens. Les études des corrélations entre codons vont montrer que cga, mais aussi ttg, ggg et d'autres ont des corrélations très faibles avec %GC. Ceci nous ramène à l'idée qu'il y a un autre processus qui intervient dans la répétition des bases G et C, et certainement dans celles de A et T aussi. Pour moi ce processus est la résonance de l'ADN, hypothèse que je développerai succinctement au chapitre "résonance de l'ADN" ainsi que dans l'article sur les corrélations entre codons dans les protéines. Après ces 2 articles, j’intégrerai cette hypothèse dans le concept global de l'évolution moléculaire à l'origine de la vie.
- Liens aux nouvelles autre-bactéries: aae, amo, dal, hmr, hth, lfc, mrb, msv, nse, pmh, tai, tli, tma, tme, tsc.
- Ces 2 tableaux confortent les 2 constatations précédentes faites sur les 2 tableaux de comparaison autre-bactéries/cyanobactéries:
- Les rapports sont majoritairement différents de l'unité. Sur 90 rapports 26 sont compris entre 0.8-1.2 et 19 entre 09.-1.1. C'est cependant 28% du total, soit le double du tableau des rapports autre-bactéries/cyanobactéries.
- Les répétitions >4GC ( ccc et ggg) croissent avec le %GC. Dans la tranche 31-37 %GC tme, pmh et hmr se comportent comme can et pmm. Dans la tranche 43-50 %GC aae, hth, amo, tli et lfc se comportent comme mar, syn et tel. Dans la tranche 62-65 %GC msv, mrb, tai et tsc se comportent comme tos. 3 autre-bactéries sous l'aléa choisies pour leur agg ont des valeurs élevés de >4GC (ccc et ggg). Ce qui confirme le lien étroit entre répétitions et agg.
- C'est le cas aussi des 4 codons acc, acg, gcc et gcg: gcc et acc sont partout nettement dominants mais c'est gcg qui devient nettement dominant dans bmv, mhd, eco, et acg qui devient nettement dominant aussi dans bmv, cft.
- Le constat: Certains codons comme agg sont très peu corrélés au contenu GC (%GC) et peuvent être corrélés entre-eux. agg est corrélé à ggg et à ccc.
- C'est le cas de agg qu'on voit sur le tableaux des effectifs, plus que dans celui des rapports, être élevé quand le %GC est élevé (tos) ou très bas (can, pmm, cft), être intermédiaire pour des %GC élevés (cgc, cya) ou moyens (syn, mar), être au bas niveau pour des %GC élevés (sti,bmv, mhd) ou moyens (eco, tel) mais pas, en tous cas sur ces tableaux, pour des %GC bas.
Les plasmides des cyanobactéries − 3.4.4.4
modifier 3ème et 4ème diagramme de la Galerie 2, répétitions en fonction du %GC; 3ème et 4ème diagramme de la Galerie 3, répétitions en fonction des répétitions de l'hôte.
Tableaux numériques
Répétitions Tableaux des diagrammes
- Les 11 bactéries étudiées sont: ana, anb, can, cyt, len, mic, oac, oni, syf, syn, synp.
- Les 11 bactéries étudiées sont: ana, anb, can, cyt, len, mic, oac, oni, syf, syn, synp.
- Voir la correspondance entre code des plasmides étudiés et celui de KEGG au chapitre 2.2.
Répétitions des plasmides en fonction du %GC − 3.4.4.4.1
modifier- Rapportées au %GC les répétitions des plasmides se comportent comme leurs hôtes, diagrammes 3 et 4 de la galerie 2. C'est-à-dire:
- Les répétitions >4AT sont toutes au-dessus de l'aléa et suivent une tendance en polynôme du 3ème degré. Comparés aux plasmides des bactéries, le coefficient de régression R2 diminue faiblement 0.72 contre 0.89 pour ceux des bactéries.
- Les répétitions >4GC suivent bien le comportement de leur hôte, syf et len restent en dessous de l'aléa et tous les autres au dessus. 2 plasmides seulement, dont l'hôte est au dessus, passent en dessous de l'aléa. Soit 2/37 plasmides dont les hôtes se situent au-dessus de l'aléa. Cependant les plasmides des cyanobactéries ont un comportement diamétralement opposé à celui des bactéries en ce qui concerne la variation par rapport à l'hôte. Les "autres" bactéries varient horizontalement et surtout en diminuant leur contenu en GC. Par contre les cyanobactéries varient verticalement, soit en diminuant leurs répétitions >4GC ou en les augmentant tout en variant très peu leur contenu en GC. J'avais bien noté la diminution spectaculaire du %GC des plasmides de kpn, mais les variations des répétitions >4GC chez les cyanobactéries est plus fréquente et aussi spectaculaire puisque
- oni et cyt augmentent du simple au double, anb et mic de 50%
- syn, synp et can sont divisés par 2. synp proche de l'aléa donne un plasmide qui passe en dessous.
- oac diminue de 20% et ana varie de 50% dans les 2 sens et donne un plasmide en dessous de l'aléa.
- syf et len paraissent se comporter comme autres bactéries: déplacement faible mais horizontal.
- Le résultat de ce comportement fait que la courbe de tendance est quasi inexistante: en fonction puissance j'ai un coefficient de régression proche de zéro, 0.09 et en polynôme de 3ème degré 0.16. Alors que les autres bactéries gardent une tendance proche de l'hôte avec une fonction puissance au R2 de 0.47 contre la même fonction de l'hôte au R2 de 0.75.
Répétitions des plasmides en fonction de celles de l'hôte − 3.4.4.4.2
modifier- Tableau des 2 diagrammes en fonction de l'hôte Galerie 3 diagrammes 3 et 4.
- Le comportement des répétitions des plasmides des cyanobactéries, en fonction de l'hôte, diffère nettement de celui des plasmides des bactéries. Chez les cyanobactéries on va retrouver la grande variabilité qu'on a signalée pour les >4GC en fonction du %GC mais aussi un nouveau comportement pour les >4AT.
- Tableau des 2 diagrammes en fonction de l'hôte Galerie 3 diagrammes 3 et 4.
- La droite de tendance des >4GC en fonction de l'hôte s'écarte nettement de la diagonale en rouge représentant l'hôte: 0.50x+5.41 (R2=0.46) pour les cyanobactéries et 0.87x+4.29 (R2=0.61) pour les bactéries.
- La droite de tendance des >4AT, elle, se rapproche de la diagonale et le coefficient de régression est élevé comme pour les bactéries: 0.83x+7.07 (R2=0.69) contre 1.02x+12.08 (R2=0.83) pour les bactéries.
- Par contre pour les >4AT, les hôtes des cyanobactéries se situent entre 40 et 70 %00 alors que ceux des bactéries entre 10 et 20 %00. 7 "autres" bactéries, sur 12, ont le taux signalé, tandis que 9 cyanobactéries, sur 11, ont le taux signalé. Est-ce un hasard du fait des choix que j'ai faits ou est-ce une caractéristique des cyanobactéries? Pourtant le %GC des 9 cyanobactéries hôtes s'étale sur une gamme, 35-55 %, analogue à celle des 7 bactéries hôtes, 41-59%. Voir diagrammes des galeries 2 et 3 et leurs tableaux.
Note sur les hôtes des plasmides des cyanobactéries − 3.4.4.4.3
modifier- Pour répondre à la question précédente j'ai constitué un tableau synthétisant les équations et leur coefficient de régression. Effectivement les polynômes x3 sont plus adaptés, selon R2, pour les diagrammes >4AT. Et la fonction puissance pour les diagrammes >4GC avec R2 supérieur à 0.50 et des constantes homogènes entre elles.
- Pour >4AT, la comparaison entre autre-bactéries et cyanobactéries montre que la courbe des dernières est nettement au-dessus des premières: la constante de x3 est double. Vis à vis de l'aléa elles ont toutes les 2 une constante largement supérieure à celle de celui-ci, 0.00073
- Pour >4GC, la courbe des cyanobactéries est au-dessus de celle des autre-bactéries (constante 1E-4 exposant 3.0, constante 2E-4 exposant 2.7, respectivement). Vis à vis de l'aléa la fonction puissance montre que ce dernier a une constante très faible par rapport à celle des cyanobactéries ( 1E-7 et 1E-4 respectivement) mais qu'elle est compensée par un exposant beaucoup plus élevé que celui des cyanobactéries (4.7 et 3.0 respectivement). Sans approfondissement de cette question mathématique, on ne pas trancher. Par contre le polynôme de degré 3 montre que la courbe des cyanobactéries est légèrement au-dessus de l'aléa (constante de x3 respectivement, 0.00081 et 0.00075). C'est cette fonction que j'ai adopté pour les cyanobactéries avec un R2 de 0.58 inférieur à celui de l'aléa, 0.61.
- La conséquence de ce constant c'est que, comme pour les codons GC des protéines, les codons AT sont aussi modifiés chez les cyanobactéries par rapport à ceux des autre-bactéries, en tout cas, en premier, pour les codons aaa et ttt et les doublets qui les accompagnent.
- Tableau synthétique des équations des diagrammes des hôtes:
x3 puissance aléa AT* -0.00073 0.16 -12 302 100 * 9E+7 -4.1 87 à cause de 15%GC GC* 0.00075 -0.06 1.9 -20 100 * 1E-7 4.7 99 à cause de 75%GC autres bactéries AT* -0.00206 -0.38 24 -572 94 * 7E+8 -4.51 69 GC* -0.00005 0.02 -1.1 15 33 * 2E-4 2.7 73 cyanobactéries AT* -0.00402 0.67 -38 775 93 * 1E+7 -3.3 87 GC* 0.00081 -0.11 5.2 -82 58 * 1E-4 3.0 61 archées AT* -0.00117 0.26 -19 486 84 * 8E+8 -4.52 82 GC* -0.00225 0.31 -13 185 48 * 1E-4 2.3 53
Les archées − 3.4.5
modifier 5ème et 6ème diagrammes dans la Galerie 1 pour l'ensemble des 87 archées et la Galerie 7 pour le groupage en familles d'archées.
Tableaux numériques
Tableau des diagrammes des 87 archées. Tableau des diagrammes des 30 autres archées.
Répétitions
- L'étude des répétitions de bases dans les plasmides et les protéines n'a pas été faite. L'objectif était surtout de comparer les courbes des génomes avec ceux des bactéries.
Les diagrammes des archées − 3.4.5.1
modifier- Le tableau synthétique des courbes des hôtes des plasmides, placé au chapitre précédent des cyanobactéries, contient une ligne pour les 87 archées étudiées dans cet article. La 1ère constatation c'est que les archées constituent un groupe beaucoup plus hétérogène que les bactéries et les cyanobactéries, suivant leurs coefficient de régression R2. voir les diagrammes 5 et 6 des archées dans leur globalité dans la galerie 1.
- Sachant qu'il y a 2 grandes familles majoritaires d'archées, Euryarcheota et Crenarcheota, chez divisé le tableau des diagrammes en 3 groupes: 57 Euryarcheota, 20 Crenarcheota, et un groupe de 10 archées pour les archeota minoritaires ( 1 archée Kor, 3 Nano et 6 Thaum). Les minoritaires se comportant presque comme les Crenarcheota, je les ai regroupés ensemble dans les diagrammes en leur affectant des symboles différents. Ces diagrammes sont libellés autre-archées.
- Symboles affectés aux autre-archées dans les diagrammes: diagrammes 3 et 4 de la Galerie 7.
- Point simple, bleu, les Crenarcheota
- Une bille bleu pour les Nanoarcheota
- Une bille orange pour les Thaumarcheota
- Un cube rouge pour le seul Korarcheota, kcr.
- Tableau synthétique des courbes des répétitions dans les chromosomes des archées
x3 puissance total archées AT* -0.00117 0.26 -19 486 84 * 8E+8 -4.52 82 GC* -0.00225 0.31 -13 185 48 * 1E-4 2.3 53 Euryarcheota AT* 0.00005 0.07 -11 366 92 * 3E+9 -4.80 86 GC* -0.00116 0.16 -7 91 51 * 3E-3 2.00 58 autres archées AT* -0.00527 0.88 -49 943 81 * 2E+8 -4.23 79 GC* -0.00465 0.65 -28 405 62 * 6E-5 3.15 58 Crenarcheota AT* -0.00438 0.72 -40 753 74 * 4E+7 -3.84 71 non publié GC* -0.00233 0.34 -15 213 62 * 3E-5 3.33 77 non publié
Les Euryarcheota − 3.4.5.1.1
modifier- Eury et cyano ayant à peut près les mêmes effectifs étudiés, 57 contre 49, sont plus faciles à comparer d'autant plus qu'ils ont des points communs plus qu'avec les autre-bactéries.
- Tableau des diagrammes des 57 euryarcheota.
- Les Eury se distinguent des cyano par quelques archées sous l'aléa. A peine 2 (hbu et hwa) franchement sous l'aléa au niveau de 50 %GC, ce qui est inhabituel chez les bactéries, et 2 autres (tar et mtp) sur la courbe de l'aléa, mais encore à des contenus en GC assez bas, 58 et 53 %GC respectivement, ce qui peut être encore limite pour la comparaison puisque les autre-bactéries ont 1 bactérie bla sur l'aléa à 60 %GC. De même la courbe des Eury paraît plus proche de l'aléa, aux contenus en GC les plus élevés, que celle des autre-bactéries et plus nettement de celle des cyanobactéries.
- A part 2 archées (mbg, tar) qui se détachent du lot à 60 %GC comme pour les autre-bactéries amorçant le décrochement vers tos à ce niveau, les 2 diagrammes sont complètement différents par le nombre de procaryotes dépassant l'aléa à des taux élevés de >4GC.
- Par contre la ressemblance entre le diagramme des cyano et celui des archées est flagrante. Cependant il y une nette différence puisque 80% des cyano se retrouvent au-dessus de l'aléa alors que seulement 20% des Eury le sont. Chez les cyano il n'y a pas de décrochage et la courbe semble se diriger vers l'aléa aux valeurs élevées en contenu GC, ce qui rapproche cette courbe plus d'un polynôme de degré 3 que d'une fonction puissance.
Les Crenarcheota et les autre-archées − 3.4.5.1.2
modifierdiagrammes 3 et 4 de la Galerie 7
- Tableau des diagrammes des 20 crenarcheota.
- L'effectif d'étude des cren est faible, à peine 20, mais leur comportement est encore plus spectaculaire que les Eury puisqu'ils dépassent dans 60% des cas l'aléa dans le diagramme >4AT et aussi 70% des cas dans celui des >4GC, alors que les Eury ne dépassent le >4AT que de quelques archées et le >4GC que de 20% des cas. Il y a un basculement chez les cren quand on passe d'un diagramme à l'autre, cependant quelques archées ne font pas cette bascule. Ils sont sous l'aléa >4AT et au-dessus de l'aléa >4GC.
- Chez les 10 archées restantes, les 6 Thaumarcheota se comportent à la limite comme les autre-bactéries, alors que les Nanoarcheota se comportent comme les eury avec neq qui dépasse l'aléa >4GC, les 2 autres restant en dessous. Le seul Korarcheota de l'étude kcr fait la bascule, il est sous l'aléa >4AT et au-dessus de l'aléa >4GC, comme le font la majorité des cren.
Les diagrammes des écarts des répétitions, relatifs à l'aléa− 3.4.5.1.3
modifier Galerie 9, diagrammes 5 à 8. Tableau des 4 diagrammes des écarts. Les Groupes 22ae, 23ae, 67ae1, 67ae2, 33ae des écarts relatifs à l'aléa des euryarcheota.
Les Groupes 22ac, 23ac, 67ac1, 67ac2 des écarts relatifs à l'aléa des crenarcheota.
Voir le chapitre 3.4.3.1.2 pour les groupes définis par les écarts relatifs chez les autre-bactéries, ainsi que les diagrammes 1 et 2 de la galerie 9 , et le Tableau des 2 diagrammes des écarts des autre-bactéries pour les comparaisons.
Nous avions défini 5 groupes pour les écarts relatifs chez les autre-bactéries qui sont:
Groupe 22,
Groupe 23,
Groupe 33,
Groupe 41 et
Groupe 67.
Nous allons travailler sur les mêmes étendues du contenu en GC (%GC) pour définir des groupes semblables à ceux des autre-bactéries. Les groupes des Euryarcheota seront suffixés par ae et un chiffre si le groupe vient à être divisé en sous-groupes, de même pour les crenarcheota ac et un chiffre.
- Le tableau qui suit résume les changements dans 3 groupes majeurs des crenarcheota (ac) et les 5 groupes des euryarcheota (ae). Je n'ai pas représenté ici le groupe 23ac ne contenant qu'une seule archée aho. Le n=7 indique le nombre d'archées dans le groupe.
Groupes des écarts relatifs à l’aléa des archées %GC >4GC >4AT DNA %GC >4GC >4AT DNA Groupe 22ac n=6 Groupe 67ac1 n=7 Groupe 67ac2 n=6 moyen. 36 7 51 1,678,011 moyen. 51 24 16 1,631,331 moyen. 55 18 8 1,909,274 ecartt 5 3 36 298,468 ecartt 5 12 10 412,634 ecartt 5 9 3 290,153 % 13 47 71 18 % 10 48 63 25 % 9 48 41 15 Groupe 22ae n=13 Groupe 67ae1 n=3 Groupe 67ae2 n=17 moyen. 36 6 90 2,073,781 moyen. 48 14 35 2,491,505 moyen. 51 11 28 2,192,331 ecartt 6 3 32 1,149,592 ecartt 2 6 12 936,783 ecartt 4 5 16 590,374 % 16 50 36 55 % 5 40 35 38 % 8 45 57 27 Groupe 23ae n=7 Groupe 41ae n=17 moyen. 39 4 62 2,528,522 moyen. 64 13 4 2,743,002 ecartt 2 1 17 1,072,297 ecartt 2 5 2 881,493 ae archées euryarcheota % 6 29 28 42 % 4 42 40 32 ac archées crenarcheota
- Les 2 groupes 67ac1 et 67ac2 sont symétriques par rapport à l'aléa comme les groupes 22 et 23 des bactéries, et se comportent aussi comme eux pour la simultanéité des changements des taux >4AT et >4GC (voir le résumé des groupes des autre-batéries au chapitre 3.4.3.1.2). La même remarque est à faire pour les 2 groupes 67ae1 et 67ae2, et les 2 groupes 22ae et 23ae. Cependant on peut se demander si le groupe 67ae1 en est un puisqu'il ne compte que 3 archées.
Les répétitions des archées − 3.4.5.2
modifierLes groupes − 3.4.5.2.1
modifier- Sur 57 euryarcheota 43 ont des répétitions inférieures ou égales à 11. Cette frontière de 11 c'est pour les aas. Ainsi, une telle répétition a tout au plus 3 aas à 3 bases identiques: Phe, Lys, Pro, Gly. Pouvant s'ajouter à cet aa un troisième identique ayant seulement 2 bases identiques. Donc tout au plus 4 mêmes aas l'un à côté de l'autre. Avec une frontière de douze on passe respectivement à 4 et 5 aas identiques côte à côte. J'ai repéré cette frontière en totalisant les archées ayant le même maximum de répétitions. Ainsi j'ai trouvé:
Répétition maximale: 7 8 9 10 11 12 13 14 15 16 17 18 19 20 nombre d'archées: 2 6 7 11 15 7 1 2 3 0 2 0 0 1
J'ai alors combiné le fait que 10 soit le maximum et une limite raisonnable de 4 aas alignés. Le nombre de bactéries ayant 14 et plus de répétition, se réduisant brusquement à 12, j'ai décidé de considérer toute répétition supérieure ou égale à 14 comme solitaire ou anormale quand cette répétition est trop grande.
Le tableau suivant liste ces 43 archées pour que le lecteur n'ait pas à le refaire manuellement:
- 44 euryarcheota à répétition <= 11
abi hbo hru hxa mear mig mok mzh pto Moyenne 11 0.8 Moyenne 14-20 2.3 afu hbu hsu mac mev mka mpd nmg tac archées total archées total fpl hlr htu marc mfe mla mpl nph tar 44 37 3 7 gac hma1 hut mbg mfv mmh mpy pho ton Anomalie max >20 hal hmu hvo mbu mhu mmp mth ppac mhu 20 A 28 A
- 13 euryarcheota à répétition => 11
hla mhz tko Moyenne 11-13 5.5 Moyenne 14-20 1.2 hwa mpi archées total archées total mba msi 13 72 5 6 mbn mst Anomalies max >20 mel mtp mba 14 A 23 T mer sali mtp 12 A 21 A
- Les 20 crenarcheota
Répétition maximale: 8 9 10 11 12 13 14 15 16 17 18 nombre d'archées: 3 2 1 1 2 4 4 0 1 1 1
- 7 archées dont les répétitions sont inférieures à 11 ne totalisent qu'une seule répétition de 11: ape, ffo, iag, smr, tag, thg, vdi.
- 13 crenyarcheota à répétition => 11
ho iho sso Moyenne 11-13 2.7 Moyenne 14-20 1.9 asc mse tpe archées total archées total clg pai tuz 13 35 7 13 cma pdl Anomalies max >20 dka pfm pfm 17 A 42T, 23A
- La répétition longue 42T n'est pas codante d'après NCBI.
- Les 10 autres archées
- Korarchaeota: kcr avec une répétition maximale de 17.
- Nanoarchaeota: neq, nge, nou
- Thaumarchaeota: csu, nbv, nga, nkr, nmr, taa
Répétition maximale: 9 10 11 12 13 17 nombre d'archées: 2 2 2 2 1 1
Note sur les répétitions des archées − 3.4.5.2.2
modifier- Très peu d'anomalies par rapport aux bactéries. Les répétitions sont très regroupées, en générale inférieures à 11, par rapport aux bactéries. C'est surtout chez les Euryarcheota avec 43 archées sur 57 ayant un maximum de répétition de 11. Les Crenarcheota semblent produire des répétitions plus longues, mais le nombre moyen de répétitions par archées, comprises entre 11 et 13, reste comparable à celui des Euryarcheota.
Synthèse − 3.4.6
modifierSynthèse sur les procaryotes − 3.4.6.1
modifier- Cette étude n'est pas complète puisque, pour bien faire, il faudrait dégager les caractéristiques de protéines et de plasmides chez les 2 classes d'archées. Cependant nous pouvons récapituler les principaux résultats obtenus avec les bactéries et les archées..
- Avec les diagrammes des répétitions de plus de 4 bases on a pu distinguer des sous-groupes :
- Les bactéries se divisent en 4 sous-groupes dont 3 ont été étudiés plus profondément:
- Les bactéries ne dépassant jamais l'aléa dans aucun diagramme avec un taux de >4GC inférieur à 17%00 (cmi): ce sont la majorité des bactéries des diagrammes autre-bactéries.
- Les bactéries ne dépassant l'aléa que pour des contenus en GC inférieurs à 60% et seulement dans le diagramme >4GC: les cyanobactéries.
- Les bactéries ne dépassant l'aléa que pour des contenus en GC autour de 68% et seulement dans le diagramme >4GC: c'est le groupe des thermophiles avec la bactérie tos dans les autre-bactéries, 12 bactéries (msv, mrb, tai, tsc, sur, mhd, tra, tos, tts, ttl, tth) voir chapitre 3.4.3.1.
- Les bactéries à haut taux de >4GC, supérieur à 20.94 %00 (scl) vers 65 %GC et ne dépassant pas l'aléa dans le diagramme >4GC des autre-bactéries, 20 bactéries ( afw, age, ccx, dge, dpt, dvl, ebt, fra, gdi, ipa, ksk, mts, mxa, pdo, phm, rru, saci, salb, sall, salu, sap, say, sbh, scb, scl, sco, sct, sgr, sho, sma, ssx). Voir chapitre 3.4.3.1.
- Les archées se divisent en 2 sous-groupes:
- Les archées qui dépassent moyennement ou faiblement l'aléa dans les 2 diagrammes: ce sont les Euryarcheota avec un effectif de 57 étudié.
- Les archées qui dépassent à plus de 80% des cas les 2 diagrammes à la fois: ce sont les crenarcheota avec un effectif de 20 étudié. 10 autres archées appartenant à d'autres classes de la phylogénie se répartissent entre les 2 sous-groupes dont 6 Thaumarcheota se comporteraient plutôt comme les autre-bactéries que comme le sous groupes des Eury.
- Les bactéries se divisent en 4 sous-groupes dont 3 ont été étudiés plus profondément:
- L'étude de la distribution des codons dans les gènes de protéines. L'étude des répétitions des bases dans les protéines n'était pas prévue au début, car le 1er but de la recherche des répétitions à ses débuts était de rechercher les répétitions dans les zones de contrôle comme les promoteurs, les sites de fixation de diverses protéines et notamment de transcription et l'origine de la réplication dans le chromosome et les plasmides en vue des 1ères étapes de l'évolution moléculaire à l'origine de la vie. Ce sont les diagrammes des autre-bactéries qui m'ont interpellé et je me suis posé 2 questions fondamentales:
- Pourquoi la dissymétrie totale entre diagramme >4AT et >4GC? Pourquoi les répétitions G et C sont si rares? Alors que les A et T sont si nombreuses? Ma 1ère réponse se penchait vers la spécificité des bases, donc de leur résonance dans l'ADN. Mais dans un 2ème temps je me suis rendu compte que, les génomes des bactéries étant composés à 80% et plus de gènes codant des protéines, en fait cette dissymétrie s'expliquait simplement si on adoptait le point de vue de l'évolution darwinienne où ce sont les protéines qui interagissent par leurs fonctions avec l'environnement. Les protéines nécessitant peu de proline (codon ccc), car c'est un acide aminé de conformation (repliement) et non à fonction chimique comme les acides (D, E) et les bases (R,K, H), fait que les répétitions de ccc et plus devaient être très faibles. Cette explication entrait en contradiction avec la répétition de la Glycine (codon ggg) du même coté que la proline dans les diagrammes. La Gly étant l'acide aminé le plus simple, le plus inactif chimiquement devrait jouer un rôle de remplissage et donc du coup ses répétitions devaient être beaucoup plus abondantes. Effectivement j'ai trouvé des séquences longues de plus de 20 G incluses dans des gènes de protéines, mais les séquences les plus longues sont en C mais ne se trouvent pas dans des gènes de protéine. Le problème se situe en fait dans les répétitions courtes. La question semblait être résolue du point de vue darwinien et non du point de vue de la physique de l'ADN, mais la contradiction posée par la glycine me taraudait.
- C'est là que le groupe des thermophiles de la bactérie tos venait encore compliquer tout et je me suis posé la 2ème question fondamentale. Pourquoi certaines bactéries peuvent avoir des taux de >4GC aussi élevés que les taux >4AT? Est-ce que c'est la glycine qui est à l'origine? C'est ce qui m'a poussé à comparer le taux des répétitions des bases dans les gènes de protéines et leur distribution en codons. Le résultat c'est que c'est toujours les petites répétitions, inférieures à quelques prolines ou glycines, qui jouaient ce rôle. Ce sont effectivement les codons ccc et ggg qui augmentent énormément par rapport à ccg et ggc qui sont majoritaires chez les bactéries à faible taux de >4GC comme eco et bmv où les rapports s'inversent. Le codon ggg, comme on le verra dans l'article des corrélations, est parmi les codons les plus faiblement représentés dans les protéines des bactéries. Mais en plus chez tos et plusieurs cyanobactéries que j'ai étudiée ici, il y a une fréquence très élevée du codon agg de l'arginine. Ce codon peut, comme tout codon possédant un doublet, augmenter le taux des >4GC en s'accolant à ggg. Voir les protéines dans les chapitres des autre-bactéries et dans celui des cyanobactéries. Plus j'avançais dans l'étude des protéines plus la distribution des codons me paraissait aller de paire avec les variations des taux de >4GC et même ceux de >4AT. Les regroupements des procaryotes que j'ai faits avec les diagrammes prennent alors tous de l'importance. La question précédente, pourquoi les répétitions C et G sont si faibles? mais plutôt pourquoi certains procaryotes les augmentent pour évoluer? Et là l'hypothèse de la résonance prend toute son importance.
- L'étude des plasmides: La comparaison de leurs comportements chez les autre-bactéries et les cyanobactéries a révélé des différences énormes notamment celle de varier horizontalement pour les autre-bactéries et verticalement pour les cyanobactéries relativement à leurs hôtes. C'est une question très intéressante pour les premières étapes de l'évolution moléculaire à l'origine de la vie. Les processus qui interviennent dans la variation du contenu en GC et celle des répétitions des bases agissent différemment sur les plasmides et leurs hôtes. Est-ce seulement une question de probabilité de détachement de morceaux de chromosome si l'hypothèse du détachement est à l'origine de leur formation? Ou bien les plasmides interagissent activement, par leur structure physique, sur les protéines du processus? Dans ce cas les 1ères séquences d'ADN apparues aux 1ères étapes de l'évolution moléculaire, de la taille de petits plasmides, devaient être des moteurs très importants dans cette évolution.
- Les répétitions dans les rRNA: L'étude des rRNAs 23S a donné un résultat inattendu. Nous savons que le 16S est très utilisé dans la phylogénie des procaryotes. Je m'attendais à ce qu'ils varient peu avec le contenu en GC. C'est le cas en effet à partir de 30 %GC, mais pour les faibles contenus en GC les répétitions >AT augmentent en flèche. Pourquoi? Il serait intéressant d'étudier le problème sur de grands échantillons et dans tous les groupes et de comparer ces répétitions à celles des rRNAs 16S en fonction du contenu en GC.
Synthèse des diagrammes par les courbes − 3.4.6.2
modifier- Synthèse des tableaux des diagrammes Galerie 8
- Pour pouvoir comparer les courbes >4AT j'ai du les dessiner en fonction du %AT, elles sont plus homogènes. 4 courbes: >4AT, >4GC, fonction puissance et polynôme de degré 3. L'aléa a été recalculé avec un chromosome fictif de 2 000 000 pbs. La gamme du %GC a été réduite pour faire apparaître, grâce à l'échelle réduite obtenue, les différences entre les courbes dans cette gamme. Mettre les courbes ensemble permet de fixer les idées par rapport aux appréhensions qu'on a eu en comparant des courbes séparées. De nouveaux résultats apparaissent. Ainsi je fais 3 groupes de constatations en ce qui concerne les répétitions. Certains de ces constats rejoignent le classement des procaryotes par phylogénie:
- Les autre-bactéries et les euryarcheota se comportent quasiment de la même façon.
- Dans les diagrammes AT les courbes sont homothétiques (parallèles), mais les eury sont en dessous et aux faibles %AT les eury se collent à l'aléa mais ne le croisent pas comme le font les cren. Ce qui fait apparaître quelques eury en dessous de l'aléa (hbu, hwa). Les bactéries, elles sont bien loin de l'aléa et je n'ai pas pu repérer de bactéries en dessous sur 192.
- Dans les diagrammes GC Les courbes se croisent. Mais alors que les bactéries croisent tout à fait au début l'aléa, se confondant avec lui (voir aléa et bactéries), les eury croisent l'aléa plus tard au niveau de 43 %GC donnant beaucoup d'archées au-dessus de l'aléa comme les cren à ce niveau. Les eury s'éloignent après de l'aléa, contrairement aux cren, restent au-dessus des bactéries mais se croisent avec ceux-ci au niveau de 52 %GC.
- Ce que ne montrent pas ces courbes c'est que les bactéries, en se détachant des eury, croisent aussi l'aléa au niveau de 68 %GC comme on l'a vu (tos, tai), et de façon brusque. Ce que ne montrent pas aussi ces courbes c'est que au niveau 60-65 %GC les eury, tout en restant sous les bactéries, amorcent aussi ce décrochage brusque vers l'aléa (mbg, tar), comme elles. D'où encore plus de similitudes entre eury et autre-bactéries.
- Les cyanobactéries partagent des comportements semblables avec les cren mais elles en se différencient nettement, pas comme entre autre-bactéries et eury.
- Dans les diagrammes AT les courbes sont parallèles et non seulement homothétiques. Comme les cren sont largement en dessous, elles croisent 2 fois l'aléa donnant beaucoup d'archées en dessous de l'aléa. Ce que ne font pas du tout les cyanobactéries.
- Dans le diagramme GC, fonction puissance, les 2 courbes sont homothétiques et croisent l'aléa franchement au même niveau, à 52 %GC, donnant beaucoup d'archées au-dessus de l'aléa (dans les 80 % des cas étudiés) dans la gamme 30-60 %GC.
- Dans le diagramme GC, fonction polynôme de degré 3, les 2 courbes sont décalées (ce qui correspond à l’homothétie du diagramme fonction puissance), et du coup, ayant toutes les 2 une forme sinusoïdale, elles croisent l'aléa en 2 points différents chacun. Entre ses 2 points de croisement les cyanobactéries sont plus éloignés de l'aléa, dans la partie concave, que ne le sont les cren. Cela se traduit par un nombre beaucoup plus élevé de cyano au-dessus de l'aléa que celui des cren.
- L'effet miroir: c'est une constatation globale que je n'ai pas faite jusqu'ici, j'avais aperçu quelques cren qui, dans AT, se trouvaient dans la partie concave de l'aléa, alors que dans GC, ils se retrouvaient dans la partie convexe.
- L'effet miroir apparaît nettement avec les diagrammes polynôme de degré 3, chez les cyanobactéries et les cren et de façon moins prononcée chez les eury puisque les 3 courbes croisent franchement l'aléa. Les cren croisent 2 fois l'aléa loin du début, les cyanobactéries une fois au début à 30 %GC et une fois loin, les eury une fois mais proche des 30% GC. L'effet miroir se manifeste par une symétrie par rapport à l'aléa. On retrouve facilement les procaryotes qui le subissent, car certains ne subissent l'effet miroir même s'ils appartiennent à la même famille.
- L'effet miroir est très difficile à détecter chez les autre-bactéries parce que le croisement qui se fait avec l'aléa est quasiment à la limite du diagramme, à 68 %GC, et du coup le taux de répétitions >4AT est très faible. Mais les 2 courbes des autre-bactéries sont bien symétriques par rapport à l'aléa. Il n'y a pas de bactérie qui ne pas sois pas symétrique, à part l'extrémité 68 %GC qu'on ne détecte pas au premier coup d’œil. C'est comme une surface unie en face d'un miroir. Il faut qu'il y ait une discontinuité pour révéler le miroir.
La résonance dans l'ADN − 4
modifierNote du 25.9.16 − 4.1
modifier- La résonance dans le gène :
A démontrer à partir des corrélations entre codon, différentes de celles des aas. Ces corrélations sont étudiées dans l'article Les corrélation entre les codons de gènes de protéines.
- −. Adaptation, sélection naturelle et origine de la vie.
- −. Adaptation, sélection naturelle et origine de la vie.
Quand on bascule dans tout le génome d'un codon à un autre (bactérie tos [21] passe de ggc à ggg), la sélection naturelle stipule que les mutations se font au hasard et donc que les protéines sont sélectionnées pour traduire plus efficacement les codons ggg à la place des codons ggc. Pour cela il faut plusieurs mutations dans le génome de façon à ce que les modifications des tRNAs remplissent cette fonction. La physique de l'ADN n'intervient pas. L'interaction avec l'environnement se fait d'abord avec les protéines, celles qui modifient les tRNAs et celles qui doivent s'adapter au changement de l'environnement. Le nombre de mutations aléatoires doit être immense et les mutations silencieuses ne sont pas moins favorisées que celles qui font la modification adéquate des gènes. Ceci nécessite un gradient de changement très progressif, plus le nombre de mutations nécessaire augmente plus le gradient doit être faible. Certains gradients de toute nature, directe (évolution de la température globale sur le long terme) ou indirecte ( interaction entre populations) sont des gradients faibles. Mais certains gradients sont beaucoup plus forts et les bactéries avec leur petite taille peuvent s'y adapter. C'est le cas des paramètres physiques et chimiques du milieu (source d'eau chaude, milieu qui devient de plus en plus acides en un temps non géologique, et les fameux antibiotiques, etc.). Nous savons qu'elles s'y adaptent rapidement. Mais malgré cela le nombre de mutation nécessaire reste astronomique.
L'étude de la variation du contenu en GC (%GC) et l'étude sur la répétition des bases montre qu'en fait ce sont les protéines qui sont en contact direct avec l'ADN qui dirigent les mutations silencieuses et non-silencieuses. L'environnement réagit directement sur le couple ADN et ses protéines ( polymérases, réparations, recombinaisons, facteurs de transcription, protection et structuration de l'ADN...). Je suppose que même sans mutation dans ces protéines, elles peuvent diriger quoique légèrement les mutations silencieuses car le mécanisme de la variation du contenu ne distingue pas entre A et T ou G et C ( pour les aas à 4 ou 6 codons). Cependant on sait qu'il y a des mutations dans ces protéines qui accélèrent la fréquence des mutations, et qu'on sous-estime en disant qu'elles augmentent les erreurs lors de la réplication: ce sont les "error-prone proteines" qui sont des polymérases (voir Uniprot [22] et article de 2003 [23]. Qu'en est-il des protéines de réparations et de recombinaison? Je ne sais pas. Il faut faire une recherche bibliographique ( voir réponse SOS ).
Mon hypothèse tirée de l'étude sur les répétitions des bases dans l'ADN et les corrélations entre codon dans les gènes de protéines ( en cours de construction dans wiki) prône que la propriété physique principale de l'ADN est la résonance électronique entre ses bases. Les protéines qui accompagnent l'ADN sont sensibles à cette résonance et sont contraintes de la préserver de par leur couplage. De même la résonance de l'ADN doit changer quand ces protéines changent de conformation sous l'action de l'environnement ou quand elles subissent une mutation non silencieuse. D'où une mutagenèse contrainte, pas spécialement dirigée. Ce qui accélérerait l'adaptation de l'organisme au changement de l'environnement. Mais réciproquement l'ADN adapte sa résonance. Cette résonance refléterait la nature du changement du milieu. Par exemple les bactéries tos [24] sont des thermophiles et le changement de l'ADN se fait dans le sens de son renforcement, des répétitions de G comme dans le codon ggg serait plus homogène, donc plus forte qu'une alternance de G et de C comme dans ggc. Les codons de la proline, pour cette bactérie, se convertissent au codon homogène ccc. Et ces changements contraints se font en même temps dans tout le génome.
C'est pour ça que je dis que les variations en contenu GC, ou mutagenèse contrainte, est le processus d'adaptation par excellence puisqu'il agit de concert avec la sélection naturelle, avec ou sans erreurs dans les mutations. Pour pouvoir repérer cette variation en fonction du changement de l'environnement il faut faire les expériences adéquates. C'est-à-dire suivre une population de bactéries en modifiant de façon progressive l'environnement. Ce qui n'est jamais le cas en bactériologie parce qu'on définit un génome dans des conditions optimales et constantes pour la culture de la bactérie.
Nous connaissons la théorie darwinienne, nous venons de voir un processus d'adaptation qui agit en concert avec la sélection naturelle, il nous reste à imaginer ce qui se passe aux premières étapes de l'évolution moléculaire à l'origine de la vie. L'hypothèse qui me parait la plus vraisemblable qui tient compte de la résonance de l'ADN, de son interaction avec les protéines et d'une grande fréquence de mutations, c'est que les bases désoxyribonucléiques soient libres, mais regroupées, qu'elles soient entourées d'acides aminés libres et que cet ensemble ne puisse être stable que s'il se trouve organisé dans le liposome et par lui. Ce liposome, je l'ai montré dans évolution de la membrane prébiotique, posséderait des pores qui lui permettent de communiquer directement avec l'environnement extérieur ou par l’intermédiaire des acides aminés avant que n'apparaissent les 1ères liaisons peptidiques. Ainsi l'organisation moléculaire pourra évoluer de façon continue du minéral vers l'organisation du vivant qu'on connaît. Dans cet ensemble je n'ai pas mentionné les ARNs parce que leurs monomères ne peuvent pas avoir une résonance ou très peut à cause de leur 2'OH et qu'ils peuvent se regrouper avec l'uracile. D'ailleurs dans la vie actuelle les protéines n'ont cesse d'hydrolyser rapidement les RNAs. Je suppose que, dans mon hypothèse précédente, que les acides aminés et les monomères d'ARNs vont interagir fortement ( c'est ce que j'appelle l'évolution moléculaire interne, n'interagissant pas avec l'environnement extérieur) pour former les ribosomes quand les liaisons peptidiques apparaîtront.
Constat issu des protéines − 4.2
modifier- 16.11.16
- Le constat:
- −. Le phénomène de répétition constaté concerne plusieurs codons
- −. Il varie proportionnellement avec le contenu en GC
- −. Certains codons comme agg ont une corrélation très faible avec le contenu en GC (%GC). Par contre agg est corrélé avec ggg.
- −. Donc il n'y a que le couple ADN et ses protéines qui puissent expliquer ce phénomène. C'est leur interaction avec l'environnement qui fait varier le contenu en GC et les répétitions. Cette interaction est de nature physique, sur les protéines de l'ADN (conformation), qui à leur tour agissent physiquement sur l'ADN (conformation des protéines) qui réagit à son tour, aussi physiquement avec sa résonance. C'est l'ADN qui est la cause 1ère de la formation de la séquence d'un gène.
- Les conséquences:
- −. Avec le constat nous avons expliquer le pourquoi de la création d'un gène
- −. Mais nous n'avons pas expliquer comment cette résonance est transférée, en se transformant, à la résonance de la protéine. Tout au moins en partie parce que la résonance d'une séquence n'est pas seulement le résultat de l'interaction de l'ADN localement avec son environnement, mais aussi résulte de l'interaction de la résonance de cette séquence avec la résonance de tout, ou en partie, du chromosome.
- −. Le comment de la création d'une protéine à partir de la résonance d'une séquence d'ADN peut s'expliquer simplement par la similitude presque parfaite entre ARN et ADN. La 1ère étape est donc un simple appariement physique de l'ARN avec l'ADN. Du point de vue des 1ères étapes de l'évolution moléculaire, on ne parlera pas d'ARN, d'ADN et de protéines, mais de groupes de monomères simples, non liés, d'ARN, d'ADN et d'aas. Ces groupements sont en interaction permanente avec le liposome et les ions du milieu interne. L'ensemble se structurant et s'organisant au fur et à mesure, produisant une résonance globale qui provoquera la création des 1ères liaisons covalentes spécifiques du vivant.
- Le transfert et la transformation de la résonance de l'ADN vers les protéines se fera avec les ribosomes et les ARNs ribosomaux et de transfert. Du point de vue des PEEMOV, l'interaction entre les groupements de monomères ARNs et les aas libres sera très forte à cause de la grande réactivité du 2'OH de l'ARN et de la tête zwitterionique des aas. C'est cette réactivité des monomères alignés en simple brin, transportant la résonance de l'ADN, qui va structurer l'état vibratoire des molécules avoisinantes, et en premier lieu H2O et les aas, puis de l'ensemble de l'intérieur du liposome. Les aas vont répondre en partie à cette résonance de l'ARN, de la même façon que ceux qui étaient en interaction avec l'ADN, en essayant de reproduire la résonance originale et ce faisant ils s'organiseront en une chaîne mimant la future protéine. Mais ici la lutte sera féroce entre ARN et aas et conduira à la machinerie ribosomale. Les ARNs ribosomaux et de transfert sont produits aussi simplement par appariement, mais la résonance de l'ADN y est conservée parce qu'ils ont des séquences qui adoptent plus ou moins la structure double brin qui les protège des aas. C'est cette dualité exposition totale (ARNm simple brin) ou partielle (ARNs ribosomaux et de transfert) des 2'OH de l'ARN qui sera propice à la création de la machinerie ribosomale.
- −. Le RNA world: Lui, il explique comment créer un gène à partir des monomères d'ARN et des aas en se basant sur le hasard des combinaisons. Mais le hasard, n'est pas par définition un pourquoi, il n'impose aucune contrainte physique. Le pourquoi du RNA world aboutit à la formation, au hasard, d'une très courte séquence de bases (tout au plus quelques dizaines) et pour aller jusqu'à quelques centaines de bases le nombre de combinaisons devient astronomique. Or le comment de la création d'un gène dans cette théorie nécessite non seulement des protéines complexes pour la transcription reverse, mais demande une quantité phénoménale de monomères d'ARN. Ce concept est l'archétype de la création d'une liaison covalente par l'homme. Nous assemblons d'abord les ingrédients en proportions adéquates puis on passe au processus physiques: chauffage, agitation, séquencement des étapes, contrôle des durées et séparation et mise à l'abri des produits obtenus. Avec l'auto-organisation du liposome et de ses éléments internes (ADN, ARN, aas, ions) tous les processus physiques résultent des propriétés physiques de chaque molécule ou de groupes de molécules qui créent à leur tour des contraintes physiques qui définissent le pourquoi, et le comment résulte de la séquence dans le temps de tous ces processus. Le liposome n'a pas besoin de rassembler les ingrédients en quantités adéquates dès le début, mais c'est par le transfert des vibrations de ses éléments internes à son environnement qu'il attire les ingrédients au fur et à mesure des contraintes créées par les nouvelles structures. J'allais dire, au fur et à mesure de ses besoins, ce qui procède de la finalité. Non, il n'y a pas de finalité tout comme il n'y a pas un programme ou une entité intelligente qui met une base à côté de l'autre pour créer un gène conçue d'avance par le programme.
Constat issu de la répétition dans les génomes − 4.3
modifier- 15.11.16
- Synthèse sur les répétitions dans les génomes des 4 classes de procaryotes étudiées: autre-bactéries, cyanobactéries, euryarcheota et crenarcheota.
Dissymétrie des répétitions AT et GC. Hypothèse de la résonance dans l'ADN − 4.3.1
modifier- 16.11.16 Paris
Le constat − 4.3.1.1
modifier- La dissymétrie entre les répétitions >4AT et >4GC des autre-bactéries n'est pas due à la propriété spécifique de la proline de replier la séquence primaire des protéines. En effet selon cette propriété, s'il y a une grande répétition de Pro successifs, cela réduirait le nombre de conformations possibles des protéines et le nombre de ces protéines augmentant avec le contenu en GC (%GC) rigidifierait le procaryote.
- Ensuite la répétition de la proline n'est pas seulement due au codon ccc dénombré par mes programmes, mais aussi par la répétition des 3 autres codons où n'apparaît pas le triplet ccc, comme ccacctccg avec 3 Pro qui correspondrait à 3 fois ccc comptés. Par ailleurs la majorité des répétitions comptées sont inférieures à 13, soit 4 Pro ce qui n'est pas excessif, et suffisent à expliquer le comportement des classes étudiées. Or la majorité des cyanobactéries, des crenarcheota et une partie des autre-bactéries ont des taux >4GC qui dépassent largement l'aléa.
- De même il n' y a aucune raison pour que la répétition du codon ggg de la glycine ne soit pas élevée, cet acide aminé n'ayant aucune propriété ni physique ni chimique liée à son radical, celui-ci se réduisant à un H. La glycine servirait de rembourrage et le codon ggg devrait être répété un nombre de fois beaucoup plus grand que la Lys, très réactive, et même que la Phe dont le radical est encombrant spatialement. Or les taux >4AT, propores à Phe et Lys, dépassent largement et pour tous les génomes étudiés (autre-bactéries, cyanobactéries et euryarcheota, sauf une partie des crenarcheota) l'aléa.
- Cette dissymétrie pour les autre-bactéries et la différence de comportement généralisée de ces taux ne peut être expliquée que par les différences des propriétés physiques des 2 paires AT et GC dans l'ADN. Depuis la découverte de la structure de l'ADN on sait que la force qui apparie A et T est beaucoup plus faible (2 liaisons hydrogène) que celle qui apparie G et C (3 liaisons hydrogène). Mais ceci n'explique pas le comportement des taux >4GC car le contenu en GC, augmentant jusqu'à 75%, la quasi totalité des paires GC pour la majorité des autre-bactéries ne présente pas les répétitions comptées par les programmes (c/g.c/g.c/g jusqu'à 13 fois ) mais des répétitions alternées (c/g.g/c.c/g.g/c...).
- Donc le comportement des >4GC ne peut être expliqué que par une propriété physique propre aux répétitions comptées. Cette propriété ne peut pas être attribuée seulement à la différence géométrique (encombrement spatiale) entre pyrimidine (C) et purine (G) créant une dissymétrie géométrique et donc physique nécessaire, peut-être aux changements dynamiques de l'ADN lors des polymérisations. En effet certains procaryotes présentent anormalement des répétitions >4GC aussi longues que les taux >4AT quand ceux-ci se trouvent dans des organismes à contenu en GC (%GC) très faibles (voir Notes sur les répétitions longues). Alors que pour les taux >4AT les répétitions élevées augmentent progressivement avec la décroissance de %GC, les répétitions longues des taux >4GC apparaissent de façon discontinue que le %GC soit élevé ou non. Souvent les répétitions longues de ggg se trouvent dans des protéines fonctionnelles, mais c'est moins fréquent pour ccc. Et les répétitions les plus longues des 2 taux sont des ccc. Les répétitions longues, au-delà de 13, dans les 4 classes de procaryotes étudiés se trouvent dans 28% des autre-bactéries, 14% des cyanobactéries, 14% des euryarcheota et 35% des crenarcheota. On peut encore attribuer une différence géométrique pour les brins portant des répétitions plus faibles, inférieures à 14, mais pour les répétitions aussi courtes de 5 à 8 (ou à peine 2 codons d'aas) on ne peut plus le faire car elles devraient être aussi fréquentes que les séquences de même longueur représentant des aas quelconques et distribuées au hasard. Ces répétitions courtes représentent en général 99% du total des répétitions qu'elles soient AT ou GC.
Hypothèse de la résonance dans l'ADN − 4.3.1.2
modifier- Si les répétitions très longues ou moyennes, ccc ou ggg, peuvent intervenir dans la dynamique de l'ADN et que le comportement des répétitions courtes (supérieures à 4 et inférieures à 14) de ggg ne peut être expliqué par les propriétés protéiques de la Gly, c'est qu'il y a une autre propriété physique intrinsèque aux répétitions >4GC. J'émets alors, comme hypothèse, que c'est la résonance électronique entre les nuages électroniques des bases, nuages confinés dans l'ADN (et non dans l'ARN), qui est responsable du comportement des taux >4GC. Cette résonance existe aussi dans les paires AT et leur répétition, mais elle est différente de celle des paires GC. Cette résonance est couplée avec la force des liaisons hydrogènes. Elle devrait caractériser chaque codon des protéines et toutes les séquences de plus de 3 bases qui constituent le reste de l'ADN.
L'adaptation génétique des procaryotes par la résonance de l'ADN − 4.3.1.3
modifier- L'étude des répétitions étudiées ici, c'est-à-dire la variation des taux >4GC et >4AT en fonction du contenu en GC (%GC), nous permet d'apprécier une partie de cette résonance et ses comportements dans des environnements variés avec différentes architectures cellulaires. La résonance dans un environnement donné sera modulée par l'architecture adoptée par la cellule. Chez les procaryotes l'évolution se décline de 2 façons différentes, soit l'environnement tue une partie d'une population et alors c'est la sélection naturelle qui constitue le moteur de l'évolution, soit les cellules ne meurent pas et ne font que se diviser éternellement et alors c'est l'adaptation génétique qui constitue le moteur de l'évolution. Les environnements létaux sont nombreux. On peut citer les changements brutaux des conditions physiques ou les milieux toxiques comme les métaux lourds ou encore les antibiotiques. Les environnements non létaux peuvent être constants ou variant graduellement dans l'espace et le temps. Par constant et variant graduellement, je veux dire du point de vue macroscopique car le propre de la vie c'est la mobilité et la variation au niveau microscopique et surtout nanométrique ce qui permet la mise en place de toute organisation moléculaire notamment aux PEEMOV.
- L'adaptation génétique des procaryotes se fait avec le couple ADN et ses protéines:
- Si l'adaptation instantanée aux changements du milieu se fait grâce aux réseaux de rétroaction du métabolisme, des enzymes, de la traduction et de la transcription, l'adaptation à long terme qui va modifier le génome va se faire au niveau du couple ADN et ses protéines. Ce couple là doit mettre en route d’innombrables mécanismes physico-chimiques en réaction aux contraintes imposées par le milieu et les changements de structure qui en découlent. Ces mécanismes ne sont pas programmés d'avance dans l'ADN mais leur programmation se fait dans le temps et avec le changement de la séquence des bases dans l'ADN. Ce n'est pas une organisation spatiale comme dans un cristal, c'est une organisation dynamique réversible. Ce n'est possible que si la complexité reste compatible avec cette dynamique et qu'il n'y ait pas de rupture dans cette dynamique. Les ruptures concernent notamment les environnements létaux. Par ailleurs quand la complexité grandit la réversibilité de la dynamique n'est plus possible et il y a un arrêt qui rend l'organisme soumis à la dégradation du temps. Cette adaptation à long terme et transmissible génétiquement n'est possible que grâce à la division cellulaire par fission qui n’entraîne pas la mort. Les organismes eucaryotes ne pouvant se diviser par fission ne transmettent qu'une infime partie des changements (réparation, recombinaison mitotique, mutations) qui se font avant la méiose et ces changements ne sont pas le résultat de l'interaction directe avec l'environnement car l'ADN est protégée dans le noyau. L'évolution génétique des eucaryotes se fait alors par la sélection naturelle. Mais l'adaptation par réaction aux changements de leur environnement existe toujours sous forme d'une plasticité accrue de l'organisme acquise au cours de l'évolution par sélection naturelle.
- Les mécanismes en œuvre dans le contrôle de la résonance dans l' ADN:
- L'adaptation génétique des procaryotes se fait donc avec le couple ADN et ses protéines. Les changements qui interviennent dans la séquence des bases peuvent se faire avant la division, ce sont les processus de réparation, de conjugaison (recombinaison), de mutagenèse, de transposition et d'insertion d'ADN, étranger ou non. La transcription à proprement parler, produisant juste de l'ARN, n'intervient pas directement dans les changements, mais elle intervient indirectement par les contraintes topologiques qu'elle crée pendant la procession de la polymérase le long de l'ADN. Par contre les facteurs de transcription et toutes les protéines de protection (comme les histones) ou de modifications épigénétiques (méthylation des cytosines) contraignent les processus ci-dessus qui effectuent le changement de la séquence des bases.
- Les changements dans la séquence des bases se fait aussi pendant les polymérisations: réplication et transcription reverse. Ces changements peuvent être aussi importants que ceux d'avant la division cellulaire. Les changements par polymérisation résolvent les contraintes accumulées pendant la phase de croissance et celles imposées par la dynamique de la polymérisation et la topologie de l'ADN. Toutes les protéines intervenant dans ces processus sont en interaction avec les conditions physiques du milieu extérieur et les molécules de toutes sortes qui viennent de l'extérieur.
- L'ADN peut accumuler les contraintes par l'intermédiaire de la conformation des protéines qui la protègent (comme les histones) ou par les protéines qui s'y fixent. L'ADN réagit à son tour par un changement local ou général de sa résonance et c'est pendant la réparation-recombinaison et la réplication que se fait le changement.
- L'architecture cellulaire est un modulateur de la résonance de l'ADN:
- L'architecture cellulaire est un modulateur des changements induits par le milieu extérieur. Effectivement les contraintes du milieu extérieur vont être différentes quand on passe d'une membrane d'archées, très complexe et retenue par l'évolution pour contrer les conditions extrêmes du milieu extérieur, à une membrane de bactéries. Mais les contraintes du milieu intérieur peuvent aussi agir quand la dynamique de la cellule est régie par un système énergétique différent. C'est le cas des cyanobactéries qui font de la photosynthèse, utilisant un réseau énergétique différent des hétérotrophes ou des lithotrophes ou des chimiotrophes. Les contraintes internes sont plus régulières dans le temps et s'apparentent aux environnements constants ou variant de façon graduelle nécessaires à l'adaptation génétique. Si j'ai réparti les procaryotes étudiés en 4 classes distinctes par un aspect de leur architecture, membrane entre bactéries et archées, photosynthèse et non-photosynthèse entre cyanobactéries et autre-bactéries, je n'ai pas envisagé d’approfondir les architectures dans ces groupes. Notamment pour les groupes thermophiles (tos) des autre-bactéries, je n'ai pas étudié leur architecture et de même pour les symbiotes (zin, crp). Les autre-bactéries peuvent contenir des hétérotrophes et des autotrophes. Je ne connais pas aussi la différence d'architecture cellulaire entre les euryarcheota et les crenarcheota. Mais j'évoquerai certaines architectures au moment d'interpréter les résultats obtenus.
Les états de résonance définis à partir des répétitions dans les génomes − 4.3.2
modifier- 17.11.16 Paris
Distinction entre la force des appariements des paires de bases et la résonance − 4.3.2.1
modifierLa distinction entre force d'appariement et résonance dans l'ADN a été avancée dans la synthèse des génomes des autre-bactéries pour expliquer la similitude de la progression des 2 courbes des taux >4AT et >4GC (bien qu'elles soient dissymétriques par rapport à l'aléa) attribuant la différence d'intensité de la progression à la force d'appariement, et les décrochages de cette progression entre les groupes extrêmes, à un phénomène de résonance où les amplitudes de 2 entités résonantes décuplent quand on atteint la fréquence de résonance. L'hypothèse que j'ai avancée au chapitre précédent attribue la dissymétrie des 2 courbes à la résonance électronique dans l'ADN et concernerait toutes les paires de bases. Or la synthèse des génomes des autre-bactéries souligne que les décrochages dus au phénomène de résonance se fait simultanément pour les 4 répétitions >4AT (a et t) et >4GC (c et g). Ce qui veut dire que notre hypothèse du chapitre précédent attribue localement ou à tout le chromosome une résonance propre qui n'est pas la juxtaposition de paires de bases résonantes côte à côte.
Définition d'un état de résonance de référence − 4.3.2.2
modifier- L'hypothèse de la résonance dans l'ADN stipule que cette résonance est couplée avec la force de l'appariement d'une paire de base. Pour pouvoir définir un état de résonance de référence il va falloir distinguer entre résonance et appariement. Nous venons de voir que c'est le cas en définissant des groupes par une rupture dans leur progression des taux de répétition.
Mais, suivant les développements que j'ai effectués à partir de l'hypothèse de la résonance dans l'ADN, celle-ci est susceptible de varier localement avec la séquence (séquence protéique, de contrôle ou d'ADN étranger), de varier entre des organismes aux architectures cellulaires différentes, entre l'évolution de leurs mécanismes d'adaptation et les milieux dans lesquels ils vivent. Il nous faudrait un groupe assez large, homogène dans la résonance de taux >4GC faibles et constants pour qu'on puissent distinguer des variations dues aux autres paramètres dans d'autres groupes, et un groupe homogène dans la progression des taux >4AT qui de toutes façons progressent rapidement. Toujours pour pouvoir distinguer l'influence d'autres paramètres il faut que ces autres paramètres dans le groupe de référence soient homogènes et de bas niveau de complexité et d'évolution. C'est ainsi que je supposerais que le groupe qu'on aura défini, a des organismes aux architectures impactant peu la résonance, que leurs mécanismes d'adaptation sont peu évolués et que les milieux dans lesquels ils vivent impactent de façon égale leur résonance. Pour ce qui concerne les séquences il est évident qu'on est servi du point de vue homogénéité et quantité par la forte proportion des génes codant des protéines chez tous les procaryotes ou presque. Cette proportion dépasse les 80% du génome.
Arriver à ce point nous allons en fait étudier la variation de la résonance électronique dans les gènes de protéines. Et du coup nous abordons le paradoxe de l’œuf et de la poule de la façon suivante: est-ce que le code génétique à 3 bases défini par la traduction n'est il pas défini d'abord dans l'ADN par la résonance électronique? Nous allons voir qu'en combinant force d'appariement et résonance on peut expliquer les regroupements des triplets en 2 et en 4, chaque groupe soutenant un acide aminé non déterminé.
- Le groupe 7, comprenant 74 autre-bactéries, s'étend sur un intervalle de 68 %GC, il a une croissance moyenne très lente de 0.07 %00 de >4GC entre 2 bactéries successives (progression dans les groupes homogènes). Ce qui fait à peine 1% par rapport à sa moyenne de 6.8 %00. Le groupe du taux >4AT qui le représente le mieux est le groupe III qui s'étend sur intervalle de %GC le plus long de ces groupes, 20 %GC. Le groupe 7 contient tout le groupe III puisqu'il s'étend de 35 à 69 %GC alors que le III s'étend de 41 à 61 %GC. La croissance du groupe III est élevée de 0.50 mais régulière puisqu'elle est entre 2 croissances moyennes entre 0.36 et 1.45 sans décrochage. Sa croissance relative à la moyenne de 36 %00 ne fait que 1.4 %, c'est la valeur la plus faible de ces groupes, proche de celle du groupe 7 de 1%. Ce groupe correspond aux critères recherchés ci-dessus avec les hypothèses sur les architectures, les mécanismes d'adaptation et les milieux. Une étude approfondie est nécessaire pour consolider ces 3 dernières hypothèses.
- La référence à l'aléa n'est plus de mise: L'aléa nous a permis de constater que les taux des répétitions ne se faisaient pas au hasard et que ceux de A et T d'une part, et G et C d'autre part, se faisaient dans des gammes disjointes (c'est ce que j'appelais dissymétrie par rapport à l'aléa). Mais l'analyse fine de ces taux, qui nous a amené à l'hypothèse de la résonance, nous a montré que chaque valeur de ces taux correspondait à une adaptation génétique précise se manifestant par une architecture cellulaire distincte. Le hasard n'avait pas sa place dans la dynamique de ces répétitions. Aussi j'étudierai les états de résonance dans des groupes de procaryotes aux taux homogènes et non par rapport aux écarts relatifs à l'aléa.
Les états de résonance chez les autre-bactéries − 4.3.2.3
modifierLes différents groupes − 4.3.2.3.1
modifier- Le groupe 7 ou ( G7,A39) des taux >4GC, on a vu, est homogène et lui correspond un seul groupe du taux >4AT, le groupe III qui contient 56 bactéries. En regroupant les bactéries suivant l'hypothèse de la résonance (voir chapitre précédent) sans faire référence à l'aléa, ce groupe contient 80 bactéries dont tme tde qui ne pouvaient plus être rangés avec des taux >4GC du groupe 2 avec leurs contenus en GC (%GC) élevés. Les moyennes de ce groupe (G7,A39) deviennent 6.6 et 39 au lieu de 6.8 et 35, mais j'ai gardé le nom (G7,A35) pour le fichier png. La représentation en diagramme de ce groupe donne une droite du taux >4AT en fonction du %GC avec une pente élevée de -2.9 et un R2 de 0.83. Les protéines donc de ce groupe (G7,A39) doivent avoir un taux de répétition de Lys et Phe (>4AT) qui diminue régulièrement de 90 %00 pour lat à 2 %00 pour rer, entre 36 et 68 %GC, en ayant toujours un taux >4GC moyen de 6.6 %00 ±1.4 %00 (3.78-9.77). 2 bactéries se détachent par leurs taux >4AT: tme (31.4,4.8,136) et tde (37.9,4.0,127). Ces protéines représenteraient la grande variété des enzymes du métabolisme central ainsi que les protéines en interaction avec les acides nucléiques (taux >4AT). Les protéines membranaires, contenant beaucoup de Pro pour les replier ne devraient pas changer beaucoup (taux >4GC) dans ce groupe. Tableau numérique des diagrammes, puce "groupage suivant l'hypothèse de la résonance".
- Le groupe 2 a des taux >4GC parmi les plus faibles et recouvre les groupes V et IV du taux >4AT. Tableau numérique des diagrammes, puce "groupage suivant l'hypothèse de la résonance". Il est constitué de 2 sous-groupes aux contenus en GC différents
- Le groupe (G2,A158): Il contient 22 bactéries. Contenus en GC entre 14 et 31 %GC. Les plus faibles contenus en GC (%GC) de ce groupe sont la plupart des symbiotes au génome court. Symbiotes : zin[4], crp[5], cru[5], wbr[6], sms[7] , ple[8], buc[9], rip[10], Autres : mcac[11], uur[12], fnc[13], asf[14], cbl[15]. Ce groupe se distingue par ses taux >4GC les plus faibles, 1.6 %00, au-dessus de l'aléa comme si les taux excessifs de >4AT étaient renforcés par la résonance des appariements plus solides des répétitions de G et C. Mais une interprétation du point de vue protéine, et non ADN, c'est que les membranes de ces symbiotes ayant disparues[16] les taux de >4GC observés sont ceux des protéines restantes rapportés à un ADN petit. Les taux excessifs >4AT sont dus à une symbiose très poussée. Ce groupe se distingue aussi du groupe de référence par la manifestation de la résonance représentée par le fort décrochage des taux >4AT.
- Le groupe (G2,A86) : C'est le groupe 23 des écarts relatifs. Il contient 16 bactéries. Leur contenu en GC débute à 29 %GC en décalage net par rapport au groupe (G2,A158). Ils ont tous des taux >4GC sous l'aléa avec une moyenne de 2.1 %00, 3 fois plus petite que celle du groupe de référence, 6.6. Il fait suite au groupe de référence parce qu'il est sous l'aléa. Ses taux de >4AT sont modérés mais largement supérieurs à ceux de référence et il subit un décrochage au tout début du groupe 2, à 43 %GC. Aucun comportement lié au milieu ou à l'architecture n’apparaît à 1ère vue. Le décrochage des taux >4AT le différencie du groupe de référence. C'est du à la résonance des répétitions A et T. Les mécanismes de réparation ne semblent pas être sollicités comme dans le groupe (G2,A158).
- Le diagramme des groupe 14 et 25 : voir le diagramme gc60 et les Tableaux numériques du diagramme, puce "groupage suivant l'hypothèse de la résonance". Ce diagramme réunit les groupes définis par les taux de >4GC compris entre 10 et 18 %00 (groupes G14) d'une part et ceux compris entre 20 et 33 %00 (groupes G25) d'autre part. Ces groupes ont un contenu en GC compris entre 47 et 75 %GC. J'ai ajouté le groupe Gr qui correspond au groupe de référence, (G7,A39) défini dans cet intervalle de %GC. Ceci nous permet d'observer l'étagement de 5 groupes. Le groupe G68, comprenant 12 bactéries et ayant des taux élevés de >4GC, réduirait l'échelle des 5 groupes précédents et rendrait l'observation difficile. Il sera décrit relativement à ce diagramme. Pour construire ce diagramme, avec Calc, il suffit de faire une colonne continue de %GC comme abscisse pour les 5 groupes, et de mettre dans des colonnes différentes les taux >4AT et >4GC de chaque groupe. J'ai défini ainsi 6 colonnes en plus du contenu %GC: >4AT, >4GC25, >4GC14, >4GCr, >4ATr, >4AT1. ">4AT" contient les taux >4AT des 2 groupes (G14,Ar) et (G25,Ar), le suffixe r pour référence, ayant un %GC compris dans la gamme 47-67 %GC comme le groupe Gr. ">4GC14" les taux >4GC des groupes (G14,Ar) et (G14,A1) et ">4GC25" ceux de (G25,Ar) et (G25,A1). ">4GCr et >4ATr" représentent les 2 taux du groupe Gr. ">4AT1" représente le taux >4AT des 2 groupes (G14,A1) et (G25,A1). J'obtiens ainsi 6 nuages de points dont 4 sont disjoints: les 3 nuages des taux G7, G14 et G25 ont des points minuscules pour ne pas encombrer le diagramme mais sont représentés par leurs courbes de tendance qui sont des droites légèrement inclinés; la disjonction de ces nuages a été définie par le groupage des taux >4GC. Le nuage du taux >4AT1 des 2 groupes A1 représenté par des billes est isolé et je n'ai pas représenté sa courbe de tendance. Les nuages de carrés bleus et rouges ne sont pas disjoints et se confondent même; ils représentent les taux >4AT réunis (bleu) des 2 groupes (G14,Ar) et (G25,Ar) d'une part et le taux >4ATr (rouge) du groupe (Gr,Ar). La courbe de tendance (rouge) de >4ATr est une droite dont l'équation (rouge) a une pente moins élevée que celle du diagramme (G7,A39), -2.32 contre -2.85, car la courbe globale des taux >4AT des 192 autre-bactéries est un polynôme de degré 3. La courbe de tendance (bleue) de >4AT est une droite dont l'équation (bleue) est quasi identique à celle des taux >4ATr. On montre ainsi que quel que soit le %GC le taux >4AT en général (groupes Ar, Gr et A1) suit une courbe de tendance polynomiale sans étagements. Alors que les taux >4GC ont 2 étages aux faibles taux de %GC et au moins 4 (avec le groupe G68) aux forts taux de %GC. Je peux alors interpréter ces groupes comme suite, en attribuant le taux >4AT au métabolisme et le taux >4GC aux structures:
- Le groupe (G14,Ar), 1er groupe en évolution vers les thermophiles, il renforce ses protéines par des répétitions ggg et ccc sans pour autant augmenter les protéines membranaires qui contiendraient plus d'aas aliphatiques.
- Le groupe (G25,Ar), évolution plus poussée vers les thermophiles en augmentant comme (G14,Ar) les répétitions ggg et ccc. Est-ce qu'ils se diffèrent aussi par une augmentation des protéines membranaires ?
- Le groupe (G14,A1), le taux le plus élevé de %GC laisse penser que le taux de G14 doit correspondre à une augmentation des protéines membranaires.
- Le groupe (G25,A1), le taux de >4GC double du précédent et le taux élevé de %GC laissent penser que les protéines membranaires acquises avec le groupe précédent se renforcent avec plus de répétitions ggg et ccc. Soit c'est une tendance vers la thermophilie, soit c'est une évolution vers une organisation de structures plus solides qui leur permettent de s'adapter à une plus grande variété de milieux, soit encore une augmentation du génome par des séquences non codantes et l'on se dirigerait vers la situation des eucaryotes qui commence avec les protistes comme la levure.
- Le groupe 68 les thermophiles: voir le tableau numérique de ce groupes. Ses taux élevés en >4GC, ses taux en >4AT évoluant comme ceux des groupes G14 et G25, son contenu en %GC inférieur à 70 %GC et la taille faible des chromosomes (sauf pour sur) sont les caractéristiques des thermophiles résistant à la température.
Le code génétique défini par la résonance dans l'ADN − 4.3.2.3.2
modifier- Quand le %GC est très fort, aux alentours de 65 %GC (voir ci-dessus les groupes 14, 25 et 68), si la taille du chromosome est faible (donc manque de répétitions AT) la résonance des >4AT sera renforcée par l'Asn accolée à la Lys et la Leu à la Phe, ces paires possédant en commun les 2 1ères bases, pour donner des répétitions supérieures à 4. Ce qui fait que la résonance crée un lien de corrélation dans l'ADN entre Lys/Asn et Phe/Leu. Comme je ne sais pas estimer la résonance des codons ayant les 2 1ères bases différentes par l'étude présente, j'émets alors l'hypothèse suivante: les aas à 2 codons seraient réunis par la résonance dans l'ADN. C'est ainsi qu'on observe un lien extraordinaire entre Asp et Glu qui sont les seuls anions parmi les 20 aas et qui ne diffèrent que par un CH2. Asn et Gln qui diffèrent aussi par un seul CH2, ayant une fonction beaucoup moins réactive ne sont pas liés dans l'ADN. La résonance, détectée dans cette étude, unit la Lys et l'Asn pour répondre à la résonance de l'ADN et non pour réunir 2 fonctions chimiques apparentées, dans les protéines. Les 2 1ères bases serviraient alors à réunir 2 résonances identiques.
- Si on applique le même raisonnement pour les %GC très faibles aux alentours de 30%, les codons ccc et ggg ayant des effectifs de répétitions très faibles dans le groupe 7 de référence pourraient compenser leur résonance dans l'ADN avec les codons commençant par cc et gg. La conséquence de l'hypothèse précédente, c'est que la résonance des 2 1ères bases constituées que de G ou C étant affaiblie par l'appariement fort des paires GC, doit être plus faible que pour les 2 1ères bases ayant 1 ou 2 bases A ou T. Si, alors, on suppose que les codons commençant par cc,cg,gc,gg portaient 2 aas différents (par exemple ccc et cct pour la Pro et cca et ccg pour la Gly), cela voudrait dire que la résonance de ces codons l'emporterait sur l'appariement pour créer des liens de corrélations. Ce qui serait contradictoire avec l'affaiblissement de la résonance par l'appariement. Aussi pour compenser cette affaiblissement les codons commençant par cc,cg,gc,gg ne devraient coder que pour 1 seul acide aminé. On obtient alors 4 aas à 4 codons, mais on ne sait pas encore faire la correspondance entre aa et codon.
- Outre les codons commençant par cc,cg,gc,gg qu'on vient de voir, je ne connais pas aussi la résonance des codons at,ta. Si on fait intervenir l'appariement comme précédemment, alors on peut dire que, l'appariement des paires AT étant plus faible que celui de la paire GC et équivalent entre AT et TA, les codons at,ta devraient avoir la même résonance que tt,aa et donc se comporter comme eux avec 2 aas pour at et 2 autres pour ta. Les codons taa et tag doivent avoir une résonance bien spéciale dans l'ARN pour servir de codon stop lors de la traduction. En tout cas la Tyr se trouve non lié par corrélation et l'Ile se trouve associée à la Met. Ce qui laisse penser que tout codon a une résonance spécifique.
- Ce qui nous amène à considérer la résonance par rapport à la 2ème base des codons. Cette idée vient naturellement d'après les classements qu'on vient de faire et d'après le code qu'on connaît, attribué à l'ARN pour la traduction. La 3ème colonne du code ne contient que des paires d'aas associés aux codons ayant comme 2ème base A tel que la Lys. Donc la colonne 3 doit avoir "une forte résonance−un faible appariement" et les aas doivent être liés par corrélation dans l'ADN, sauf pour la Tyr. La colonne 2, elle, ne contient qu'un seul aa pour 4 codons ayant la même base en 1ère position et C en 2ème position tel que Pro. Donc la colonne 2 doit avoir "une faible résonance−un fort appariement".
- Les colonnes 1 et 4 quoique contenant Phe (ttt) et Gly (ggg) ne sont pas homogènes. Ce qui m'a amené à considérer la 1ère base des codons. Il est évident que l'homogénéité des colonnes 2 et 3 rend la position de la 2ème base dominante, en termes de résonance et d'appariement, sur la 1ère base. Ce qui fait que les colonnes 1 et 4 ne sont pas homogènes par rapport à la résonance et l'appariement, et suivront la force des lignes. Comme pour les colonnes la ligne 1 a la force de t en 1ère position et se déclinera en "une résonance moyenne−un faible appariement" de même pour la ligne 3. Les lignes 2 et 4 ont la force de c et g en 1ère position et se déclinera en "une faible résonance−un appariement moyen".
Le tableau suivant récapitule la répartition des forces d'appariement et de résonance. La notation rt.ag correspond à la résonance de la base t de la ligne (t) et à l'appariement de la base g de la colonne (g). rt est mis en gras pour montrer que c'est la force de la ligne qui domine. 1aa et 2aa veut dire que le carré de codons contient 1 ou 2 acides aminés.
rt.rt => 2aa | rt.ac => 1aa | rt.ra => 2aa | rt.ag => 2aa |
ac.rt => 1aa | ac.ac => 1aa | ac.ra => 2aa | ac.ag => 1aa |
ra.rt => 2aa | ra.ac => 1aa | ra.ra => 2aa | ra.ag => 2aa |
ag.rt => 1aa | ag.ac => 1aa | ag.ra => 2aa | ag.ag => 1aa |
- On peut se demander pourquoi les 2 codes de l'ADN et de l'ARN sont identiques. Alors que l'ARN simple brin et la traduction directionnelle expliquent bien que le code est linéaire et a un sens, l'ADN est double brin et les réparations, que cela soit avec les protéines de réparation ou celles de recombinaison, peuvent se faire dans les 2 sens. On peut dire, d'abord que la dissymétrie de l'ADN avec un grand et un petit sillon permet d'avantager un brin sur l'autre, ensuite que la réplication, pendant laquelle se font les "mutations" silencieuses ou réparations, est directionnelle. Et même les réparations et les recombinaisons se font sur un seul brin sur de très courtes distances.
- Certes ces caractéristiques physiques et topologiques pourraient expliquer la ressemblance avec la traduction. Mais dans le cas contraire cette explication provoque de toute façon une polémique car elle applique les concepts de l'ARN à l'ADN et tout au plus on pourrait dire que les caractéristiques décrites ci-dessus pourraient faciliter les réparations. L'explication doit se trouver dans la dynamique de l'ADN même. Cette dynamique met en œuvre sa résonance qui est propre à elle et diffère radicalement de la résonance de l'ARN basée sur un simple brin. Pour trouver une direction de réparation il faut se rappeler le choix du brin à transcrire par la polymérase. La polymérase est aidée par un grand nombre de facteurs de transcription. Mais le choix se fait à partir de la résonance locale de l'ADN et de la séquence en aval à transcrire. Résonance locale et séquence sont intimement liées par l'appariement, mais la force pour désapparier et casser un des 2 brins dépend de la dissymétrie des répétitions sur les 2 brins comme on l'a vu dans les répétitions longues. Et nous retrouvons encore le lien entre résonance et répétitions. Une fois le brin cassé, le sens de la transcription se fait du côté qui provoque le moins de contraintes. Les mécanismes de réparation, de recombinaison et la réplication doivent suivre les mêmes principes. Ce qui veut dire que les réparations se font dans le même sens que la traduction sans pourtant qu'il y ait transfert d'organisation (lors de la transcription on parle de transfert d'information).
- La 3ème base du codon. Pourquoi le code de l'ADN dans les gènes de protéines serait-il de 3 aussi? Et encore c'est la résonance électronique de l'ADN qui peut expliquer un code à 3 bases dans l'ADN. En effet la résonance électronique est un phénomène ondulatoire, ou plutôt quantique, parce qu'il est sous-tendu par les électrons et la longueur d'onde la plus petite, donc la plus énergétique, dans l'ADN est constituée de 3 bases: une base au milieu, figurant le ventre de l'onde, et les 2 bases de part et d'autre, figurant les 2 nœuds. Seulement l'ADN étant long et linéaire, va être parcourue par diverses ondes de longueurs différentes et faisant intervenir plus de 3 bases, traduisant les résonances locales et la dynamique de l'ADN. Le sens de réparation empreinte ces ondes et différencie donc un nœud par rapport à l'autre. La 3ème base aura aussi une résonance et une force d'appariement. Mais sa résonance est la plus faible, se trouvant en 3ème position par rapport à la dynamique ondulatoire de l'ADN, et relativement aux mécanismes de réparation elle agira par son encombrement stérique comme dans l'ARN pendant la traduction.
- Précision (16.12.16) après correction sur ce dernier point: − − − la résonance forte distingue entre a,g et t,c et confond a,t et g,c par appariement. Ce qui crée le lien entre Lys et Asn dans l'ADN. Alors que la traduction et les réparations dans l'ADN confondent c,t et a,g par encombrement stérique. La résonance faible accompagnée d'un appariement fort de la 2ème base puis de la 1ère ne permet pas de distinguer les bases en 3ème position, ce qui donne 4 codons pour un seul acide aminé. Dans cette réflexion, pour qu'il y ait moins de confusion, il ne faudrait plus parler d'aas au niveau de l'ADN mais des 2 premières bases seulement puisque la résonance ne distingue pas entre a,t et entre g,c. Ce qui donne pour une résonance forte 2 fois 2 triplets de même poids, 2 triplets xx(a,t) et 2 triplets xx(g,c) pour un doublet xx donné en 1ère et 2ème position; Et pour une résonance faible accompagnée d'un appariement fort 4 triplets de même poids xx(a,t,g,c). L'affectation d'un aa à un triplet s'est faite aux PEEMOV pendant l'évolution de l'ensemble, aas libres et monomères d'ARN libres, vers la machinerie ribosomale. Voir dans wiki les variantes du code génétique− − −
- La conséquence de ce code dans l'ADN pour les gènes de protéines, c'est que ces gènes demanderaient de fortes contraintes, imposées par l'organisation, pour se constituer. Mais une fois constituées ces gènes sont conservés par la dynamique de l'ADN. Ils peuvent être transportés d'un chromosome à l'autre, manipulés par des mécanismes puissants comme le splicing et surtout être maintenu et conservés par les mécanismes de réparation. Ces gènes ont dus être construits dans les PEEMOV.
- Dans ce code chaque triplet a sa résonance propre, combinaison des 3 résonances des 3 bases, son appariement propre somme des 3 appariements des 3 bases. Donc chaque triplet aura une fréquence d'apparition dans le gène de la protéine qui dépendra de sa résonance propre et de la résonance du gène entier.
- Note du 3.12.16. Définition du code dans l'ADN par l'interaction des 2 nuages électroniques de 2 paires de bases adjacentes. En tenant compte que les réparations et les manipulations de l'ADN par ses protéines se font dans une direction donnée, ce qui revient à ne traiter qu'un seul brin à la fois, le code est le même que celui sur l'ARN, mais dans ce cas c'est l'intervalle entre les 2 paires bases qui sert de repaire et non une paire de bases. Si maintenant on part de la 1ère paire de base, le 3ème nuage électronique en interaction avec la 4ème paire de base n'est pas borné. Si maintenant les protéines de l'ADN glissent vers cette 4ème paire de bases, le code basé sur les intervalles reste toujours le même mais le code basé sur les paires de bases est déplacé d'un cran et l'ancienne 2ème base (colonne) devient une 1ère base (ligne). Ainsi avec les 4 bases de la 4ème position un codon correspondra à 1 carré de codons de la ligne correspondante. A la colonne 1 correspond la ligne 1, et respectivement colonne 2 ligne 2, colonne 3 ligne 3 et colonne 4 ligne 4. Nous retrouvons là les forces décrites précédemment, notamment colonne 2 (avec 4 aas à 4 codons) ligne 2 (avec 3 aas à 4 codons), colonne 3 (avec 7 aas et stop à 2 codons) ligne 3(avec 4 aas à 2 codons, 1 à 1 seul codon, 1 à 3 codons et 1 à 4 codons). Reste les 4 coins du tableau.
Les états de résonance chez les archées et les cyanobactéries − 4.3.2.4
modifier- Pour pouvoir comparer les états de résonance entre autre-bactéries, cyanobactéries, euryarcheota et crenarcheota j'utilise des données quantitatives des groupes consignées dans les 8 tableaux qui suivent ainsi que les diagrammes des répétitions en fonction du contenu en GC pour mieux illustrer les changements. Les liens aux diagrammes sont consignés dans un tableau à 8 cellules à la suite des données quantitatives, pour pouvoir naviguer aisément.
- Il faut se reporter au tableau de la constitution des groupes à progression homogène des autre-bactéries au chapitre 3.4.3.1.5 pour les définitions et la délimitation des groupes chez les cyanobactéries et les archées. Quand les effectifs sont faibles, comme chez les crenarcheota avec 20 seulement, les points de ruptures pourraient être élevés et rapprochés. Aussi pour les groupes III des crenarcheota et des euryarcheota j'ai du utiliser les valeurs semblables trouvées chez les autre-bactéries. Seulement cette coïncidence entre les 2 mêmes groupes pose le problème suivant: est-ce une caractéristique des archées ou cela est du à l’échantillonnage? D'autant plus qu'apparaît un 6ème groupe chez les 2 archées, le groupe VI. Nous reviendrons sur ce point pendant les comparaisons.
- J'ai déjà comparé ces 4 groupes de procaryotes avec les courbes de tendances des diagrammes au chapitre 3.4.6.2. J'ai pu dégager la ressemblance entre autre-bactéries et euryarcheota qui différent seulement par un léger déplacement des 2 courbes. Mais si les courbes des 2 taux >4GC des cyanobactéries et des autre-bactéries sont nettement différentes, celles des taux >4AT semblent être confondues. Les tableaux quantitatifs ci-dessous, basés sur les groupes à progression homogène ou groupe de résonance, vont nous permettre de mieux cerner la résonance d'un groupe qu'on pourrait mettre en parallèle avec son architecture cellulaire ou son environnement.
Tableau des groupes à progression homogène − 4.3.2.4.1
modifier- Tableau des groupes à progression homogène chez les archées. Effectué à partir des tableaux numériques correspondants.
crenarcheota groupes de >4AT à progression homogène | groupes de >4GC à progression homogène nom VI V IV III II I | 68 25 14 7 2 | min 60.49 44.13 22.98 12.57 5.64 3.96 | 35.80 21.91 11.42 4.40 2.42 max 90.91 47.52 34.84 18.44 10.23 − | 40.50 29.51 14.51 6.72 − effectif 3 2 3 3 8 1 | 2 5 6 6 1 moyenne 79.2 45.8 28.7 15.4 7.5 − | 38.1 25.9 13.1 5.4 − Pas 26.4 22.9 9.6 5.1 0.9 − | 19.1 5.2 2.2 0.9 − Pas % 33.3 50.0 33.3 33.3 12.5 − | 50.0 20.0 16.7 16.7 − | rupture 60.49 44.13 22.98 12.57 5.64 − | 35.80 21.91 11.42 4.40 − 47.52 34.84 18.44 10.23 3.96 − | 29.51 14.51 6.72 2.42 − Rupture % 21.4 21.0 19.8 18.6 29.8 − | 17.6 33.8 41.2 44.9 − %GC max 37.47 35.79 51.36 57.67 59.66 54.91 | 56.52 59.66 54.91 45.43 34.15 %GC min 30.03 35.73 35.69 45.34 43.10 − | 56.31 51.36 43.10 30.03 − Plage % 7 0 16 12 17 − | 0 8 12 15 − | **** **** **** **** **** **** **** **** | **** **** **** **** **** | Euryarcheota groupes de >4AT à progression homogène | groupes de >4GC à progression homogène nom VI V IV III II I | 68 25 14 7 2 | min 100.94 75.38 36.16 9.29 3.88 1.94 | 23.39 17.36 6.72 3.47 1.45 max 129.84 81.55 58.52 30.15 6.49 3.29 | 28.57 20.79 15.25 5.83 2.22 effectif 7 5 16 11 11 7 | 2 6 32 13 4 moyenne 115.4 79.4 47.1 19.8 5.2 3.0 | 26.0 18.6 10.1 4.5 1.8 Pas 16.5 15.9 2.9 1.8 0.5 0.4 | 13.0 3.1 0.3 0.3 0.5 Pas % 14.3 20.0 6.3 9.1 9.1 14.3 | 50.0 16.7 3.1 7.7 25.0 | rupture 129.84 100.94 75.38 36.16 9.29 3.88 | 28.57 23.39 17.36 6.72 3.47 − 81.55 58.52 30.15 6.49 3.29 | − 20.79 15.25 5.83 2.22 Rupture % − 19.2 22.4 16.6 30.1 15.2 | − 11.1 12.1 13.2 35.9 %GC max 33.10 42.68 54.51 60.64 66.64 67.91 | 60.64 67.91 66.72 47.86 35.97 %GC min 27.63 35.83 39.16 45.99 53.74 64.15 | 58.30 49.54 32.30 29.30 27.63 Plage % 5 7 15 15 13 4 | 2 18 34 19 8
- Tableau des groupes à progression homogène chez les bactéries. Effectué à partir des tableaux numériques correspondants des autre-bactéries et des tableaux numériques correspondants des cyanobactéries.
cyanobactéries groupes de >4AT à progression homogène | groupes de >4GC à progression homogène | nom V IV III II I | 68 25 14 7 2 | min 116.20 93.41 50.59 12.20 2.03 | 44.85 31.76 18.57 5.24 1.99 max 121.27 99.18 76.39 43.85 2.03 | − 37.20 26.17 15.63 4.08 effectif 4 5 24 15 1 | 1 4 7 29 8 moyenne 119.78 96.43 58.11 28.14 2.03 | 44.8 34.0 22.3 9.2 3.1 Pas 29.9 19.3 2.4 1.9 − | − 8.5 3.2 0.3 0.4 Pas % 25.0 20.0 4.2 6.7 − | − 25.0 14.3 3.4 12.5 | rupture 121.27 116.2 93.4 50.6 − | 44.85 44.85 31.76 18.57 5.24 − 99.2 76.4 43.9 − | − 37.20 26.17 15.63 4.08 Rupture % − 14.7 18.2 13.3 − | − 17.0 17.6 15.9 22.1 %GC max 31.34 34.96 49.63 62.00 68.71 | 68.71 60.24 62.00 55.48 43.27 %GC min 30.80 31.12 35.95 43.27 − | − 47.72 42.33 33.34 30.80 Plage % 1 4 14 19 − | − 13 20 22 12 | **** **** **** **** **** **** **** | **** **** **** **** **** | Autre-bactéries groupes de >4AT à progression homogène | groupes de >4GC à progression homogène | nom V IV III II I | 68 25 14 7 2 | min 122.0 60.8 23.22 3.01 0.25 | 38.05 20.94 10.82 4.81 0.25 max 330.8 111.7 51.50 19.72 2.45 | 116.27 33.42 17.47 9.77 4.42 effectif 19 35 56 47 35 | 12 31 31 74 44 moyenne 174.9 80.9 35.8 8.7 0.8 | 68.5 25.3 13.8 6.8 2.1 Pas 10.99 1.45 0.50 0.36 0.06 | 6.52 0.40 0.21 0.07 0.09 Pas % 6.3 1.8 1.4 4.1 8.3 | 9.5 1.6 1.6 1.0 4.5 | rupture 330.8 122.0 60.8 23.3 3.0 | 116.0 38.1 20.9 10.8 4.8 − 111.7 51.5 19.7 2.4 | − 33.4 17.5 9.8 4.4 Rupture % − 9.2 18.0 18.3 22.8 | − 13.9 19.9 10.8 8.8 %GC max 39.16 44.21 59.11 69.09 74.91 | 70.02 74.20 74.91 68.15 56.77 %GC min 13.54 28.26 42.02 53.81 62.31 | 62.36 56.51 47.60 31.40 13.54 Plage % 26 16 17 15 13 | 8 18 27 37 43
Liens aux diagrammes − 4.3.2.4.2
modifierTableau des diagrammes
Autre-bactéries / Cyanobactéries − 4.3.2.4.3
modifierAvec son effectif élevé de 49 bactéries et un diagramme des >4GC nettement différent de celui des autre-bactéries la comparaison des cyanobactéries avec ces dernières permet de mettre à l'épreuve l'utilisation des paramètres de progression homogène des groupes. Ceci facilitera l'utilisation de ces paramètres pour les autres comparaisons qui sont moins contrastées ou avec de faibles effectifs.
- Comparaison des groupes définis par les taux >4GC.
- Le paramètre moyenne: les moyennes des 4 premiers groupes des cyanobactéries sont supérieures de 50% par rapport à celle des autre-bactéries notamment pour le groupe 7 dont les effectifs sont élevés.
- Le paramètre pas, progression moyenne entre 2 bactéries consécutives et son rapport relatif à la moyenne. Il est multiplié par 4 pour les 3 1ers groupes et par 20 pour le 4ème. Le pas relatif suit aussi la même progression.
- Le paramètre plage, étendue en %GC du groupe. La différence est très élevée au premier groupe décroit rapidement jusqu'au 4ème groupe où elle n'est plus que de 50%. Les plages des cyanobactéries pour ce taux de >4GC sont du même ordre de grandeur que ceux du taux >4AT. Cela veut dire, comme on l'a détaillé dans les taux >4AT, que la progression est rapide et que le diagramme est homogène.
- −. Si maintenant on considère le tableau des cyanobactéries dans son ensemble par rapport à celui des autre-bactéries, les valeurs des taux >4GC sont équivalentes mais celles des cyanobactéries sont déplacées vers des contenus en GC (%GC) plus grands, sur une étendue en %GC plus faible et démarrant à un %GC très élevé ( 31 %GC contre 14 pour les autre-bactéries).
- −. Par ailleurs le diagramme des autre-bactéries contient une hétérogénéité à 68 %GC, alors que celui des cyanobactéries est homogène.
- Comparaison des groupes définis par les taux >4AT.
- Le paramètre moyenne: La moyenne du groupe II des cyanobactéries est multipliée par 3 avec un effectif élevé de 30%. Celle du groupe III reste élevée avec 50% de plus que les autre-bactéries et un effectif de 50%. Ensuite la différence s'estompe et les autre-bactéries dépassent les cyanobactéries qui s'arrêtent avec un contenu en GC de 31 %GC. Ces taux de >4AT élevés des cyanobactéries étaient peu visibles dans la comparaison des courbes de tendance, fonction puissance et polynôme degré 3.
- Le paramètre pas, progression moyenne entre 2 bactéries consécutives et son rapport relatif à la moyenne. Les pas des cyanobactéries sont multipliés par plus de 3 dans tous les groupes sauf le groupe I réduit à un effectif de 1. Ce qui dénote une progression relative, forte et régulière. On retrouve la même différence relative que pour les taux >4GC.
- Le paramètre plage, étendue en %GC du groupe. Les différences sont moins explicites mais le groupe III des cyanobactéries avec 50% des effectifs a une étendue 20% plus faible.
- −. Si maintenant on considère le tableau des cyanobactéries dans son ensemble par rapport à celui des autre-bactéries, les taux >4AT sont équivalents mais pour les cyanobactéries la progression est relativement très forte sur une étendue en %GC moitié des autre-bactéries (31% contre 61%). Nous retrouvons le déplacement d'ensemble des valeurs comme pour les taux de >4GC, mais ici dans le sens des %GC décroissant conformément à la progression des taux >4AT en général.
- −. Par ailleurs les 2 diagramme sont homogènes.
- L'architecture cellulaire des cyanobactéries et leur résonance.
- Jusque là j'attribuais l'homogénéité des courbes des cyanobactéries au fait qu'ils appartiennent à un sous-groupe de bactéries avec une caractéristique commune, la photosynthèse. Seulement les articles que j'ai pu lire dans wikipédia, Les hyperthermophiles et Les cyanobactéries laissent penser qu'il y aurait autant d'hétérogénéité que chez les autre-bactéries et qu'il y a aussi des thermophiles qui constituent l'hétérogénéité principale du diagramme >4GC des autre-bactéries.
- Je penses maintenant que le fait que les cyanobactéries soient un sous-groupe des bactéries se manifeste par la gamme restreinte des contenus en GC (38 %GC contre 61%);
- que le comportement exemplaire des cyanobactéries dans leurs diagrammes >4AT et >4GC est du à leur organisation interne qui permet la photosynthèse;
- que c'est l'architecture cellulaire propre à la photosynthèse qui crée une contrainte permanente et régulière sur les processus qui régissent le contenu en GC (%GC) ce qui produit une résonance homogène et élevée que l'on observe dans les diagrammes.
- En résumé nous pouvons dire que le changement global, simultané et fort sur les 2 diagrammes est en relation directe avec le changement d'architecture entre autre-bactéries et cyanobactéries.
Autre-bactéries / Euryarcheota − 4.3.2.4.4
modifierAvec son effectif élevé de 57 archées la comparaison aves les autre-bactéries reste encore faisable malgré des courbes >4AT assez proches.
- Comparaison des groupes définis par les taux >4GC.
- Le paramètre moyenne: A part le groupe 2, les 4 autres groupes sont décalés vers le groupe supérieur. Ce qui fait que leurs moyennes diminuent de 50% environ.
- Le paramètre pas, progression moyenne entre 2 bactéries consécutives et son rapport relatif à la moyenne. A part le groupe 14 qui a un pas qui augmente seulement de 30% les autres groupes ont des pas multipliés par au moins 2. Les pas relatifs sont encore plus prononcés et pour tous les groupes.
- Le paramètre plage, étendue en %GC du groupe. C'est ce paramètre qui explique ces fortes progressions avec des valeurs si faibles. C'est que l'étendue globale est réduite de 61 %GC pour les autre-bactéries à 40% seulement pour les euryarcheota. Sinon l'étendue du groupe 14 est équivalente à celle du groupe 7 des autre-bactéries. Par ailleurs la position des groupes est déplacée vers les contenus en GC plus faibles tout en démarrant à 28% alors que les autre-bactéries démarrent à 14%.
- −. Si maintenant on considère le tableau des euryarcheota dans son ensemble par rapport à celui des autre-bactéries, les valeurs des taux >4GC sont équivalentes mais celles des euryarcheota sont déplacées vers des contenus en GC (%GC) plus faibles, ce qui fait que entre 30 50 %GC des taux de >4GC dépassent l'aléa.
- −. Par ailleurs le diagramme des autre-bactéries contient une hétérogénéité à 68 %GC, alors que celui des euryarcheota semble en avoir une qui démarerait vers les 60 %GC avec l'archée mbg, conformément au déplacement vers les %GC plus faibles.
- Comparaison des groupes définis par les taux >4AT.
- Le paramètre moyenne: Comme pour les taux >4GC et de façon plus prononcée, à part le groupe I, les 4 autres groupes sont décalés vers le groupe supérieur. Ce qui fait que leurs valeurs sont divisées par 2 à peu près. Et comme le taux >4AT est très élevé en général par rapport à celui dde >4GC apparaît un 6ème groupe qui approche, sans la dépasser, la moyenne du groupe V des autre-bactéries.
- Le paramètre pas, progression moyenne entre 2 bactéries consécutives et son rapport relatif à la moyenne. On se retrouve pour les 2 paramètres, et toujours de façon plus prononcée à cause de la relativité entre >4AT et >4GC, dans la même situation qu'avec le tableau des >4GC.
- Le paramètre plage, étendue en %GC du groupe. Même effets des pas et des moyennes, donc même interprétation que pour les >4GC. Les plages sont équivalentes entre les 2 tableaux >4AT et comme l'étendue globale en %GC démarre à 68 %GC au lieu de 75 %GC des taux en dessous de l'aléa apparaissent.
- Modulation de la résonance par la membrane des archées.
- Comme pour les cyanobactéries, l'appartenance à un sous-groupe des archées, les euryarcheota se caractérisent par une gamme de contenu en GC restreinte ( 40 %GC contre 61% pour les autre-bactéries ).
- Le diagramme >4GC des euryarcheota présente une amorce d’hétérogénéité comme les autre-bactéries. Effectivement, comme elles, les euryarcheota sont constitués de sous-groupes qui diffèrent beaucoup entre eux par des modes de vies très variées passant des conditions normales comme les méthanogènes aux conditions extrêmes tels que les halophiles et les hyper-thermophiles. Les conditions extrêmes des euryarcheota dépassent de loin celles des cyanobactéries et on s'attend donc à trouver des taux de >4GC à 60 %GC aussi élevés que ceux des thermophiles des autre-bactéries ( bactérie tos ) à 68 %GC.
- Si les cyanobactéries diffèrent drastiquement par leur diagramme >4GC des autre-bactéries, les 2 diagrammes >4GC et >4AT des euryarcheota et des autre-bactéries sont semblables et ne diffèrent que par un faible déplacement le long de l'abscisse. Ceci est renforcé par la gamme du contenu en GC plus large pour les euryarcheota que les cyanobactéries. C'est ce qu'on appelle une modulation: la résonance produite par l'interaction avec le milieu extérieur est affaiblie mais ne change pas de nature comme avec les cyanobactéries.
- Cette modulation je l'attribue à la différence de nature de la membrane des archées de celle des bactéries. La membrane sert d'intermédiaire entre l’architecture interne et le milieu extérieur. D'où son rôle modulateur. Alors que les cyanobactéries, elles, ont un changement d'architecture très importants puisqu'il s'agit de la production de l'énergie.
- La conséquence de la modulation par la membrane c'est que les archées peuvent avoir une même résonance interne ( taux de >4GC ) dans des conditions plus drastiques que les bactéries.
Les Crenarcheota − 4.3.2.4.5
modifier- J'ai déjà analysé les courbes des autres archées qui contenaient les crenarcheota (>4AT et >4GC), pensant que leurs effectifs étaient faibles. Mais depuis l'analyse précédente de la résonance chez les cyanobactéries et suivant les diagrammes des autres archées, il m'est apparu qu'il fallait d'abord traiter des caractéristiques extraordinaires des diagrammes sans tenir compte de la petite taille de l'effectif des crenarcheota.
- Les caractéristiques extraordinaires des diagrammes
- Le diagramme >4AT: la courbe de tendance se confond presque avec la courbe de l'aléa. Celles des autre-bactéries et cyanobactéries s'en détachent complètement et celle des euryarcheota donne, aux grandes teneurs en GC, timidement quelques taux sous l'aléa. J'attribuais cela, dans autres archées, à l'hétérogénéité et aux faibles effectifs. Mais le contraste entre les diagrammes des cyanobactéries (grande homogénéité des >4AT et ressemblance des >4GC avec l'aléa) et la ressemblance entre leur diagramme >4GC et celui des autres archées ( avec des courbes de tendance proche de celle de l'aléa) m'ont convaincu que la courbe >4AT des crenarcheota, qu'on discerne dans autres archées, les caractérisait bien. Aussi j'ai refait les diagrammes des crenarcheota seuls.
- Les 2 diagrammes, >4AT et >4GC des crenarcheota sont semblables. Cette caractéristique découle de la précédente, mais le fait de la révéler, elle devient extraordinaire. Pourquoi? Parce que la dissymétrie très prononcée entre diagramme >4AT et >4GC, chez les autre-bactéries, nous avait posé le problème du rôle de la Pro dans les protéines ( voir synthèse chez les procaryotes chapitre 3.4.6.1 point 2, et hypothèse de la résonance chapitre 4.3.1.1). La similitude entre les 2 diagrammes des crenarcheota rend caduc le problème de la Pro: Lys/Phe et Pro/Gly sont maintenant sur le même pieds d'égalité. Du coup l'argumentation pour l'hypothèse de la résonance dans l'ADN se trouve très renforcée. Bizarrement c'est en se rapprochant de l'aléa qu'on se rend compte que les répétitions des bases dans l'ADN des procaryotes est une contrainte majeur de l'architecture dynamique de la cellule et que s'en est une autre aussi, je suppose, pour le retour vers lui.
- Les groupes définis par les taux >4AT
- Les crenarcheota se comportent, avec les taux >4AT, comme tous les autres procaryotes du point de vue groupage et de l'étendue des plages de ces groupes. Ceci conforte la réalité de leur caractéristique qui ne serait pas liée à de l'hétérogénéité. L'étendue des plages des groupes est la plus commune entre les 4 études: en dehors des effets de bord nous avons 13-17% pour les autre-bactéries, 4-19% pour les cyanobactéries, 7-15% pour les euryarcheota et 7-17% pour les crenarcheota. Pour le groupage, les crenarcheota ont un 6ème groupe comme les euryarcheota. Peut-être c'est là la trace de la modulation de la résonance par la membrane.
- Par contre les crenarcheota diffèrent de tous les autres par des moyennes très faibles des groupes, et surtout avec les euryarcheota qui sont encore plus faibles que les autre-bactéries eux-même plus faibles que les cyanobactéries. Les groupes III à VI sont diminués respectivement de 25, 62, 76 et 46% par rapport à ceux des euryarcheota. C'est à peu près du même ordre de changement entre autre-bactéries et cyanobactéries pour les taux >4AT. Mais alors que l’augmentation chez les cyanobactéries touche les 2 taux >4AT et >4GC, chez les crenarcheota la diminution ne touche que les 1ers alors que les seconds augmentent comme les cyanobactéries. Nous avons à faire ici à un nouveau changement dans la résonance de nature tout à fait différente de celle de l'architecture énergétique des cyanobactéries et de celle de la modulation par la membrane. Il faut peut être ajouter à ce changement, aussi, le fait qu'il varie graduellement du groupe II où le taux >4AT augmente par rapport aux euryarcheota et diminue de plus en plus vers les autres groupes. Cette augmentation n'a pas son équivalent en diminution entre autre-bactéries et cyanobactéries.
- Les groupes définis par les taux >4GC
- Les crenarcheota se comportent pour ce taux comme les cyanobactéries vis à vis des autre-bactéries. La comparaison est valable entre archées, comme elle l'est entre bactéries. Nous retrouvons la forte augmentation du taux entre euryarcheota et crenarcheota comme entre autre-bactéries et cyanobactéries, modulée ici par la membrane des archées. Par rapport au taux >4AT la modulation est bien nette parce que la diminution du taux >4GC du à la modulation contraste avec l'augmentation de ce taux. Ce qui fait que nous retrouvons à peu près les mêmes taux que chez les autre-bactéries. On a respectivement pour les groupes 7 14 25 et 68 (6.8, 13.8, 25.3, 68.5) pour les autre-bactéries contre (5.4, 13.1, 25.9, 38.1) pour les crenarcheota.
- Pour les étendues des plages les crearcheota se comportent vis à vis des euryarcheota comme les cyanobactéries vis à vis des autre-bactéries. Nous aboutissons alors à des étendues de plage et à des taux >4AT et >4GC semblables sauf peut-être pour le groupe VI des >4AT, et à des diagrammes semblables comme on l'a signalé ci-dessus.
- Un nouveau processus intervient dans la formation du contenu en GC chez les crenarcheota
- La similitude entre les 2 taux laisse penser qu'on à faire à un seul processus à l'origine de ces changements. Ce processus contraindrait les changements et simulerait des changements aléatoires ou plutôt apporterait une grande plasticité dans l'adaptation génétique. C'est une évolution majeure pour la résonance dans l'ADN et surtout dans les gènes de protéines (Voir le code génétique dans l'ADN au chapitre 4.3.2.3.2, puce 2 ordre 4).
- J'avais alors stipulé que les gènes des protéines étaient formés une fois pour toute aux PEEMOV et devaient avoir une forte résonance due au code génétique à 3 bases dans l'ADN. Comme tout phénomème vibratoire ces gènes doivent avoir un spectre de résonance qui n'admet que certaines fréquences. Les processus de maintenance de ces gènes, à l'origine de la variation en contenu GC, reproduisent ce spectre. Les bactéries et les euryarcheota ont maintenu ce spectre d'où les dissymétries entre les taux >4AT et >4GC. Par contre les crenarcheota semblent accéder aux fréquences interdites ce qui rapproche leurs taux de l'aléa.
- Le processus qui permet aux crenarcheota d'accéder aux fréquences interdites, serait à mon avis, l'équivalent de l'épissage ou splicing. Ce processus doit se faire en dehors de l'ADN qui interdit ces fréquences tout en partant de séquences produite par lui. Ceci est fait par l'intermédiaire de l'ARN messager dans le splicing: quand il réunit 2 exons dont la résonance est originaire de l'ADN, il crée une séquence d'ARN dont l'image dans l'ADN aurait une résonance avec une fréquence interdite. Seulement ce que nous mesurons avec les répétitions c'est dans l'ADN et les spectres d'origine sont toujours là. Pour que ces spectres admettent des fréquences interdites, et si on admet par ailleurs que la mutagenèse n'intervient pas dans ce phénomène, il me semble qu'un processus équivalent à l'épissage mais qui réintègre le spectre modifié dans l'ADN serait une modification dans les éléments mobiles comme les transposons et les plasmides. La différence de comportement des répétitions dans les plasmides entre les cyanobactéries et les autre-bactéries, au chapitre 3.4.4.4.1 va dans ce sens. Mais des études plus approfondies surtout avec les plasmides et les transposons des crenarcheota seraient les biens venues.
- Les crenarcheota sont ubiquitaires et peuvent être extrêmophiles ou vivre dans les sols ou les milieux marins. Ils ont été cultivés à 28 °C. Ils ont été distingués des euryarcheota, au début, par leur manque d'histones mais certains en produisent. L'hypothèse eocyte suggère depuis 1980 que les eucaryotes dériveraient des crenarcheota. En 2008 l'article suivant du PNAS traite encore de l'origine archéale des eucaryotes [25]. Il faut pousser cette recherche pour savoir si le manque d'histones ou bien une caractéristique analogue à l'épissage chez les eucaryotes sont à l'origine des taux de répétitions chez les crenarcheota. Dans la base de données KEGG seulement 4 crenarcheota sur 61 possèdent 1 plasmide chacun: tpe, sin, sii, pog.
Les résonances locales et les résonances de groupe − 4.4
modifier29.12.16 Paris
- A la suite de l'hypothèse de la résonance j'ai employé plusieurs fois les notions de résonance locale et de la résonance d'une séquence de bases dans l'ADN ( 4.3.1.3, 4.3.2.1, 4.3.2.2, 4.3.2.3.2-1 et 4.3.2.3.2-2). C'est ainsi que j'ai attribué une longueur d'onde minimale aux triplets constituant le code génétique de l'ADN préfigurant celui de l'ARN. Mais comme la résonance de l'ADN est basée sur les nuages électroniques des paires de base côte à côte, ces nuages interagissent entre eux et constituent un continuum vibrant, ou ondulant, où s'établiront des zones vibrantes stationnaires avec l’équivalent de 2 nœuds et un ventre comme on l'a décrit pour le triplet à longueur d'onde minimale.
Les résonances locales dans cette étude −4.4.1
modifier- Les gènes de protéines: Les 2 nœuds de la résonance des séquences de ce type ne sont pas les codons d'initiation et de stop qui se trouvent dans l'ARNm, mais ce sont la séquence du promoteur placée en amont du codon d'initiation de la transcription du 1er gène d'un opéron et la séquence du terminateur en aval du codon stop de la transcription du dernier gène du même opéron. Ces 2 séquences servent d'initiation et de terminaison de la transcription. Remarquons que ces 2 séquences ne sont pas reconnues comme telles par la réplication, et donc que chaque protéine en interaction avec l'ADN est sensible à une résonance déterminée. Le ventre de résonance d'un gène protéique est constitué par la composition des résonances de tous ses triplets de mêmes celui de l'opéron est la composition des résonances de tous ses gènes. Aussi la particularité des gènes protéiques ce sont ses triplets et les mécanismes qui modifient le contenu en GC de l'ADN doivent produire un spectre particulier des répétitions que nous avons étudiées. C'est l'ensemble de ces spectres qui domine dans les diagrammes >4AT et >4GC en fonction du %GC puisque les génomes des procaryotes sont constitués de plus de 80% de gènes de protéines.
- Les gènes des rRNAs: Chez les procaryotes il y a une seule ARN polymérase alors que chez les eucaryotes l'ARN polymérase I est spécialisée dans la transcription des ARNr. Cela veut dire que chez les eucaryotes les ARN polymérases différencient entre la résonance des ARNr et le reste. Le spectre des répétitions que nous avons étudiés sur les ARNr des autre-bactéries sont complètement différents de ceux des génomes de ces autre-bactéries. Ceci veut dire que les enzymes de réparations et notamment les réplicases reconnaissent leur résonance et la maintiennent, alors que la transcriptase ne le fait pas. Les gènes des ARNr et ARNt se retrouvent aussi dans des opérons comme les gènes protéiques. Ces opérons devraient se comporter comme ceux des gènes protéiques avec un promoteur et un terminateur.
- Les plasmides: Ce sont des ADN autonomes grâce à leur origine de réplication mais utilisent les protéines de réplication et de réparation de l'hôte. Ils sont, pour la plupart, circulaires et doivent posséder une résonance propre semblable à celle du chromosome de l'hôte à la seule différence de la longueur. Et si on admet que la longueur d'onde de résonance de l'ADN entier (chromosome ou plasmide) est proportionnelle à sa longueur, alors il est possible que le spectre des répétitions des bases soit différent de l'hôte et qu'il puisse avantager certains triplets par rapport à l'hôte. C'est l’hypothèse que j'avais proposée pour le diagramme des crenarcheota qui auraient acquis ces triplets après incorporation des transposons ou d'autres éléments mobiles dans le chromosome de l'hôte. Les éléments mobiles non répliqués, comme les transposons, ne seraient sujets qu'à des réparations minimes alors que les plasmides, se répliquant, subissent la même maintenance que le chromosome hôte tout en étant autonomes. Les transposons serviraient alors d'intermédiaires pour passer des plasmides au chromosome.(rappeler les propriétés des épisomes)
Les résonances de groupe −4.4.2
modifierLes résonances groupées −4.4.2.1
modifierLes résonances groupées et non de groupe représentent la caractéristique principale des phénomènes vibratoires où le comportement de la somme n'est pas la somme des comportements individuels. Nous l'avons relevée dans la modulation de la résonance par les membranes des bactéries et des euryarcheota, dans le changement de la résonance globale chez les cyanobactéries que j'avais attribué à leur architecture cellulaire particulière due à la photosynthèse et dans le changement corrélé des fréquences des codons des aas chez les autre-bactéries et les cyanobactéries.
Les résonances d'un groupe étudié −4.4.2.2
modifierLes résonances d'un groupe étudié, parce qu'on la constitué par d'autres critères que les répétitions des bases, ces résonances peuvent être groupées comme pour le groupe des protéines, ou non parce que le groupe est hétérogène en ce qui concerne la répétition des bases. Le groupe hétérogène principal, de cette étude, est celui des autre-bactéries avec des groupes homogènes définis par leurs taux de répétition des bases. C'est ainsi qu'on a supposé que le groupe à taux élevés de >4GC des thermophiles aurait une résonance groupée. Et la comparaison entre les spectres des répétitions des génomes et de leurs ARNr nous a confirmé le comportement particulier de ces thermophiles et du coup les ARNr se sont révélés avoir une résonance groupée propre à eux, différente de celle des aas. L'autre groupe étudié qui paraît hétérogène est celui des euryarcheota puisqu'il se comporte de façon semblable au groupe des autre-bactéries.
On pourrait en constituer un groupe d'étude puisque les plasmides peuvent se déplacer d'un génome à un autre par conjugaison et former un groupe comme celui des autre-bactéries. C'est un groupe hétérogène puisque les plasmides d'une bactérie donnée s'adaptent par leur contenu en GC à celui de l'hôte( chapitre 3.4.3.3.1, diagramme et[2]). L'étude de ce groupe, ici, était faite d'abord comme celle des chromosomes hôte, pour rapporter le taux des répétitions en fonction du contenu en GC. Puis j'ai voulu comparer leur comportement dans les 2 groupes à comportement distinct vis à vis des répétitions que sont les autre-bactéries et les cyanobactéries. A 1ère vue les plasmides se comportent comme leur hôte en répétitions des bases et comme leur hôte pour le contenu en GC. Mais l'analyse fine que j'ai établie au chapitre 3.4.4.4.1, avant l'hypothèse de la résonance au chapitre 4.3.1.2, m'a montré des comportements opposés entre plasmides des autre-bactéries et ceux des cyanobactéries.
Les plasmides comme moyen d'étude de l'interaction de la résonance de l'ADN avec ses protéines −4.4.3
modifierCe sont ces comportements franchement opposés qui m'ont poussé à chercher à distinguer entre variation du contenu en GC et variation de la résonance. Par ailleurs on se retrouve dans le protocole idéal pour ces comparaisons puisque dans la même cellule plusieurs ADN de même structure, mais différant par leurs longueurs et leurs séquences, sont en présence des mêmes protéines provoquant les variations en contenu GC et les variations des répétitions. Il est à noter
- que, étant donné la finesse de l'étude et la composition des procaryotes en protéines, nous ne considérons que les comportements des gènes de protéines pour ces variations;
- que les répétitions étudiées ici ne concernent que 4 codons, ccc, ggg, ttt, aaa. Ces répétitions font parties des variations en contenu GC, mais que ce contenu est différent des répétitions parce qu'il met en jeu les 60 autres codons;
- qu'on peut enfin tester l'hypothèse de la performance des tRNA pour expliquer les "codons bias" . Étant donné que les tRNA n'interviennent pas dans la modification physique (ou directe) de l'ADN, ils devraient agir de façon homogène sur tous les codons qu'ils soient dans le chromosome ou dans des plasmides différant par leurs séquences.
- Dans ce qui suit j'utilise les tableaux numériques (cyanobactéries, autre-bactéries) des différences des occurrences statistiquement significatives par rapport à l'hôte et des différences (en %) entre le taux du plasmide et du même taux de l'hôte pour le signe de cette différence. Ceci a été fait pour les taux >4GC et >4AT. La colonne "différence %GC" sert d'illustration. Deux diagrammes du taux >4GC en fonction du taux >4AT illustrent la différence des interactions ADN/protéines à l'origine des résonances, un pour les autre-bactéries et un pour les cyanobactéries.
- La loi binomiale est utilisée pour le calcul de deux écarts type englobant 95% des occurrences (2σ). C'est un tirage de 5 bases réussi si les 5 bases sont identiques, A ou T et G ou C. Les paramètres de la loi sont alors:
- −. p*5, le taux en %00 de l'hôte multiplié par 5, correspondant à la probabilité de la loi.
- −. n/5, la longueur de DNA du plasmide divisé par 5, correspondant au nombre de tirages de la loi.
- Écart type à 2σ: C'est la formule de l'écart type de la loi binomiale "racine(np(1-p)" multipliée par 2. Ce qui donne en divisant p par 10000 l'écart type à 2σ: 2racine(np(10000-p*5))/10000.
- Valeur absolue de l'écart entre l'occurrence trouvée et calculée, q étant le taux du plasmide: abs(n(p-q))/10000.
- Différence 2σ = (2racine(np(10000-p*5))−abs(n(p-q)))/10000. Si cette valeur est négative, l'occurrence trouvée est significativement différente, à 95%, de l’occurrence de l'hôte.
- Nota: le tirage de 5 bases à la fois donne l'écart type de la loi le plus grand avec racine(np(10000-p*5). Si on avait pris 10 bases ou plus, ce qui correspondrait à plus d’occurrences réussies ( on compte en effet les répétitions supérieures à 4), l'écart type sera plus petit avec racine(np(10000-p*10) mais plus précis. Cependant le calcul avec 10 bases donne une différence 2σ différant d'une unité tout au plus par rapport au tirage à 5 bases et les écarts ne changent pas de signe.
- La loi binomiale est utilisée pour le calcul de deux écarts type englobant 95% des occurrences (2σ). C'est un tirage de 5 bases réussi si les 5 bases sont identiques, A ou T et G ou C. Les paramètres de la loi sont alors:
La performance des tRNA n'est pas à l'origine des "codons bias" −4.4.3.1
modifierLa théorie des "codons bias", selon laquelle qu'un codon est choisi plus qu'un de ses synonymes est le fait de la sélection naturelle de son tRNA qui le traduirait plus efficacement, laisserait penser que l'ADN n'a aucun rôle direct ou physique dans cette sélection. Les résultats sont nets sur le tableau qui suit:les tRNAs n'interviennent pas.
Différence plasmide / hôte Autre-bactéries Cyanobactéries >4AT >4GC total >4AT >4GC total total avec différence 2σ < 0 18 13 23 11 20 41 total avec différence 2σ < -5 16 12 10 11
Les répétitions >4AT (contenant toutes au moins 1 triplet aaa ou ttt) et les répétitions >4GC (contenant toutes au moins 1 triplet ggg ou ccc) statistiquement différentes de l'hôte représentent 62 cas sur 128, soit environ 50% des cas. Pour ces 50% l'efficacité des 4 tRNAs n'intervient pas dans la sélection des codons aaa, ttt, ccc, ggg.
La répétition des bases ne met pas en jeu les forces des appariements AT et GC −4.4.3.2
modifierLe passage d'une séquence du chromosome sous forme de plasmide ne fait pas intervenir l'appariement comme les protéines de maintenance ne distinguent pas entre les 2 bases d'une paire. Dans le tableau des différences ci-dessous on voit que les plasmides des cyanobactéries évoluent dans les 2 sens, diminution ou augmentation des répétitions par rapport à l'hôte, jusqu'à donner une moyene proche de zéro; que chez le groupe 7 des autre-bactérie l'augmentation est systématique pour les 2 types de répétitions. Chez les cyanobactéries ana et mic on trouve les plasmides en diminution ou en augmentation pour les 2 types de répétitions dans la même bactérie.
Valeurs réelles | Valeurs absolues | ||||||||||||
---|---|---|---|---|---|---|---|---|---|---|---|---|---|
Somme | Moyenne | Ecart type | Somme | Moyenne | Ecart type | ||||||||
Cyanobactéries | >4AT | >4GC | >4AT | >4GC | >4AT | >4GC | effectif | >4AT | >4GC | >4AT | >4GC | >4AT | >4GC |
total | -74 | -73 | -1.8 | -1.8 | 14 | 35 | 41 | 431 | 1109 | 11 | 27 | 10 | 22 |
groupe 7 | 6.5 | -77 | 0.4 | -5.1 | 10 | 31 | 15 | 105 | 346 | 7.0 | 23 | 6.9 | 20 |
groupe 14 | -68 | 203 | -3.4 | 10 | 15 | 37 | 20 | 288 | 716 | 11 | 28 | 10 | 22 |
groupe 25 | -13 | -199 | -2.1 | -33 | 23 | 15 | 6 | 97 | 199 | 16 | 33 | 15 | 15 |
Autre-bactéries | |||||||||||||
total | 1069 | 1170 | 51 | 56 | 63 | 91 | 21 | 1134 | 1444 | 54 | 69 | 60 | 81 |
groupe 2 | 142 | 238 | 71 | 119 | 105 | 34 | 2 | 10 | 406 | 5.2 | 203 | 5.3 | 231 |
groupe 7 | 989 | 909 | 71 | 65 | 66 | 49 | 14 | 995 | 962 | 71 | 69 | 66 | 43 |
groupe 14 | 81 | -55 | 27 | -18 | 52 | 31 | 3 | 118 | 65 | 39 | 22 | 38 | 28 |
groupe 25 | 755 | 35 | 378 | 18 | 428 | 27 | 2 | 755 | 39 | 378 | 19 | 428 | 25 |
groupe 68 | -10 | -11 | -5.2 | -5.5 | 1.3 | 0.7 | 2 | -10 | -11 | -5.2 | -5.5 | 1.3 | 0.7 |
La résonance de l'ADN est révélée par les variations des répétitions entre les plasmides entre eux et avec le chromosome hôte −4.4.3.3
modifierJe démontre ici qu'un plasmide circulaire a une résonance. Reste à démontrer qu'une séquence dans le chromosome a une résonance, notamment le cas des protéines. C'est ce que je vais démontrer dans corrélations entre les codons de gènes de protéines.
- Le passage du chromosome au plasmide est un processus actif qui met en jeu les répétitions: La différence de comportement entre cyanobactéries et autre-bactéries pour la moyenne et l'écart type de la différence entre le plasmide et son hôte (tableau récapitulatif ci-dessous). Si la séquence, et donc les répétitions, n'influait pas sur la formation du plasmide, les répétitions se distribueraient au hasard. Ce qui n'est pas le cas puisque les bactéries du groupe 7 augmentent systématiquement leur répétitions >4AT et >4GC alors que chez les cyanobactéries la somme des différences est nulle pour les 2 types de répétitions et en valeur absolue les >4AT ont une moyenne de la différence 3 fois plus petite que celle des >4GC. De même l'écart type est 2 fois plus petit. Par ailleurs la gamme du contenu en GC est à peu près équivalente dans les 2 cas. On retrouve le même comportement entre les plasmides d'une même bactérie. N'ayant pas d'effectifs assez grands pour donner des statistiques voici quelques exemples: ana, mic, syn, chez les cyanobactéries et kpn chez le groupe 7 des autre-bactéries. Il est bien entendu qu'il faut une statistique beaucoup plus étendue.
- Ce n'est pas un détachement physique seulement: soit les protéines qui détachent reconnaissent la séquence par une propriété donnée que j'appelle résonance, soit il y a un détachement sans reconnaissance, mais seulement ayant les extrémités nécessaires à ce détachement, et les protéines de maintenance, communes au chromosome et aux plasmides, modifient la résonance du plasmide à leur façon.
- Le plasmide ne peut acquérir que les résonances permises par les protéines de maintenance, semblables à la résonance de l'hôte. Ce qui me laisse croire que ce sont les protéines de maintenance qui agissent et non d'autres protéines, spéciales au détachement.
L'interaction ADN/protéines n'impacte que la résonance −4.4.3.4
modifierQuand on ne considère que les plasmides d'une seule bactérie, les protéines de la maintenance sont les mêmes, donc les variations qu'on constate entre plasmides ne concerne que la résonance. C'est entre autre-bactéries et cyano qu'il y a changement des protéines de maintenance. En analysant les tableaux on peut rétorquer que les variations des répétitions sont dues soit au contenu en GC soit à la longueur du plasmide. Le lien entre la résonance et le %GC on l'avait étudié dès le début et nous a amené à la définition même de la résonance. Donc c'est normal qu'on voit une variation parallèle. Il est évident que, si la séquence sous-tend la résonance, la longueur peut avoir un lien avec cette dernière, parce que tout plasmide est une séquence quelle que soit sa longueur. Mais il est évident aussi qu'une séquence plus courte doit avoir peu de combinaisons compatibles avec le système de maintenance et donc une variance plus grande, ou mieux encore, des répétitions nombreuses assureraient une stabilité du plasmide. Alors que des séquences de longueur semblable à celle de l'hôte donneraient une faible variance de la différence.
Les mécanismes des modifications des bases par les protéines de l'ADN diffèrent entre certains groupes des autre-bactéries et les cyanobactéries −4.4.3.5
modifier- Les différences globales entre les 2 tableaux sont le produit de l'action différente des 2 systèmes de maintenance. Aussi nous sommes arrivés à distinguer entre la résonance de l'ADN et l'action des protéines de maintenance. Ainsi l'action de la maintenance du groupe 7 des autre-bactéries est de type modulation puisqu'elle fait varier, dans le même sens, les répétitions >4AT et >4GC. Alors que la maintenance chez les cyanobactéries est de type amplification puisque les variations se font dans les 2 sens et affectent différemment >4AT et >4GC avec un écart type et une moyenne très différents.
- Les bactéries thermophiles comme tos (groupe 68) doivent avoir un système de maintenance spécifique comme je l'ai noté au chapitre sur les protéines, pour l'adaptation aux températures élevées: voir chapitre 3.4.3.4.3 et le suivant 3.4.3.4.4.
- Les archées crenarcheota auraient aussi un système de maintenance de type amplification mais qui amplifierait de façon équivalente les répétitions >4AT et >4GC contrairement aux cyanobactéries.
L'interaction ADN/protéines agit différemment sur les codons −4.4.3.6
modifierLes variations, dans une bactérie donnée, entre les répétitions A ou T et les répétitions G ou C sont différentes. De la démonstration de la résonance du plasmide par les répétitions >4AT et >4GC, que les codons formant ces répétitions ont une résonance, il découle alors que les résonances de ces codons sont différentes. Nous avons déjà montré que les variations des répétitions du codon ggg était corrélées à celles du codon agg au chapitre des protéines. Donc il est logique de penser que la résonance démontrée par les plasmides s'étend à tous les codons d'un gène d'une protéine.
Conclusion −5
modifierUn déterminisme génétique −5.1
modifier- Nous venons de démontrer avec les plasmides qu’une séquence de paires de bases, en l'occurrence un plasmide, est déterminée par l'interaction de l'ADN avec ses protéines. L'action/réaction de l'ADN dans cette interaction se fait par l'intermédiaire d'une force physique spécifique, sans réaction chimique (liaison covalente). De part ma recherche sur les PEEMOV j'ai attribué cette force à la résonance de l'ADN, décrite dans la littérature comme un processus vibratoire sous-tendu par les nuages électroniques des paires de bases formant un continuum soumis aux lois de la physique quantique[17]. Une des manifestations de cette résonance se trouve dans les 2 taux, par rapport à la longueur d'une séquence donnée, des répétitions A plus T et G plus C. Pour la caractériser il fallait utiliser le comportement de ces taux pour la différencier d'autres processus intervenant sur l'ADN avec lesquels elle peut être confondue.
- Le caractère vibratoire des taux étudiés: On peut dire d'office déjà que la propriété de répétition des taux appartient aussi aux phénomènes vibratoires, qu'ils participent au codage des protéines dont les gènes sont une succession de triplets rappelant la périodicité des phénomènes vibratoires. J'ai pu montrer qu'ils participent à des changements d'ensemble (changement simultané de plusieurs codons dans les gènes de protéines) et des changements brutaux analogues aux phénomènes de résonance quand la fréquence atteint la fréquence de résonance ( décrochage brusque dans les diagrammes distinct de la progression régulière de la courbe que j'ai attribué aux processus d'appariement de l'ADN).
- Ces comportements suivent les processus de la variation du contenu en GC des chromosomes et seraient donc soumis aux mêmes processus protéiques qui maintiennent l'ADN, c'est-à-dire la réparation, la réplication, la transcription, la fixation de protéines et la protection: Ils varient avec le %GC et par comparaison des comportements des taux dans les gènes de protéines entre autre-bactérie et cyanobactéries j'ai pu distinguer entre les processus de maintenance et les variations de ces taux.
- J'ai caractérisé les processus de la maintenance de l'ADN par les comportements d'ensemble, différents, de ces taux dans les 4 groupes étudiés et surtout leur reproduction dans les plasmides d'un groupe homogène des autre-bactéries et ceux des cyanobactéries.
- Le comportement de ces taux ne peut pas être expliqué par les taux des aas Gly, Pro, Lys et Phe dans les protéines: grande variation des taux de répétition entre les 4 domaines étudiés alors que les taux de ces 4 aas y varieraient très peu d'après les statistiques sur les protéines, et même comportement des répétitions chez les rRNA des autre-bactéries en l’absence de codons.
- La variation des comportements des taux de répétition entre les plasmides d'un même organisme et ceux de son chromosome démontre que:
- Dans le cas où les plasmides seraient issus du chromosome hôte, leur détachement ne se ferait pas au hasard mais se ferait avec une transformation de leur résonance. En effet les plasmides des cyanobactéries et du groupe homogène des autre-bactéries ont chacun un comportement d'ensemble différent l'un de l'autre.
- La résonance est distincte de la maintenance puisque les protéines de celle-ci sont les mêmes pour le chromosome et les plasmides.
- De même la machinerie de la traduction, dont la sélection des codons par des tRNAs performants, n'impacte pas la résonance puisque cette machinerie est commune au chromosome et aux plasmides.
- La résonance n'impacte pas l'appariement des bases puisque les 2 taux A plus T et G plus C varient dans les 2 sens par rapport au chromosome, en diminution et en augmentation. Cette distinction a été déjà mise en évidence lors des études des diagrammes des répétitions en fonction du contenu en GC, mais ici la démonstration est directe.
Nota: Dans le cas où les plasmides seraient acquis par transfert horizontal, la propriété de compatibilité, décrite dans la littérature, nécessaire entre-eux et le chromosome hôte prouve que leur séquence et donc leur résonance doit être compatible avec les protéines de maintenance de l'hôte. Ceci montre encore que les variations des taux des répétitions observées entre les plasmides et le chromosome concernent la résonance et non une autre propriété de ces plasmides étrangers.
Les conséquences théoriques −5.2
modifier- Interaction du procaryote avec son milieu
- Action du milieu sur les protéines de maintenance
- Interaction ADN/(protéines de maintenance)
- Modification de la résonance des gènes de protéines après réparation et réplication (adaptation génétique).
- Transcription, traduction, destruction des ARNm après traduction et destruction des protéines usées par l'interaction avec le milieu
- L'interaction de l'organisme avec le milieu ne se fait pas dans le sens protéines-ARNm-gènes-ADN mais dans le sens contraire de la théorie du "RNA world".
- Les gènes de protéines sont créés une fois pour toutes:
- L'interaction ADN/(protéines de maintenance) ne modifie que la résonance du gène dans la gamme des résonances permises pour ce gène.
- La résonance d'un gène protéique a une grande énergie parce qu'elle est la composante des résonances de tous ses triplets, ceux-ci ayant l'énergie de résonance la plus élevée du fait qu'ils ont la longueur d'onde la plus petite, constituée de 3 paires de bases.
- Les gènes de protéines sont constitués une fois pour toutes aux PEEMOV quand les paires de bases ne sont pas liées les unes aux autres.
- Cela suppose que des paires de bases soient rassemblées côte à côte avec des aas libres reproduisant le couplage actuel pouvant entrer en interaction avec le milieu.
- que la résonance de cet ensemble a une énergie maximale dans l'organisation du liposome prébiotique.
- Transformation du gène protéique en une protéine aux PEEMOV: Dans la vie actuelle le gène modifié par résonance dans l'ADN est transformé en protéine grâce à la machinerie traductionnelle. Aux PEEMOV cette machinerie n'existe pas. Pour pouvoir expliquer la transformation du gène protéique en une protéine il faut se mettre aux PEEMOV en faisant évoluer les 3 acteurs principaux que sont les monomères ADN et ARN et les aas, en même temps, ensemble et dans l'organisation du liposome. Dans ce cadre là on n'a pas besoin de maintenance puisque les monomères sont libres. Ils peuvent ainsi s'organiser selon l'évolution des contraintes des résonances locales et globales. Pour l'ADN l'équivalent d'une maintenance donnée, propre à une étape, sera assurée par une organisation des aas donnée. Dessinons alors grossièrement les 3 1ères étapes de l'évolution moléculaire qui nous amènent à la 1ère tentative de la transformation d'un gène protéique:
- Les monomères d'ADN se regroupent par résonance maximale et sont protégés par un groupe d'aas adéquat. Les monomères d'ARN, par leur nature, sont mélangés avec le reste des aas et ne se regroupent pas.
- Les monomères d'ARN peuvent s'apparier aux monomères d'ADN regroupés. Ils peuvent ainsi acquérir une résonance partielle grâce à leur alignement. Mais ils seront déloger par les aas qui assurent la résonance des monomères d'ADN. D'autres aas vont créer un groupe analogue, mais pas identique, à celui de l'ADN pour consolider la résonance acquise par les monomères d'ARN. Si la séquence le permet l'ARN se replie et la résonance est stabilisée. C'est la formation des rRNAs et tRNAs prébiotiques.
- Ces rRNAs et tRNAs prébiotiques stabilisés par leurs aas vont essayer de stabiliser avec de nouveaux aas les RNAms qui ne peuvent pas se replier et être détruis par les aas non regroupés à l'instar des RNAases de la vie actuelle. C'est cette tentative de rétablissement de la résonance partielle acquise par des RNAms qui ne peuvent pas se replier, qui va aboutir non pas à une stabilisation de la résonance, mais en sa transformation en une résonance du groupe des aas nouvellement recrutés. Comme le groupe des aas des rRNAs et des tRNAs est analogue à celui qui maintient la résonance de leur séquence dans l'ADN, le groupe des aas du RNAm va être analogue à ceux de sa séquence dans l'ADN par analogie des 2 résonances de la séquence d'ADN et d'ARNm.
- La formation des protéines une fois pour toutes va se faire donc en plusieurs étapes jusqu'à la formation de la machinerie traductionnelle. Le transfert de résonance de l'ADN aux aas rentre dans la cohérence de la résonance globale du liposome et de ses constituants ADN, ARN et aas. C'est comme ça qu'on peut comprendre qu'une protéine a une gamme de résonances propre, définie une fois pour toutes, adaptée à l'architecture interne du procaryote. Une fois la machinerie traductionnelle achevée, la résonance d'une protéine peut changer d'un organisme à l'autre, mais elle sera toujours dans sa gamme permise par l'architecture commune à tous les êtres vivants.
Bibliographie − 6
modifier- "Chez les cyanobactéries Prochlorococcus et Pelagibacter ubique, certaines lignées ont subi une réduction de 30% de leur génome" dans le résumé de:
Batut 2014 thèse [26]; Étude de l'évolution réductive des génomes bactériens par expériences d’évolution in silico et analyses bio-informatiques.
- "3.) Biais de composition en nucléotide. . . . c) L'usage des codons est également biaisé. Une corrélation avec l'abondance en tRNA a été remarquée . . . suggérant une adaptation des séquences des gènes à une meilleure efficacité de traduction." page 13 dans
Choulet 2006 thèse [27]; Evolution du génome des Streptomyces: transfert horizontal et variabilité des extrémités chromosomiques.
- Sélection traductionnelle. . . . page 13. dans Mouciroud cours [28]
- Adaptation génétique: Scott Mann 2010 review. Bacterial genomic G + C composition-eliciting environmental adaptation [29].
Hao Wu, mécanisme moléculaire de la variation en contenu GC chez les bactéries, 2012 [30]
Différence entre darwinisme et PEEMOVs:JJ Kupiec 2016 [31], entretien 2016 [32].
La littérature sur la variation du contenu en GC, %GC. Les %GC les plus rares, H.Nishida-2013
Quantum entanglement between the electron clouds of nucleic acids in DNA. 2011 [33]. Analyse: La mécanique quantique, l'ADN et l'origine de la vie remise en question[34]
La résonance dans mon blog 14.4.2015. L'effet tunnel [35].
Florent Lassalle 2015. GC-Content Evolution in Bacterial Genomes: The Biased Gene Conversion Hypothesis Expands [36].
Notes et références
modifier- ↑ Qantum entanglement between the electron clouds of nucleic acids in DNA; Elisabeth Rieper, Janet Anders and Vlatko Vedral 2011; in http://arxiv.org. [1]
- ↑ 2,0 et 2,1 Nishida 2012. Figure 4. https://www.hindawi.com/journals/ijeb/2012/342482/
- ↑ Hao Wu, mécanisme moléculaire de la variation en contenu GC chez les bactéries, 2012 [2]
- ↑ https://www.ncbi.nlm.nih.gov/pmc/articles/PMC2953269/
- ↑ 5,0 et 5,1 https://www.ncbi.nlm.nih.gov/genome/?term=txid114186[orgn]
- ↑ https://www.ncbi.nlm.nih.gov/genome/?term=txid51229[orgn]
- ↑ https://www.ncbi.nlm.nih.gov/genome/?term=txid336810[orgn]
- ↑ https://www.ncbi.nlm.nih.gov/pubmed/23144417
- ↑ https://www.ncbi.nlm.nih.gov/genome/?term=txid107806[orgn]
- ↑ https://www.ncbi.nlm.nih.gov/genome/?term=txid515618[orgn]
- ↑ https://www.ncbi.nlm.nih.gov/genome/?term=txid40480[orgn]
- ↑ https://www.ncbi.nlm.nih.gov/genome/?term=txid134821[orgn]
- ↑ https://www.ncbi.nlm.nih.gov/genome/?term=txid851[orgn]
- ↑ w:en:Candidatus_Arthromitus
- ↑ https://www.ncbi.nlm.nih.gov/genome/?term=txid1491[orgn]
- ↑ Functional convergence in reduced genomes of bacterial symbionts spanning 200 My of evolution. Page 711; 2010;[3]
- ↑ Quantum entanglement between the electron clouds of nucleic acids in DNA. 2011 [4].