Recherche:Corrélation entre les codons dans les gènes de protéines

Corrélation entre les codons dans les gènes de protéines

Laboratoire d'études prébiotiques

Toute réaction ou commentaire par rapport à ce travail de recherche sont les bienvenus sur cette page de discussion.

Cette page fait partie de l’espace recherche de Wikiversité et dépend de la faculté biologie. Pour plus d'informations, consultez le portail de l'espace recherche ou rendez-vous sur l'index des travaux de recherche par faculté.

Article en préparation

Paris le 26.10.16

Introduction − 1

Cet article est la suite de celui sur la répétition des bases dans l'ADN des procaryotes.
Pendant ma recherche sur les répétitions des bases et en découvrant la dissymétrie des diagrammes des GC et AT j'ai commencé à penser que les codons ou toute autre séquence d'ADN pouvaient avoir une résonance propre ou, autrement dit, un état vibratoire propre en interaction avec l'état vibratoire de son voisinage. Le processus qui fait varier le contenu en GC (%GC) de l'ADN serait une manifestation de ces états vibratoires de l'ADN. Pour moi, à ce stade, un codon donné doit avoir un état vibratoire propre qui en se combinant aux autres codons donnerait le contenu en GC d'un gène d'une protéine.
Aussi je pensais qu'on pouvait avoir une certaine appréhension de cet état vibratoire en dessinant la courbe des effectifs d'un codon, d'un ensemble de protéines, en fonction du contenu en GC (%GC) du génome. Il fallait pour cela que les génomes choisis aient des contenus en GC distincts et qui s'étalent sur une longue gamme pour avoir une courbe régulière et la plus complète possible. Cette contrainte était aussi de mise pour les répétitions des bases et j'ai utilisé les résultats des répétitions pour choisir les génomes répondant à ces critères. Et pour les mêmes raisons pratiques que les répétitions des bases j'ai choisi de n'étudier que les bactéries, mieux étudiées et très variées.
Ensuite il fallait que les protéines choisies soient longues, pour avoir un effectif par codon et par génome assez significatif, qu'elles existent chez tous les génomes choisis et pour mieux faire, autant choisir les mêmes protéines pour tous les génomes. J'ai finalement choisi 111 génomes avec 6 protéines communes chacun. Ces contraintes ont abouti en fait, sans le vouloir, au choix des protéines qui ont pour substrats l'ADN (2 de réplication et 2 de transcription) et les tRNA (tRNA synthétase Leu et Ile).
Devant ce constat j'ai constitué un autre lot de 39 bactéries avec 11 protéines communes chacune, longues, ayant la même fonction, et qui n'interviennent pas dans la gestion de l'ADN ou de l'ARN et ne sont pas des protéines membranaires. J'ai comparé ces 2 types de courbes de codons et elles se sont révélées quasiment identiques.
J'aurais du être satisfait et m'arrêter pour publier. Sauf que, dès les 1ères analyses des courbes, je me suis rendu compte que les codons devaient subir une contrainte majeure: la composition en acides aminés et leur agencement dans une protéine dépend non pas de la séquence des codons mais de la fonction de la protéine qui est le résultat de son interaction avec tous les composants de la cellule et avec le milieu extérieur. Les mutations silencieuses à la base du processus de variation du contenu en GC ne devraient pas modifier fortement la séquence en acides aminés de la protéine, sachant en plus que certains acides aminés jouent des rôles à peu près équivalents. Aussi pour un acide aminé à 6 codons une partie d'entre-eux évolue dans le même sens que le contenu en GC et l'autre dans le sens contraire. Dans les acides aminés à plus de 3 codons, le nombre de codons évoluant dans le même sens que le contenu en GC ne se réduit jamais à un. Donc, pour ces acides aminés, les codons évoluant dans le même sens que le contenu en GC vont se compenser si, les mutations se faisant au hasard, l'un d'eux est plus fréquent que les autres. De ce point de vue là (celui des acides aminés) la résonance du codon dans le gène et celle du gène même sont brisées. Et encore le choix de cumuler plusieurs protéines pour avoir des effectifs de codons conséquents, brise encore plus cette résonance en mélangeant plusieurs résonances à la fois. Du point de vue résonance c'est comme si en musique on mélangeait plusieurs sons au hasard. Ce qui donnerait un brouhaha.
Aussi j'ai commencé à étudier une protéine à la fois pour essayer quand même de discerner entre la compensation entre codons, imposée par la fonction de la protéine, et leur résonances propre. J'ai commencé à classer les codons par leurs fréquences. Mais même en étudiant plusieurs protéines certains codons, les plus fréquents régulièrement, ne se maintiennent pas à un rang fixe ou même relativement fixe. Et les classer par rapport à une longueur de protéine de référence n'arrange pas l'affaire. C'est comme en musique on mettait la moitié d'un violon dans un orchestre.
Petit à petit est naît l'idée de la corrélation entre codons dans le gène d'une protéine ayant la même fonction pour tous les génomes étudiés en fonction de leur contenu en GC. La longueur de cette protéine peut être différente d'un génome à l'autre et c'est ce qui définit la résonance du gène de cette protéine de ce génome. Un codon donné y a une résonance spécifique différente d'un génome à l'autre. Donc la corrélation entre 2 codons revient à la corrélation de leurs résonances. La matrice des corrélations entre codons pour une protéine donnée est symétrique parce que le concept de corrélation est réciproque. Donc cette matrice a des valeurs propres. Une valeur propre n'est pas attribuée à un codon donné, mais à une combinaison de codons. Cependant la corrélation d'un codon donné avec le contenu en GC de la protéine (et non pas celui du génome en entier) représenterait l'importance de ce codon dans la variation en contenu GC. En affectant au codon le même rang de sa "corrélation avec le contenu en GC" que le rang de la valeur propre de la matrice nous avons là un paramètre de la résonance de ce codon, dans cette protéine. Cette résonance va varier d'une protéine à l'autre et l'on pourra alors les classer par ordre d'importance. Nous avons là le même problème de classement qu'avec le classement par les fréquences ou les corrélations 2 à 2 mais ici, nous allons le voir, les valeurs propres amplifient les différences entre codons et donc très vite certains se comporteront de façon très différente.

Matériels et méthodes − 2

Le programme pour compiler les codons est : Compilations des codons.

Méthode pour l'étude des courbes des codons − 2.1

Compilations − 2.1.1

Le programme de compilation, repete.pl, donne le contenu en GC des génomes.

Le contenu en GC (%GC) de 80 bactéries sont tirés des tableaux numériques de l'article "répétition des bases dans l'ADN des procaryotes". Pour la cyanobactérie synd voir dans cyanobactérie de la même annexe.
J'ai soumis le programme "repete.pl" pour 30 autres bactéries. Ce qui fait un total de 111 bactéries pour la caractérisation des codons par leur diagramme en fonction du contenu en GC de ces bactéries.
Résultats.

Le programme de compilation, "codon.pl", décompte les 64 codons d'un gène d'une protéine d'un organisme donné. Les fichiers décomptés sont ceux de KEGG obtenus avec le code orthologique de KEGG KO. Voir ci-dessus le sous-chapitre de la liste des protéines étudiées pour leur code KO. Copier la séquence de nucléotides à la section "NT seq". C'est un fichier en minuscules de 60 caractères. Le programme traite 3 lettres par 3 lettres, ne pas donner donc en entrée des fichiers au format fasta, de 70 caractères.

Le fichier en sortie, résultat du comptage des codons est codonsc.txt: Il contient les tableaux "1 gène/n procaryotes" et "1 procaryote/ n gènes".
Le fichier en sortie, sommation des codons en acides aminés: codonsa.txt: Il contient les tableaux "1 gène/n procaryotes" et "1 procaryote/ n gènes".

Enzymes à substrat ARN ou ADN − 2.1.2

Les bactéries: Les noms des génomes sont ceux codés dans la base de données KEGG: 3 à 4 lettres. 111 bactéries dont 2 cyanobactéries ( synd, pmh) ont été choisies pour avoir des valeurs de %GC réparties régulièrement. Le programme est exécuté 3 fois sous terminal Ubuntu dans un dossier contenant les fichiers xxx2777A, xxx27771 … où xxx désigne la bactérie et 2777A sa protéine. Chaque bactérie a 6 à 7 protéines. Toutes les bactéries d'une liste doivent avoir les mêmes fichiers de protéines. Les 3 listes suivantes sont sous la forme paramétrée du programme. Voir les résultats pour les codons et pour les aas.

my @x=([a2777A, a27771, a27761, a27762, a6114, a6115]);
@noms=(aae, aba, ade, age, amd, amo, apt, axl, bae, bbd, bfl, bla, bmf, bmv, bsu, bvs, caa, cad, cbd, cbl, cff, cgq, chp, cje, cmi, cmn, cta, dal, dba, ddr, din, dpt, dte, dvl, eal, eco, eno, fbt, fnc, gau, gva, hhd, hhl, hmr, hth, ial, kpn, ksk, lat, lfc, liv, ljf, lla, lpl, mah, mcac, mcu, mts, nis, nse, opr, pac, pae, pdi, pgd, pgi, pmh, ppoy, pub, ret, roa, rpr, rru, saci, salb, say, sbn, sbw, sbz, sep, sgr, sho, sma, smf, smk, spi, spl, ssdc, ssm, sty, sus, synd, tai, tde, thl, tli, tma, tme, tos, tpas, tsu, uur, vin, vpr, xcb, ype);

my @x=([a2777A, a27761, a27762, a6114, a6115, a6119]);
@noms=(hcr, ple, rip, crp, zin); 

my @x=([a61142]); 
@noms=(aae, hth);

Les protéines:

abrégé 	IUBMB Enzyme 	Dénomination KEGG 		code KO	  code pour le programme
dnaE 	EC 2.7.7.7 	DNA polymerase alpha subunit A 	K02337	  2777A
PolA 	EC 2.7.7.7 	DNA polymérase I 		K02335    27771
rpoB 	EC 2.7.7.6 	RNA polymerase subunit beta 	K03043    27761
rpoC 	EC 2.7.7.6 	RNA polymerase subunit beta' 	K03046    27762
lars 	EC 6.1.1.4 	leucyl-tRNA synthetase 		K01869    6114
lars 	EC 6.1.1.4 	leucyl-tRNA synthetase 		K01869    61142 (pour bactéries aae et hth ayant 2 sous-unités)
iars 	EC 6.1.1.5 	isoleucyl-tRNA synthetase 	K01870    6115
vars 	EC 6.1.1.9 	valyl-tRNA synthetase 	        K01873    6119

Comparaison enzymes ARN ADN / enzymes métabolisme central − 2.1.3

Les bactéries: Même méthode que le chapitre précédent avec 39 bactéries dont 2 cyanobactéries ( synd, pmh) ont été choisies pour avoir des valeurs de %GC réparties régulièrement. Pour les mêmes 39 bactéries 2 lots de protéines sont constitués: le 1er lot est celui étudié pour les diagrammes étendus à 111 bactéries, c'est-à-dire les enzymes à substrat ARN ou ADN, le 2ème lot est constitué d'enzymes différentes, plutôt à petits substrats du métabolisme central, à part la protéine membranaire secA, pour le transport de protéines à travers la membrane.

−. Enzymes à substrat ARN ou ADN. Chaque bactérie a 6 protéines du chapitre précédent.

my @x=([a2777A, a27771, a27761, a27762, a6114, a6115]);
@noms=(ade, amd, apt, bae, bla, bmv, bsu, cbd, cbl, cff, cgq, cje, dvl, eal, eco, eno, kpn, lat, liv, lla, pac, pae, pgd, pmh, ppoy, ret, roa, rru, salb, 'say', sbz, sep, sgr, sma, smk, sty, synd, xcb, ype );

−. Enzymes du métabolisme central. Chaque bactérie a 9 à 11 protéines.

#my @x=([aseca, a63551, a63552, a27140, a4213, a2211, a36314, a363141, a6412]);   #39 bactéries
#@noms=(ade, amd, apt, bae, bla, bmv, bsu, cbd, cbl, cff, cgq, cje, dvl, eal, eco, eno, kpn, lat, liv, lla, pac, pae, pgd, pmh, ppoy, ret, roa, rru, salb, 'say', sbz, sep, sgr, sma, smk, sty, synd, xcb, ype );	

#my @x=([a64121]); #36 bactéries 
#@noms=(ade, amd, apt, bae, bla, bmv, bsu, cbd, cbl, cff, cgq, cje, eal, eco, eno, kpn, lat, liv, lla, pae, pgd, pmh, ppoy, ret, roa, rru, salb, sbz, sep, sgr, sma, smk, sty, synd, xcb, ype );

my @x=([a64122]); #29 bactéries
@noms=(ade, apt, bae, bmv, bsu, cbd, cbl, cff, cje, eal, eco, eno, kpn, lat, liv, lla, pae, pgd, pmh, ppoy, ret, rru, sbz, sep, smk, sty, synd, xcb, ype );

Les protéines:

−. Enzymes ARN, ADN. Chaque bactérie a 6 protéines du chapitre précédent.

abrégé 	IUBMB Enzyme 	Dénomination KEGG 		code KO	  code pour le programme
dnaE 	EC 2.7.7.7 	DNA polymerase alpha subunit A 	K02337	  2777A
PolA 	EC 2.7.7.7 	DNA polymérase I 		K02335    27771
rpoB 	EC 2.7.7.6 	RNA polymerase subunit beta 	K03043    27761
rpoC 	EC 2.7.7.6 	RNA polymerase subunit beta' 	K03046    27762
lars 	EC 6.1.1.4 	leucyl-tRNA synthetase 		K01869    6114
iars 	EC 6.1.1.5 	isoleucyl-tRNA synthetase 	K01870    6115

−. Enzymes Métabolisme central. Chaque bactérie a 9 à 11 protéines.

abrégé 	IUBMB Enzyme 	Dénomination KEGG 		             code KO   code pour le programme
secA 	− 	        preprotein translocase subunit 	             K03070    secA
acnA 	EC 4.2.1.3 	aconitate hydratase 	                     K01681    4213
carB 	EC 6.3.5.5 	carbamoyl-phosphate synthase 	             K01955    63551  Large subunit
carA 	EC 6.3.5.5 	carbamoyl-phosphate synthase 	             K01956    63552  Small subunit
PK      EC 2.7.1.40     pyruvate kinase                              K00873    27140
TKT     EC 2.2.1.1      transketolase                                K00615    2211
atpA    EC 3.6.3.14     F-type H+-transporting ATPase                K02111    36314  Alpha subunit
atpD    EC 3.6.3.14     F-type H+-transporting ATPase                K02112    363141 Beta  subunit
accA    EC 6.4.1.2      acetyl-CoA carboxylase carboxyl transferase  K01962    64121  Alpha subunit   
accD    EC 6.4.1.2      acetyl-CoA carboxylase carboxyl transferase  K01963    64122  Beta  subunit  
accA    EC 6.4.1.2      acetyl-CoA carboxylase, biotin carboxylase   K01961    6412   Subunit

Méthode pour l'étude des corrélations entre codons − 2.2

17-07-16  Tanger
Méthodes
Calculs des valeurs propres des matrices des coefficients de corrélation entre codons.
	Le coefficient de corrélation entre 2 codons fait participer ces 2 codons de façon équivalente. D’où la symétrie de la matrice carrée de ces coefficients. Pour attribuer une valeur à la participation de chaque codon je me réfère à la définition statistique du coefficient de corrélation qui est un produit des 2 paramètres caractéristiques de chaque variable aléatoire représentée ici par un codon. (réf.).
	L’équivalence de participation fait que, celle d’un codon, est égale à la racine carrée du coefficient de corrélation entre ces 2 codons. La racine carrée implique l’utilisation des nombres complexes quand le coefficient est négatif.
	Obtention de la matrice :
	La matrice des coefficients sera en fait la matrice complexe des racines carrées des coefficients de corrélation entre codons. Pour l’obtenir avec un tableur (ici Calc de Libreoffice) il suffit de faire dans une cellule: =SI(CO585<0;-RACINE(-CO585);RACINE(CO585)). Pour obtenir un nombre complexe il suufit de remplacer (ctrl+H)   -0.   par   1j*0.   (python2.7). 
	Formatage de la matrice pour python2.7 :
Copier la matrice de Calc vers Writer (ctrl+Maj+v, texte non formaté).
Remplacer (ctrl+H) :           \t      en      ‘, ‘       (expression régulière et sélection).
Remplacer (ctrl+H) :           $      en      ‘],\n[ ‘       (expression régulière et sélection).
Mettre ‘[‘ au début de la matrice et ‘]’ à la fin de la matrice.
Si la copie de la matrice dans le terminal se passe mal, copier en plusieurs morceaux chacun se terminant par ‘], ‘.
	Calculs des valeurs propres avec python2.7 (ubuntu 16.04): 
Dans un terminal passer les commandes suivantes : 
****
python2.7
>>> import numpy as np
>>> from numpy import linalg
>>> from numpy.linalg import eig
>>> u = np.array([      "coller"
…...],  "coller"     "coller"    
…, 1]
ajouter à la suite 
])
entrée
Si la matrice est acceptée passer la commande 
>>> u 
pour l’afficher.  
Le calcul des valeurs propres se fait de la façon suivante :
>>> D, V = eig(u)
D est la diagonale des valeurs propres en nombres complexes. C’est son module (nombre réel) qu’on peut comparer aux coefficients de corrélation des codons. Pour obtenir ce module je multiplie la valeur propre complexe par son cojugué et j’extrais sa racine carrée. Dans python2.7 je passes les commandes suivantes :
>>> z=np.conj(D)
>>> c=z*D
>>> c
S’affiche alors la liste des modules au carré qu’il suffit de nettoyer du nombre complexe j dans Writer et extraire la racine carrée [=racine()] dans Calc.
****
	L’inverse du module de la valeur propre est comparable à l’ordre du classement des codons par leurs coefficients de corrélation :
     C’est en regroupant les codons semblables ayant le même signe de corrélation (exemple cgt+cga, tct+tca, ctc+ctg….) que j’obtenais des coefficients très élevés. Que deviennent alors les valeurs propres de telles matrices ? J’ai alors construit une matrice articficielle à partir de la matrice réelle de la protéine 63551 en gardant les signes + et – des coefficients et en remplaçant ceux-ci tous par un nombre inférieur ou égale à 1. Pour cela il suffit, dans Calc, d’exécuter la fonction  [=impair()] pour une cellule donnée de la matrice. On obtient des ‘1’ et des ‘-1’. Il suffit alors de remplacer 1 par un nombre inférieur tout en protégeant la diagonale qui doit rester égale à ‘1’.
    La matrice artificielle avec une valeur ‘1’ comme coefficient de corrélation donne 18 valeurs propres supérieures à ‘1’ et toutes les autres sont très proche de ‘0’ mais toutes différentes entre elles. Avec 0,5  0,8  et 0,98 on obtient toujours 18 valeurs supérieures à ‘1’  mais les autres valeurs sont toutes identiques entre-elles et sont respectivement de 0,5  0,2  et 0,02. 
	Il est clair que si on veut comparer coefficient de corrélation et valeur propre il faut plutôt prendre l’inverse de la valeur propre.
	Il faut noter que les 2 premières valeurs propres croissent avec le coefficient de corrélation articficiel. J’en tiendrai compte dans ‘ résultats et discussion’.
Voir   ‘proteines memb-compare-6355.ods’ pour récupérer ces tableaux. 

Classement des codons par leurs coefficients de corrélation.
	Introduction sur la résonance d’un codon qu’on souhaite determiner ou plus prosaiquement en avoir une quelconque estimation.
	Pourquoi suis-je arrivé là, à classer les codons par leurs coefficients de corrélation ? Ma théorie sur la résonance des bases dans l’{{abréviation|ADN|acide désoxyribonucléique}} m’a conduit par simplicité à recenser les bases multiples qui seraient la caractéristique des séquences de contrôle (opérons, promoteurs, treminateurs...). Les compilations que j’ai faites en fonction du %GC d’un génome entier m’ont réconforté dans mon idée : les répétitions de A et les répétions de T se comportent de façons tout à fait différentes de celles de G et celles de C. Pour confirmer j’ai commencé à regarder les répétitions dans les gènes protéiques. A ma grande surprise c’est que les zones de contrôle chez les bactéries sont très peu étendues et les répétitions que j’ai comptabilisées sont en fait dans les gènes protéiques. 
	L’idée m’est venue alors de rechercher la résonance des codons en étudiant les diagrammes (nombre de codons) en fonction du %GC  de l’organisme. Les résultats sont réconfortants. C’est à dire que les diagrammes sont tous différents et leur allure reste la même quelle que soit la protéine étudiée. Mais 2 points litigieux me tracassaient :
- la résonance d’un codon dans une séquence n’a pas de sens puisque le codon n’a d’existence que par l’intermédiaire de la traduction. Dans le gène il n’y a pas de frontières entre les bases et les triplets qui ne sont pas des codons n’interviennent pas dans les diagrammes. Ma théorie de la résonance n’est valable que pour le gène entier.
- le fait même de tenir compte du %GC de l’organisme entier veut que ça soit ce pourcentage qui soit à l’origine de la répartition des codons et non les propriétés des codons (ou plus particulièrement la résonance des bases) qui soient à l’origine du dit pourcentage. C’est la théorie de l’évolution qui est avancée dans la polémique de l’origine du %GC. Les études de mes diagrammes n’apportent que de la confusion.
	La confusion a commencé à se dissiper quand, petit à petit, en essayant de classer les codons avec leurs diagrammes, je me suis intéressé aux coefficients de corrélation entre les codons. Ces coefficients ne font plus intervenir le fameux %GC de la polémique. Il m’est apparu alors évident que la matrice 64x64 des corrélations représentait plus ou moins la signature de la résonance du gène. C’est une matrice symétrique de nombres réels donc elle a 64 valeurs propres portées par 64 vecteurs propres. La matrice définie par les vecteurs propres est une matrice diagonale des valeurs propres. Le problème qui se pose alors c’est comment relier codon et valeur propre. Car l’ordre des valeurs propres est indéterminé. 
	Reste le point litigieux de la résonance d’un codon dans un gène. Mais revenons sur l’argumentaire de la traduction qui attribue le concept de codon uniquement  à la machinerie de la traduction. Le codon est défini avant tout par le sens de lecture sur un ARNm qui est simple brin. Or  l’{{abréviation|ADN|acide désoxyribonucléique}} est double brin et n’est pas en translation. Cependant quand les protéines qui gèrent l’{{abréviation|ADN|acide désoxyribonucléique}} (protection, réparation, reconfiguration lors de la transcription et de la réparation et surtout interaction avec les facteurs de transcription) entrent en interaction avec lui, elles interagissent avec la structure physique : les 2 brins ne sont pas accessibles de la même façon dans le petit et le grand sillon, ils n’ont pas la même énergie quand l’{{abréviation|ADN|acide désoxyribonucléique}} est déroulé ou comprimé lors des réparations ou de la transcription. Donc pour ces protéines, sur une courte distance, un des brins est accessible dans une direction donnée. C’est ainsi qu’on comprend que la transcriptase lit un brin donné dans un sens et lit la séquence qui suit dans l’autre sens, c’est la lecture dans le sens direct et dans le sens complément.
	Donc la résonance d’un triplet peut se concevoir dans l’{{abréviation|ADN|acide désoxyribonucléique}} comme si c’était un simple brin. Mais pour qu’on puisse parler des mêmes codons que pour la traduction il faut alors supposer qu’un triplet donné constitue une onde fixe en vibration avec 2 nœuds et un ventre chacun constitué d’une seule base nucléique. Les triplets en résonance sont alors les mêmes que les codons. On imagine bien que cette résonance continue d’être effective, même partiellement, dans l’ARNm et qu’elle ait un rôle dans la machinerie trauctionnelle.
	Les triplets en résonance sont peut être les ondes minimales qui constituent des ondes plus grandes qui seraient les gènes délimités par les 2 nœuds qui seraient le codon d’initiation et le codon stop eux-mêmes définis comme tels par les promoteurs et les terminateurs qui ont des séquences beaucoup plus grandes que 3 bases et qui doivent avoir leur résonance propre.
		Tanger 25-7-16
		Classement par le coefficient de corrélation entre un codon et le %GC de la protéine. 
       Nous avions dit que le %GC d’un gène est le résultat de l’interaction des codons entre eux et non l’inverse. Le coefficient de corrélation de ce pourcentage avec un codon donné représente son interaction avec tout le gène comme la valeur propre d’une matrice représente une caractéristique de  toute la matrice. On peut donc mettre en parallèle (comparer) valeur propre et ce coefficient de corrélation. 
     Il est imporatnt de noter que le %GC définit de façon unique le gène et les interactions entre codons. Ceci n’a de sens que parce que l’appariement dans l’{{abréviation|ADN|acide désoxyribonucléique}} est stricte. Ce n’est plus le cas si on s’interessait aux coefficients de corrélations entre aas par exemple dans une protéine. On peut définir aussi une résonance (de nature différente de celle de l’ADN) pour une protéine et la composition de cette protéine est la résultante des coefficients de corrélation entre aas. Seulement les valeurs propres de la matrice des corrélations ne peuvent plus être mis en parallèle avec des coefficients de corrélation entre une caractéristique de la protéine et un aa. Cette caractéristique n’est pas unique, car avec 20 aas et la longueur de la protéine on peut en définir un nombre astronomique.
     Nous touchons là la problématique même des premières étapes de l’évolution moléculaire ou autrement dit le paradoxe de l’oeuf et de la poule. Une protéine est en  interaction permanente avec son environnement qui fluctue énormément et donc sa conformation change tout le temps tout en ayant toujours la même séquence d’aas. Le gène par contre est confiné solidement à l’intérieur de l’{{abréviation|ADN|acide désoxyribonucléique}} qui est maintenu dans sa conformation par une multitude de protéines. La résonance du gène peut être ainsi maintenue dans une game restreinte avec même des modifications dans la séquence des bases et définir donc une fonction. C’est ce que nous observons dans les corrélations entre codons. 
	Reste comment passer de la fonction de la protéine à la séquence de son gène. Ou vis-versa.J’ai abordé ce sujet en introduisant ma théorie sur la résonance et les origines de la vie. Je reprendrai ce sujet au moment de la discussion et de la présentation des résultats. Mon hypothèse c’est que la résonance entre bases nucléiques (futur ADN) peut se faire grâce aux contraintes imposées par la structure établie par le liposome, les aas libres et les bases nucléiques libres aussi , avant même qu’aucune liaison covalente ne soit établie. J’ai voulu insister, ici, sur le  choix de la méthode en relation avec cette hypothèse.
		Classement par la somme des valeurs absolues des coefficients de corrélation dans une protéine et  comparaison avec les autres protéines. 
	C’est la méthode qu’on aborde avant toute réflexion. C’est ce que j’ai fait au début pour les codons et que je ferai pour les aas, là où, comme je l’ai dit au classement précédent, on ne peut faire de parallèle entre valeur propre et coefficient de corrélation. Les valeurs absolues des coefficients de corrélation ignorent le signe, alors que valeur propre et coefficient de corrélation avec %GC en tiennent compte. La somme des coefficients reste une addition de parties qui ne rprésente pas la relation du codon avec le tout qu’est le gène.
     J’utilise la somme des valeurs absolues pour les codons et les aas dans un seul cas pour les comparer avec le coefficient avec %GC. 

Mise en parallèle des valeurs propres et de l’ordre des codons effectué sur leurs coefficients de corrélation avec %GC.
Inverse
regroupement et définition de 3 types de résonance
Total des valeurs propres : corrélations fortes et faibles
les 2 1ères valeurs propres
variations entre protéines et entre domaines	

Tanger  26-7-16
Résultats
liste
- A et T se comportent de façon très différente de G et G quand on comptabilie les bases multiples en fonction du %GC : pour chaque multiple A=T  et G=C. Diagrammes et équations en X2.
- Chez les bactéries les diagrammes nombre de codons = f(%GC) sont caractérisitiques de chaque codon. D’où résonance propre pour chque codon.
- Les matrices des coefficients de corrélation : le total des inverses des valeurs propres, supposées proportionnelles aux coefficients de corrélation est un indice de la cohérence de la protéine. Plus ce total est grand plus les corrélations sont fortes. (discussion sur les 2 1ères valeurs propres).
- Le classement des codons par leur max et min montrent qu’ils se comportent de façon analogue chez les bactéries, les eucaryotes et les archées. 
Parmi les 16 1ers codons :
10 codons sont communs : aaa	ttt	aat	att	tat	ggc	gcc	cgc	gac	gat.
Les 6 spécifiques des bactéries sont : tta	ttc	tca	acc	ctg	cag
Les 6 spécifiques des eucaryotes sont : gaa	tct	gtt	gag	ctc	ccc
Les 6 spécifiques des archées sont : ttc	gtc	ctc	acg	ccg	gcg
Parmi les 16 derniers codons :
11 codons sont communs : ggg	ggt	tgg	agg	cgt	cga	ctt	tga	atg	tag	taa
Les 5 spécifiques des bactéries sont : agc acg tgc	cta	ttg
Les 5 spécifiques des eucaryotes sont : gga cct acg tcc cta
Les 5 spécifiques des archées sont : agc	tgc	aag	aac	tgt

Résultats − 3

Tableaux numériques − 3.1

Les tableaux numériques

Les programmes de compilation sont exécutés sur des lots homogènes concernant une même étude. Par la suite je ferai toujours référence aux tableaux suivant des totaux. Ce sont des tableaux formatés dans "calc de libreoffice" avec une largeur de colonne de 1,3 cm. Pour les transformer en ".txt" j'ai changé les tabulations en ";" plus faciles à visualiser. Le lecteur pourra alors les transférer dans son tableur de choix.

111 génomes pour caractériser les codons

Total des codons des 111 génomes DRNA: 1 codon / n génomes.
Total des acides aminés des 111 génomes DRNA: 1 aa / n génomes.
Contenu en GC des 111 génomes DRNA.

39 génomes pour comparaison entre 2 lots d'enzymes

Total des codons des 39 génomes PDNA: 1 codon / n génomes.
Total des codons des 39 génomes DRNA: 1 codon / n génomes.
Total des acides aminés des 39 génomes PDNA: 1 aa / n génomes.
Total des acides aminés des 39 génomes DRNA: 1 aa / n génomes.
Contenu en GC des 39 génomes.

Diagrammes − 3.2

Annexe diagrammes

Cette annexe de diagrammes permet de les visualiser en petites dimensions avec, certains, des paramètres des courbes de tendance. Dans l'article, ici, je ne donne que quelques exemples étant donné le grand nombre de codons de 64.

Les 64 codons des 6 enzymes à substrat ARN ou ADN de 111 génomes.
Les 32 diagrammes de comparaison par juxtaposition entre codons des enzymes à petit substrat et à substrat ARN ou ADN de 39 génomes.

Caractérisation des codons par leur diagramme en fonction du %GC − 3.2.1

Protéines aux substrats ADN ou ARN, en fonction du %GC du génome. 111 bactéries. − 3.2.1.1

Les diagrammes ont été construits dans Libreoffice/calc à partir du tableau des diagrammes des codons puis exportés au format png.
Les légendes reportent le codon suivi de sa valeur à 75% de l'équation, puis de l'abscisse du maximum ( en %), du maximum de cette abscisse, et enfin en gras le coefficient de détermination R2. Les valeurs calculées le sont d'après les équations de tendances reportées sur les diagrammes. Le détail des calculs se trouve dans les Tableaux numériques.
Les diagrammes sont construits en forçant l'ordonnée à l'origine à zéro ( case à cocher dans 'formater la courbe de tendance'). Aussi les diagrammes des codons se terminant par a ou t sont reportés en fonction du %AT et ceux des codons se terminant par g ou c en fonction du %GC. Seuls 2 codons, ttg et agg, sont reportés en %AT et tga en %GC, ceci en considérant toujours la tendance à la hausse pour forcer l'ordonnée à l'origine à zéro. Ces 3 codons sont en majuscule et en gras: TTG, AGG, TGA.
Diagrammes pour 111 bactéries et 6 enzymes d'un total moyen de 6 550 aas chacune.
Exemples:

ttt 288 95	AGG 19 59% 36 31	gaa 391 67% 420 95	gcc 405 93

Comparaison entre protéines aux petits substrats du métabolisme central et protéines à substrats ADN ou ARN. 39 bactéries. − 3.2.1.2

Comparaison des diagrammes par juxtaposition − 3.2.1.2.1

Comparaison des diagrammes des mêmes 39 bactéries pour les enzymes du métabolisme central (Prot-39) et des enzymes à substrat ADN ou ARN (Dna-39).
Ces diagrammes ont été construits avec les 2 tableaux de diagrammes des PDNA et des DRNA-39.
La juxtaposition consiste à mettre les 2 diagrammes d'un même codon l'un au-dessus de l'autre avec la même échelle. Pour économiser le nombre de liens sont réunis entre-eux 2 codons d'un même acide aminé.
Exemples

ttt et ttc	att et atc	gaa et gag	aga et agg

Corrélation entre les différences "dna-prot" de 2 codons − 3.2.1.2.2

Diagrammes des corrélations x.y de 2 codons en fonction des 2 1ères bases. Voir tableau des diagrammes.

a.t	a.g	a.c	t.c	t.g	c.g

Différences entre codons dues à la séquence des gènes − 3.2.1.2.3

Exemple Diagramme dif-difac.

Différences entre codons dues à la séquence des gènes: diagramme dif-difac.
Pour une même bactérie la différence suivante (dif), en %, entre 2 codons synonymes (gga et ggc par exemple ne différant que par la 3ème base):

[nombre de codons de gga − nombre de codons ggc] du lot Dna −

[nombre de codons de gga − nombre de codons ggc] du lot Prot (dif)

ne met en cause que l'interaction entre les bases dans les séquences des gènes de ces 2 lots puisque les actions protéiques du cytoplasme sont identiques et la sélection naturelle ne distingue les 2 synonymes que dans l'ADN.

L'étude est étendue aux codons non synonymes ne différant que par la 3ème base. Le diagramme représente la distribution de chaque couple de 3ème base pour les 16 doublets. Le nombre de codons est un nombre entier issu du total compté pour chaque bactérie.

La courbe de tendance (en bleu) est un polynôme de degré 48 donnant pour tous les diagrammes un coefficient de régression R2 optimal.

(difS), en rouge, représente les différences (dif), en bleu, statistiquement différentes de zéro. L'erreur pour chaque lot , un seul terme de (dif) est calculée d'après la loi binomiale sur la somme des 2 codons. N'ont été retenues que les bactéries ayant les 2 erreurs inférieures à 89% ( somme des 2 codons supérieure à 5 pour tenir compte des codons Stop). Le modèle de calcul pour tableur se trouve dans le tableau numérique et les différences à 2 décimales sont répertoriées dans les tableaux pour les calculs de la ( moyenne et de l'écart type ). La distribution pour chaque couple se trouve dans tableaux pour diagrammes dif-difxz.

Le nombre de codons des DRNA (ici Dna) est celui d'un lot moyen de 6 555 acides aminés des mêmes 6 enzymes intervenant dans la synthèse des ARN et ADN: dnaE, polA, rpoB, rpoC, EC 6.1.1.4 et EC 6.1.1.5. Le nombre de codons des PDNA (ici Prot)est celui d'un lot moyen de 6 391 acides aminés d' enzymes intervenant dans le métabolisme central à petits substrats. Les noms des bactéries en 3 ou 4 lettres sont ceux de la base de données KEGG. La séquence du gène de la protéine est celle de KEGG obtenue avec le code orthologique de KEGG KO.

Pour les codes KO et pour plus de détails voir l'article " Corrélations entre les codons dans les gènes de protéines", au chapitre Corrélation entre les différences "dna-prot" de 2 codons

a − c	a − g	a − t	t − c	t − g	c − g

Corrélations entre codons − 3.2.2

Analyse des résultats − 3.3

Caractérisation des codons par leurs diagrammes en fonction du %GC − 3.3.1

Cette première partie ne concerne que l'étude des codons en fonction du contenu en GC (%GC) du génome de la bactérie, en général avec un seul chromosome circulaire. Donc les protéines des eucaryotes en sont exclues.
Après une caractérisation très poussée des codons avec des diagrammes étendus à 111 bactéries je vais comparer, entre les mêmes 39 bactéries, 2 lots de tailles équivalentes des enzymes à gros substrats, ARN et ADN, et des enzymes à petits substrats du métabolisme central, pour toujours identifier ce qui est propre à chaque codon.

Caractérisation par des diagrammes étendus − 3.3.1.1

Ces diagrammes étendus sont faits avec 111 bactéries. L'étude concerne la caractérisation la plus poussée des codons et l'évolution des acides aminés du lot de protéines étudiées en fonction du contenu en GC.
Les données sont celles du tableau des diagrammes de ces 111 bactéries, total des compilations directes des codons, normalisé à 6550 aas, moyenne des lots des 6 protéines sélectionnées. Le tableau des diagrammes des aas peut être déduit de celui des codons, mais on peut utiliser celui fait par sommation dans le programme perl, codons.pl.

Caractérisation par le maximum des courbes de tendance − 3.3.1.1.1

1 _. Les maxima sur les diagrammes

Plus de la moitié des courbes de tendance ont un maximum, 37 sur 64. Les codons se terminant par a ou t sont majoritaires, 20 et existent tous, c'est-à-dire que leur abscisse ne dépasse pas l’abscisse maximale de la bactérie zin de 86,5%AT. Alors que les codons se terminant par g ou c, 13 seuls sont réels puisqu'on ne connaît pas de bactérie à %GC supérieur à 75, abscisse maximale de ade. Dans le tableau qui suit >75 représente un maximum dont l'abscisse dépasse 75% AT ou GC.

codons	max	>75             codons  max     >75					
txt	1	1		cxt	4	0					
txc	3	1		cxc	0	0					
txa	1	0		cxa	4	1					
txg	1	0		cxg	3	1					
											
codons	max	>75             codons  max     >75                     total   max     >75
axt	1	1		gxt	4	0			xxt	10	2
axc	4	1		gxc	0	0			xxc	7	2
axa	1	1		gxa	4	1			xxa	10	3
axg	4	1		gxg	2	0			xxg	10	2
										37	9

Maxima des acides aminés à 2 codons: tous les cas sont possibles, comme si (à part le processus du contenu en GC) le codon était indépendant de l'acide aminé qu'il porte.

Base3  Phe	Tyr	His	Gln	Asn	Lys	Asp	Glu	Cys
a,t	-	-	73	80	-	-	70	67	-
g,c	-	83	-	68	66	85	-	-	64

Maxima des acides aminés à 4 codons: tous les a,t ont un maximum; c en a un seul et g 3. Au total 5 codons sur 20 sont sans maximum. Val, Pro et Gly en ont 3 alors que Thr 4 et Ala 2. On constate un comportement inversé de g par rapport à c et sur leurs 5 maxima il y en a 2 qui ne sont pas réels. Là encore c'est le comportement des codons qui prévaut sur celui des aas: les a,t et g ont un maximum alors que c n'en a pas.

Si on regarde maintenant le carré de Ile−Met, on comprend alors que Met se comporte comme les autres codons des aas à 4 codons. Et le comportement de Ile apparaît alors comme l'inverse de celui de Ala.

Base3	Val	Pro	Thr	Ala	Gly    Ile
t	68	68	82	66	63     -
c	-	-	77	-	-      73
a	70	74	78	67	78     -
g	70	82	69	-	64     51

Maxima des acides aminés à 6 codons: Les 18 codons se comportent comme ceux déjà étudiés surtout comparés aux carrés définis par les 2 premières bases, c'est-à-dire ctx, tcx, cgx et agx. Sept codons n'ont pas de maximum et parmi les 5 ayant la 3ème base g ou c et un maximum, aucun ne dépasse les 75% de GC en abscisse.

L'indépendance des codons la plus prononcée par rapport à l'acide aminé porté se trouve dans la forme des courbes de tendance de ttg, agg et tga (*): j'étais obligé, pour homogénéiser les courbes en forçant leur passage par l'origine, de porter les codons ttg et aag en fonction de %AT et non en fonction de %GC d'après leur 3ème base, les effectifs de ces codons sont plus élevés à 75 %AT qu'à 75 %GC. La même situation se retrouve avec le codon tga mais dans le sens inverse, qui est porté en fonction de %GC et non en %AT.

Base3	Leu	Ser	Arg	Trp−Cys
        ct      tc      cg      tg
t	63	86	56	-
c	-	67	-	64
a	71	-	61	-*
g	71	-	-	-

	tt	ag	ag	-
t	/	78	/	/
c	/	61	/	/
a	-	/	-	/
g	60*	/	59*	/

2_. Calcul des maxima

Le nombre de codons est calculé d'après les équations des courbes de tendance pour caractériser chaque codon par un maximum de la courbe et, s'il n'existe pas (équation du second degré sans solution), par la valeur à 75% GC ou AT.
Voir tableau des constantes des polynômes de degré 3. Ces constantes sont relevées à la main parce que le format de l'équation dans Libreoffice/calc est une image. Ces équations sont représentées dans les diagrammes.
L'abscisse du maximum: C'est la solution qui annule la dérivée de l'équation de degré 3. C'est une équation du second degré qui quelquefois n'a pas de solution. Mais quand il y en a 1 ou 2, une seule est valable et doit être supérieure à 50 et inférieur à 100 %GC ou %AT. J'ai éliminé les abscisses supérieures à 90% pour tenir compte des valeurs extrêmes trouvées chez les bactéries étudiées. Voir le calcul de l'abscisse.
Le maximum: Il est calculé avec l'équation de la courbe de tendance. Voir le calcul du maximum.
Voir le tableau synthétique des maxima.

Queue et corps du diagramme − 3.3.1.1.2

Introduction: La courbe de tendance en polynôme de degré 3 semble la plus commune à la majorité des codons. Elle prévaut, pour les faibles coefficients R2 de détermination, aux autres fonctions comme la fonction puissance. Cependant, à regarder de prêt, certains diagrammes présentent 2 parties distinctes: un début à faibles effectifs de codon, la queue du diagramme, qui peut s'étendre sur plus du 1/3 de la gamme de l'abscisse étudiée; puis les 2 tiers restant, le corps du diagramme, présentent en générale une très forte variance. Pour la queue je peux citer les codons en c,g: ctg, cgg et cgc; et pour les codons en a,t: ata, aga, tta et tct. Diagrammes.
La variance du diagramme est donnée par le R2, le coefficient de détermination. Cependant certains codons avec un R2 supérieur à 0.92 peuvent présenter, de visu, une très grande variance comparée à d'autres de même R2. Et ceci qu'il y ait une queue ou non. Par exemple cgc a une queue mais ne présente pas une grande variance, par contre ggc sans queue présente visiblement une grande variance; tat n'a pas de queue et pas de grande variance alors que tta a une queue et une très grande variance. Ces 4 exemples ayant toujours un R2 supérieur à 0.92.
Aussi en m'aidant des diagrammes et des effectifs faibles j'ai déterminé approximativement la longueur des queues en un nombre continu de bactéries ayant des effectifs faibles et au-delà desquels les effectifs décollent. Le reste de bactéries vont constituer le corps dont je vais calculer une variance relative à la courbe de tendance théorique que j'appelle écart moyen du codon. Ces 2 paramètres vont remplacer le coefficient de détermination R2 pour différencier plus les codons entre eux. Les tableaux numériques utilisés sont très grands, 64 X 111. Aussi le lecteur sera obligé de les copier dans un tableur pour pouvoir analyser à sa guise. Cependant j'ai donné avant le tableau complet, un modèle réduit avec coloration des queues.

1._ Les queues à partir du tableau original

Le tableau des queues à partir du tableau original des effectifs des codons des 111 bactéries, se trouve ici. Il donne la moyenne des effectifs de la queue, sa longueur en un nombre continu de bactéries et le pourcentage de ses effectifs par rapport au total du codon.

2._ Tableau numérique des courbes théoriques

À partir des 3 constantes du polynôme de degré 3 de chaque codon, sont calculés les effectifs théoriques correspondant à chaque bactérie au contenu en GC donné (%GC ou %AT). Ces constantes sont relevées à la main parce que le format de l'équation dans Libreoffice/calc est une image. Dans le modèle les queues sont colorées en rouge. Ce qui permet de faire un copie-coller spécial pour le format seul sur le tableau des écarts et de repérer les écarts proches de ces queues.

3._ Les écarts

À chaque effectif de codon du tableau original est calculé l'écart en pourcentage par rapport à son effectif théorique calculé précédemment. Quand l'écart est anormalement élevé parce que la valeur théorique est faible, tous les écarts jusqu'à cette anomalie sont éliminés de la moyenne des écarts de ce codon et sa queue est augmentée du nombre de bactéries concernées. Ces bactéries ajoutées à la queue sont colorées en bleu. En bas du tableau des écarts est calculée la moyenne de ces derniers pour les bactéries ne constituant pas la queue.

La moyenne des codons − 3.3.1.1.3

Elle est calculée dans le tableau original des effectifs des codons des 111 bactéries. C'est la moyenne des effectifs d'un codon pour les 111 bactéries. En tant que telle, elle n'a pas un sens biologique mais de point de vue des diagrammes le total des effectifs d'un codon est l'équivalent en mathématiques de l'intégrale d'une courbe continue. C'est une caractéristique du diagramme. Elle est reportée aussi dans le tableau des écarts.

Il ne faut parler en fait que de la somme totale des effectifs. L'utilisation de la moyenne est seulement une commodité de la présentation. La somme totale des effectifs d'un codon est l'équivalent d'une masse en interaction avec les autres masses des autres codons. Du point de vue résonance de l'ADN et de sa cohérence cette masse se comporte comme la somme totale des coefficients de corrélation d'un codon donné avec les autres codons. Aussi, de ce point de vue là, l'étude de la résonance dans l'ADN, basée sur les coefficients de corrélation que je vais faire plus loin, doit être faite protéine par protéine avec la totalité de ses aas comptés. La différence de longueur entre la protéine d'une bactérie par rapport à une autre bactérie entre aussi en jeu dans le phénomène de cohérence et de résonance. Ainsi dans notre caractérisation présente des codons le paramètre moyen (moyenne) doit intervenir dans le calcul du paramètre diag qui caractérise le diagramme d'un codon donné et qu'on voit plus loin lors des comparaisons entre codons.

Les corrélations entre codons − 3.3.1.1.4

Les coefficients de corrélation présentés ici sont les coefficients de corrélation X 100. La corrélation entre 2 codons est celle de 2 colonnes du tableau des diagrammes normalisé. Le tableau est suivi de la moyenne des corrélations du codon cor tot.

Constitution du tableau avec un tableur: Le premier coefficient de corrélation de la cellule du coin haut-gauche du tableau est par exemple

=100*COEFFICIENT.CORRELATION($I128:$I238;I128:I238)

où I128:I238 est la 1ère colonne du tableau des diagrammes. Le drag and drop sur 64 colonnes de la 1ère ligne donne des cellules de formule:

=100*COEFFICIENT.CORRELATION($I128:$I238;J128:J238).

Pour obtenir la 1ère colonne avec les formules adéquates suivre les étapes suivantes:

Changer "=100* en 100*"   , ligne 1
copie transposition   sur colonne 1
Changer "$ en rien"       , colonne 1
Changer "; en ;$"         , colonne 1
Changer ": en :$"         , colonne 1
Changer ":$i238 en :i238" , colonne 1
Changer "100* en =100*"   , colonne 1
Mettre à jour la cellule (1,1):  =100*COEFFICIENT.CORRELATION(I128:I238;$I128:$I238)

Après cela il suffit de faire un drag and drop de la 1ère colonne sur 64 colonnes pour obtenir le tableau des coefficients de corrélation en entier.

Diagramme corcodon, de la moyenne des codons en fonction de leur moyenne des corrélations: La moyenne du codon ne semble pas suivre sa corrélation moyenne avec les autres codons. Le R2 de détermination linéaire est de 0.163. Par contre seulement 16 codons, dont les 3 stops, sur 64 ont une corrélation moyenne inférieure à 0.50 et parmi les 48 autres codons 43 ont des corrélations moyennes supérieures à 0.56. Ce diagramme est à comparer au diagramme coraa du même type pour les acides aminés au chapitre des diagrammes étendus de ces derniers où seulement 10 aas sur 20 ont une moyenne de corrélation supérieure ou égale à 0.55. Parmi les aas non corrélés beaucoup ont des codons fortement corrélés. Les 16 codons mineurs sont: M (atg), W (tgg), I (ata), R (cga, cgt, agg et cgg), Stop (taa, tga et tag), G (ggg, ggt), L (ttg, ctt), S (agc), T (acg).

Comparaisons entre les diagrammes − 3.3.1.1.5

Un tableau synthétique regroupe tous les paramètres de diagramme étudiés précédemment: le coefficient de détermination R2, la longueur de la queue, l'écart moyen, la moyenne du codon, le maximum et son abscisse.

Pour caractériser le comportement propre du codon, sans tenir compte du facteur échelle du à l’effectif de son acide aminé, j’ai ajouté la colonne moy%, rapport en % du maximum par la moyenne du codon. Ce paramètre moy% est en fait une combinaison des 4 paramètres queue, moyenne du codon, du maximum et de son abscisse, mais pas du paramètre ecart. En effet queue, moyenne du codon et maximum interagissent entre eux : quand la queue est longue la moyenne du codon se retrouve concentrée entre la fin de la queue et l’abscisse du maximum qui ne peut pas dépasser 75 % en GC ou 86,5 % en AT. Du coup le maximum ( ou la valeur limite) augmente. Ce paramètre définit donc la forme théorique du diagramme sans échelle. Il faut, en plus, le paramètre ecart pour décrire le diagramme réel. Le paramètre ecart est aussi indépendant de l’échelle (rapport entre la valeur théorique et l’effectif compté). Ces 2 paramètres moy% et ecart définiraient alors le codon pour la plupart des protéines, surtout les plus longues.

J’ai ajouté dans ce tableau synthétique la corrélation moyenne (cor tot) et le nombre de corrélations dépassant 0.79 du codon. Nous allons voir dans les comparaisons entre codons que diagramme et corrélation sont indépendants, ce qui est en faveur d’un comportement propre du codon que je suppose de nature vibratoire.

J’ai mis aussi le pourcentage du codon dans son acide aminé. Dans l’hypothèse où le comportement du codon dépendrait de l’acide aminé qu’il porte, la théorie actuelle en vogue voudrait que la différence des effectifs entre codons du même acide aminé soit due à l’efficacité de la traduction de leurs tRNAs et l’ADN n’y aurait aucun rôle à jouer. Les différents paramètres des diagrammes étendus, étudiés jusqu’ici, laissent penser au contraire que le comportement du codon est indépendant de l’acide aminé qu’il porte. C’est pour mettre en exergue cette hypothèse que j’ai ajouté cette colonne.

Comparaison entre 2 codons:

Le tableau synthétique permet de comparer 2 codons entre eux. Pour hiérarchiser la comparaison entre 2 codons par un paramètre, j'ai composé le paramètre diag (pour diagramme) somme des différences, en valeur absolue et en pourcentage, des paramètres du diagramme suivants entre ces 2 codons: l'écart moyen du codon, sa moyenne, la longueur de sa queue et l'abscisse de son maximum. Le maximum interagissant avec la moyenne du codon, comme on l’a vu avec le paramètre moy%, n’est pas pris en compte.

Cotation des paramètres queue et abscisse en q3 et a3 :

Le paramètre abscis, exprimé en pourcentage, est issu de la courbe théorique et varie très peu mais il est d’une grande importance puisqu’il est le paramètre le plus important de la forme du diagramme. De part le mode de calcul de diag, sa participation serait insignifiante. De même le paramètre queue, exprimé en nombre de bactéries, est déterminé approximativement comme on l'a vu et son appréciation peut varier de quelques unités.
Aussi, pour pouvoir différencier nettement la participation de ces 2 paramètres dans diag par rapport à celle obtenue avec des valeurs réelles, pour tenir compte de l'approximation de ces paramètres et pour éviter les divisions par zéro, j'ai attribué une côte de 5 pour les 3 1ères valeurs les plus faibles de queue qui varient très peu au début, et de même pour les 3 valeurs les plus fortes de l’abscisse du maximum pour les mêmes raisons. Ensuite les valeurs sont regroupées en 3 successives et la cotation du groupe est augmentée de 3. Pour le calcul de diag j’ai utilisé ces cotations sous les noms de a3 et q3 à la place de queue et abscis. Voir les tableaux triables de ces cotations. Voici les participations en % pour plusieurs intervalles: Par exemple, pour 2 bactéries de cote 8 et 14 (2 intervalles de 3) la participation du paramètre coté est de 100*(14-8)/(14+8)=27%.

        intervalle      
Cote    0       1       2       3       4
5       0       23      38      47      55
8       0       16      27      36      43
11      0       12      21      29      35
14      0       10      18      24      30
17      0       8       15      21      26
20      0       7       13      18      23
23      0       6       12      16      
26      0       5       10              
29      0       5                       
32      0

Le paramètre diag est calculé de la façon suivante:

diag = 200*(abs((ecart1-ecart2)/(ecart1+ecart2))+abs((q31-q32)/(q31+q32))+abs((a31-a32)/(a31+a32))+abs((moyen1-moyen2)/(moyen1+moyen2))).
La matrice de calcul de diag est une matrice symétrique dont la diagonale est nulle. Le paramètre diag est mis sous une forme de 2 matrices, une pour les codons se terminant par a ou t, et une matrice pour ceux se terminant par g ou c. (diag,ancre).

Les valeurs les plus faibles de diag permettent de dénicher les codons qui se comportent de la même façon ou presque. Deux tableaux de ces codons à faible diag ont été constitués, un pour a ou t et un pour g ou c. Ceci m'a permis de constater que 2 codons n'appartenant pas au même acide aminé peuvent être beaucoup plus semblables que ceux appartenant au même aa, et ceci sans tenir compte du processus qui fait varier le contenu en GC. Pour dire finalement que le regroupement des triplets à la manière des codons qui sont l'émanation de la traduction et de l'ARN, n'est pas adéquate quand il s'agit de l'ADN. L'attribution d'un aa à un triplet s'est faite pendant l'évolution du couple "ARN - protéines" en la machinerie de traduction.
Cependant bien que les 1ers couples de ces tableaux soient presque identiques, tous les autres couples sont différents par leur paramètre diag. On le vérifie facilement pour les 30 valeurs les plus faibles de diag de chaque tableau. Aussi on peut dire que chaque codon à une caractéristique propre que j'attribue à son état vibratoire.
Le paramètre diag est comparé au coefficient de corrélation du couple de codons, cor. Les diagrammes cor-diag des codons xxa,t et xxg,c ont respectivement 0.260 et 0.403 pour leur coefficient de détermination linéaire R2. Ces valeurs sont faibles et laissent penser que le paramètre diag et donc le diagramme d'un codon est relativement indépendant de la séquence du gène et encore plus de la séquence de la protéine issue de ce gène. Le paramètre diag représenterait d'une certaine façon l'état vibratoire du codon et l’interaction entre tous les codons dans un gène serait leur matrice de corrélation. Cependant les 2 R2 ne sont pas nuls et celui des codons xxc,g est le double des xxt,a. Ceci veut dire que chaque codon interagit de façon propre avec les autres codons par son état vibratoire spécifique à lui.

Diagrammes étendus des aas − 3.3.1.1.6

Les diagrammes
1. Les diagrammes des aas sont construits avec le tableau des diagrammes des aas fait à partir de la sommation des codons d'un aa du tableau des diagrammes des codons normalisé. Tous les diagrammes sont en fonction du %GC seulement, sans forcer le passage par l'origine, aucun acide aminé n'étant nul, en principe, quel que soit le contenu en GC.
2. Les écarts moyens
  1. Courbes à partir des équations de tendance. Afin de calculer le paramètre écart comme on l'a fait avec les codons. Ici, cependant, il n'y a pas de problème de queue, puisque le propre du processus de la variation du contenu en GC est de maintenir la fonction de la protéine.
  2. Moyenne des écarts par rapport à la courbe théorique. Donne la moyenne en %; >20, nombre des écarts supérieurs à 20%; ecartt, écart-type.
3. Taux de variation des acides aminés (vaas,ancre). Ce tableau montre que la variance (écart moyen) autour de la courbe de tendance de tous les aas est très faible comparée à celles des codons. On s'attendrait, avec le processus de variation du contenu en GC, à ce que les courbes de tendances soient des droites horizontales. Or tous les aas se comportent comme les codons, une partie d'entre eux croît et le reste décroît. Mais les rapports entre maximum et minimum sont tellement grands pour certains aas, qu'on qualifierait de réactifs, que se pose la question du rôle de la fameuse séquence d'une protéine et de leurs sites actifs. Les cas les plus extrêmes touchent ces aas réactifs notamment la Lys, l'Asn et l'Arg. Se pose le problème aussi de la stabilité de la conformation de la protéine avec les bactéries symbiontes , zin crp, mcac . . . . Ce qu'on peut dire de ce résultat c'est que les aas, avant leur fonction dans le site enzymatique, servent d'abord à interagir avec l’environnement de la protéine pour préserver sa conformation. Le site actif et l'interaction avec le substrat ne mettraient en œuvre qu'un nombre limité d'aas.
Les coefficients de corrélation

La méthode de calcul est la même qu'avec les codons: Tableau des coefficients de corrélation entre aas.

1 − Les valeurs absolues

Diagramme coraa, effectif/corrélation. Ce diagramme de la moyenne de l'aa en fonction de sa corrélation moyenne définit 2 groupes bien distincts de dix aas chacun dont les plus corrélés sont KNIFY,PRAGV (mémo, mon nez et prague). Ce diagramme est à comparer à celui du même type des codons corcodon où un groupe de 16 codons se détache des 48 autres, avec une corrélation moyenne inférieure à 0.50: M (atg), W (tgg), I (ata), R (cga, cgt, agg et cgg), Stop (taa, tga et tag), G (ggg, ggt), L (ttg, ctt), S (agc), T (acg).
Comparaison des corrélations entre codons et entre aas (Ccodaas,ancre).
Le Tableau synthétique. C'est un des tableaux le plus important de l'étude des diagrammes étendus, il compare les coefficients de corrélation en valeur absolue des aas et des codons avec leurs moyennes et leurs maxima et minima. Les valeurs absolues permettent d'évaluer la force de ces entités en permettant de calculer des moyennes positives qu'on peut comparer, qui, si on tenait compte des signes, seraient souvent proches de zéro. De même il est plus facile de raisonner sur un seul total que sur 2, de signes opposés, quand on dénombre les corrélations. C'est cette 1ère approche qui m'a permis de voir que les corrélations sont beaucoup plus nombreuses et fortes entre les codons qu'entre les aas, suggérant que les interactions entre les aas résultent des interactions entre codons dans les gènes:
− En considérant qu’un seul codon fort (avec des maxima >79) suffit à faire la corrélation entre aas, comme C (Cys), alors tous les aas sont corrélés par leurs codons, sauf M et W qui n’ont qu’un seul codon avec les corrélations maximales respectives de 55 et 72 et des corrélations moyennes de 19 et 43 respectivement. Donc le nombre de codons pour un aa assure sa corrélation avec les autres.

− Cette forte corrélation entre codons n’apparaît pas avec les corrélations entre aas: 10 aas sont fortement corrélés entre eux puisque tous les maxima au-delà de 79 n'existent pas chez les 10 autres qui sont faiblement corrélés avec des maxima inférieurs à 74. La moyenne de corrélation est supérieure à 55 chez les 1ers et inférieure à 51 chez les autres.

− Ce sont ces frontières nettes entre aas fortement et faiblement corrélés que j'ai pris comme repère pour les codons aussi: nombre de corrélations supérieures ou inférieures à 74 (coefficient de 0.74) et nombre de corrélations moyennes supérieures ou inférieures à 51 (coefficient 0.51). Le contraste entre codons et aas apparaît nettement quand on compare les pourcentages des valeurs faibles et fortes de ces 2 paramètres. Ainsi pour 61 codons (hors les codons stop) et 20 aas on a, d'après le Résumé II du tableau synthétique:

Corrélations moyennes des codons			Corrélations moyennes des aas
% des codons ayant une corrélation moyenne	inférieure à 0.33	10	% des aas ayant une corrélation moyenne	inférieure à 0.33	25
	entre 0.33 - 0.54	16		entre 0.33 - 0.54	25
	supérieure à 0.54	74		supérieure à 0.54	50

Nombre de coefficients de corrélation supérieurs à 0.74			Nombre de coefficients de corrélation supérieurs à 0.74
% des codons ayant	moins de 3	28	% des aas ayant	moins de 3	50
	entre 3 - 12	16		entre 3 - 7	0
	plus de 12	56		plus de 7	50

− La corrélation entre aas traduit peu la corrélation qui existe entre codons suivant le Résumé III du tableau synthétique. Ainsi

Les aas à un codon, M W, sont peu corrélés avec les autres aas et leurs codons sont peu corrélés avec les autres codons;
Les aas, A F I P V Y, sont très corrélés avec les autres aas et leurs codons sont très corrélés avec les autres codons;
Les aas, G K N R, sont très corrélés avec les autres aas et leurs codons sont peu corrélés avec les autres codons;
Les aas, C D E H L Q S T, sont peu corrélés avec les autres aas et leurs codons sont très corrélés avec les autres codons.

La Répartition des fréquences de corrélation des aas et des codons (Rcodaas,ancre): En statistique une fonction de répartition cumule les fréquences des valeurs inférieures d'une variable aléatoire. J'ai voulu par ces calculs comparer la répartition des corrélations à la fonction de répartition de la loi normale qui a une forme en S plus facile à visualiser. Les diagrammes des 2 fonctions de répartition des valeurs absolues des corrélations entre aas et entre codons sont nettement différents. Avec celle des codons semblable à celle de la loi normale, alors que celle des aas présentant une discontinuité nette à son sommet qui correspond aux 10 aas fortement corrélés. Les diagrammes des fréquences (les voir en utilisant le même lien) permettent difficilement de voir ce groupe. Une interprétation plausible, du point de vue physique, de ces 2 répartitions c'est que:
− Les codons dans l'ADN sont alignés (1 dimension) et c'est la résonance des nuages électroniques des bases nucléiques qui impose les interactions à distances entre les codons, d'où la forme sigmoïde du diagramme de répartition des fréquences.

− La protéine est un volume à 3 dimensions et les aas se positionnent pour former des sous volumes qui, chacun, interagit avec un environnement différent: les substrats, les autres sous-volume de la protéine, l'environnement externe dont l'eau et les ions. Les interactions entre aas et l'environnement sont de type électrostatiques et vibrationnelles. D'où ces discontinuités dans le diagramme des répartitions représentant les sous-volumes d'aas.

2 − Tableaux triés des corrélations des aas et des codons entre eux: Le tableau synthétique suggérait de façon évidente que le groupe des 10 aas fortement corrélés étaient en fait corrélés entre eux puisque les 10 autres avaient des maxima nettement inférieurs. Aussi j’ai établi le tableau de corrélation entre ces 10 aas fortement corrélés. Le résultat obtenu m'a poussé à faire un tableau trié complet pour les aas et un pour les codons où ceux-ci sont triés dans l’ordre décroissant pour les codons se terminant par a,t et croissant pour les codons se terminant par g,c. Les tableaux des codons, étant donnée sa grandeur, est publié sous forme d'image d'une feuille de tableur. Pour harmoniser j'ai fait de même pour le tableau trié des aas. Les tris sont faits d'après les valeurs absolues du tableau synthétique.

Tableau trié des corrélations des aas entre eux (10aas,ancre): Image du tableau, tableau non formaté. Un 1er tableau, fait manuellement, était réduit aux 10 aas fortement corrélés. Le résultat c'est l'obtention de 2 groupes, de 5 aas chaque, en corrélations négatives. Les corrélations sont positives dans chaque sous-groupe.
− C'est ce qui m'a poussé à faire le tableau des 20 aas en constituant 2 sous-groupes de 12 et 7 aas à corrélations internes positives et externes négatives. Seul Leu présente 3 corrélations négatives dans sa moitié positive et 1 positive dans sa moitié négative. Glu présente une seule corrélation négative dans la moitié positive. On peut, en fait suivant un tri décroissant, regrouper les 20 aas en 2 sous-groupes de 12 et 8 aas. Donc, 1er constat, il y a 2 groupes dissymétriques. Cette dissymétrie caractérise les aas alors que, selon le processus à l'origine du contenu en GC, le tableau des corrélations entre codons est en principe symétrique.

− Le 2ème constat, primordial pour la résonance dans l'ADN, c'est que ces 2 groupes reproduisent le processus à l'origine du contenu en GC avec les 2 1ères bases du codon indépendamment du 3ème. A part Met, Trp et Ile les 17 autres aas ont toujours un codon se terminant par a,t équilibré (du point de vue du processus GC) par un codon se terminant par g,c. Nous savons que les processus de traduction et de réparation de l'ADN font intervenir le 3ème codon et que les théories actuelles attribuent la variation des 2 1ères bases aux processus de la mutagenèse et de la sélection naturelle. Les corrélations entre aas ne devraient pas provenir du processus GC comme pour les codons où le 3ème codon divise les corrélations entre eux en 2 groupes, ceux se terminant par a,t et ceux se terminant par g,c. Le fait que le tableau des corrélations des aas reproduise le processus GC, alors qu'il ne le devrait pas, prouve que le processus GC est de nature non biologique. Je pense que le processus GC est de nature physique et concerne la résonance électronique des nuages d'électrons des bases nucléiques. C'est ainsi qu'on a
* un sous-groupe à fortes corrélations internes positives de 5 aas commençant par 2 bases a et/ou t, K N I F Y avec respectivement aa, aa, at, tt et ta;

* un sous-groupe à fortes corrélations internes positives de 4 aas commençant par 2 bases g et/ou c et 1 aa commençant par gt, P R A G V avec respectivement cc, cg (et ag), gc, gg et gt;

* un sous-groupe à corrélations moyennes positives (internes et avec le 2èmes sous-groupes), de 6 aas commençant par 2 bases contenant a plus 1 aa commençant par tg, D T H W M Q E avec respectivement ga, ac, ca, tgg, atg, ca et ga.

* un sous-groupe à corrélations faibles positives (internes et avec le 1er sous-groupe), de 2 aas commençant par 2 bases ct et tc plus 1 aa commençant par tg, S C L avec respectivement tc (et ag), tg et ct (et tt).

.- Note 1: il y a le cas des aas à 6 codons dont 4 ont la même paire de base au début modulés par les 2 autres d'une paire de base différente. Le cas de Ile correspond respectivement à 2 et 1 codons.

.- Note 2: Les doublets à bases différentes se retrouvent dans le même sous-groupe, c'est la caractéristique de l'appariement des bases dans l'ADN (une autre caractéristique physique). L'exception qu'on visualise concerne tg qui se trouve dans S C L et D T H W M Q E. Deux exceptions cachées concernent ag qui se trouve dans P R A G V et dans S C L, et tt dans S C L et dans K N I F Y.

− Tableau trié des 10 aas fortement corrélés entre eux: Sont représentés les 2 groupes KNIFY et PRAGV avec leurs corrélations positives et négatives. Est représentée aussi la répartition des fréquences entre ces 10 aas et celles du total, pour montrer la rupture nette entre ces 10 aas et les 10 autres. Ajouté au tableau l'aa D pour illustrer la frontière entre les 2 groupes de 10. Dans le groupe de 10 fortement corrélé le minimum positif est de 71 et le maximum négatif de 66.
Tableau trié des corrélations des codons entre eux (Tcodons,ancre): Voir ici l’image du tableau, la construction du tableau et sa légende.
− La construction du tableau: les 64 codons constituent le tableau et pour harmoniser j’ai classé ttg et agg avec les codons se terminant avec a,t sachant qu'ils sont corrélés positivement avec eux et de même j’ai classé tga avec les codons g,c pour les mêmes raisons.

− 1er constat c'est qu'on obtient 2 régions symétriques positives de 29 codons sur 29 chacune, ce qui correspond presque à 32X32 comme devrait le faire le processus du contenu en GC. Les codons se distinguent donc des aas qui ont 2 régions dissymétriques comme on l'a vu précédemment. Les 2 régions sont séparées par une croix d'une largeur de 6 codons dont les corrélations changent plusieurs fois de signe. Cette croix est réduite à 1 seul aa chez les aas.

− 2ème constat c'est que nous avons des groupes de codons fortement corrélés entre eux comme pour les aas.

− 3ème constat, les groupes sont emboîtés les uns dans les autres, comme des poupées russes, dans la région des codons g,c comme les 2 groupes des aas. Les groupes sont disjoints et se trouvent dans la diagonale, dans la région des codons a,t ce qui n'existe pas chez les aas.

− 4ème constat, à la différence des aas il existe des corrélations fortes isolées à l'extérieur des groupes et des corrélations très faibles à l'intérieur. C'est cette particularité additionnée à celle des groupes de la région a,t qui font que le diagramme de répartition des fréquences des codons a une forme sigmoïde et monotone alors que celui des aas se présente sous la forme d'une droite avec des discontinuités franches. Voir le Tableau trié et la liste de ces corrélations.

− Tableaux triés de groupes de codons fortement corrélés entre eux. Les corrélations entre ces groupes ne sont pas représentées, aussi je n'ai représenté que les corrélations positives à l'intérieur du groupe. A l'inverse des aas les 2 premières bases des codons, de tous ces groupes, ne sont pas caractérisées.
* Tableau formaté de 7 codons fortement corrélés se terminant par a,t: C'est le groupe des codons "a,t" le plus fortement corrélé, il contient toutes les corrélations supérieures à 0.89. Son minimum est de 0.78. Il est coloré en bleu foncé pour mieux comparer avec les groupes des codons "g,c" suivants.

* Tableau formaté de 8 codons moyennement corrélés se terminant par a,t: Ce groupe de codons "a,t" fait suite au précédent et n'y est pas inclus. Il est fortement corrélé mais moins que le précédent, il ne contient pas les corrélations supérieures à 0.89. Son minimum est de 0.66. Ce groupe de 8 codons est inclus dans un groupe de 13 où les 5 autres sont moins corrélés et leur minimum est de 0.61. Le carré contenant toutes les corrélations supérieures à 0.79 et incluant les 2 autres groupes de 7 et 13, fait 24 codons de côté et a un minimum de 0.39.

* Tableau formaté de 12 codons fortement corrélés se terminant par g,c: Les groupes de ces codons sont emboîtés à la manière des poupées russes. Les groupes les plus petits et les plus fortement corrélés sont inclus dans des groupes de moins en moins corrélés. Le groupe de 12 est lui-même inclus dans un groupe pus grand de 15 codons, lui-même inclus dans le groupe de 21 codons contenant toutes les corrélations supérieures à 0.77. Les minimas des groupes 7 10 12 15 21 sont respectivement de 78 74 62 57 31.

− Tableaux triés des 2 groupes de codons faiblement corrélés entre eux: cta ata ctt ggt taa, tcc tgc acg cgg tga agc tgg ggg. Les codons faibles. Ces codons suivent tous le processus GC, sauf tga, mais leur maximum en valeur absolue de leurs corrélations est inférieur à 0.77.
* Codons de transition:Un codon, cta et 4 codons (tcc tgc acg cgg) ont une corrélation moyenne de 0.515 ± 0.030. Ce sont les 5 codons de transition. Le cas de tcc a été mis dans les faibles parce que la borne de 0.76 de corrélation introduirait le codon ata, qui n'est pas de transition, avec les codons forts si on prenait cette borne comme limite. Or ata, non seulement a une corrélation moyenne faible mais en plus il introduirait de nombreuses corrélations inférieures à 0.50 en valeur absolue. Les corrélations de ces codons dépassant 0.69 ne font que 23 sur le total de 320 corrélations. Parmi ces 23 on a 2 fois 0.76 (ata et tcc), 2 fois 0.75 (tcc et cgg) et 2 fois 0.74 (tcc).

* Les codons faibles. Ils sont au nombre de 7 et contiennent tga qui ne suit pas le processus GC et tgg unique codon de l'aa Trp. Ces codons ont une corrélation moyenne de 0.420 ± 0.028. Une corrélation solitaire de -0.80 est obtenue avec tga:taa. Sinon le maximum en valeur absolue est obtenu avec tgg.

* Le codon le plus faible avec 0.26 de corrélation moyenne est ggg. Ce codon a été étudié en long et en large avec le codon ccc dans l’article qui précède celui-ci, répétition des bases dans l'ADN des procaryotes. Il donne une corrélation solitaire de 0.75 avec cgg. (nonGC,ancre).

− Les codons qui ne suivent pas le processus du contenu en GC. Ils sont 7: tga ttg agg cgt tag atg cga. C'est-à-dire que toutes ou une partie de leurs corrélations ont un signe inversé par rapport au signe qu'elles auraient dues avoir si on appliquait la règle du processus du contenu en GC. Par exemple ttg:gct donne 52 au lieu de -52. Voir le tableau synthétique de ces codons.
* Le fait d'énoncer cette proposition "des codons ne suivent pas le processus du contenu en GC" prouve que je ne cherche plus à démontrer l'origine physique (résonance dans l'ADN) et non biologique (sélection naturelle des protéines adaptées à une fonction basée sur le biais de la 3ème base du codon) du processus GC mais que cette proposition est la manifestation directe de l'origine physique.

* Jusque là je ne distinguais pas entre processus GC et non GC. Trois raisons m'en empêchaient:
1_ Dans l'article sur les répétitions des bases dans l'ADN des procaryotes la considération du processus GC par codon était subsidiaire et non entière.

2_ Dans l'étude étendue des diagrammes se posait la question de la signification statistique quand les effectifs sont faibles. C'est ainsi que devant le diagramme nettement inverse du codon tga j'avais en contre partie celui de tag qui n'était pas net du tout. Or les 2 codons ont des effectifs très faibles puisque ce sont des codons stop. De même j'ai raisonné de la même façon pour agg. J'ai adopté son inversion alors que cga ne paraissait pas du tout être inversé alors que tous les 2 ont des effectifs faibles, respectivement moyenne du codon de 24 et 20.

3_ Dans l'étude étendue des diagrammes la première interprétation qui vient à l'esprit pour la courbe de ttg c'est, en admettant la théorie du biais de la 3ème base du codon, qu'il y a compensation entre les 6 codons de la Leucine même si j'ai hésité longtemps à inverser la courbe de atg constituant le seul codon de la Méthionine. Le biais de la 3ème base du codon, par la compensation, peut être mis en avant pour tous les codons des aas ayant plus de 2 codons. Les différences entre les 2 codons des autres ne semblaient pas spectaculaires et l'on pouvait toujours mettre en avant, je ne sais par quel processus, la sélection naturelle.

* Si on admet l'origine physique du processus du contenu en GC alors on peut expliquer le non respect du processus par ces 7 codons:
1_ tga et taa. Les codons Stop ne sont pas concernés pas la machinerie traductionnelle à part le fait qu'ils stoppent la traduction. Donc le biais de la 3ème base du codon et la compensation évoqués ci-dessus n'interagissent pas avec le processus GC quand celui-ci modifie les codons Stop. La seule interaction active, et non passive comme dans la traduction, avec les protéines se fait avec celles du processus GC (réparation et réplication). La question de la sélection naturelle des codons Stop, reste d’ailleurs posée. La seule explication de leur existence provient de leur interaction physique, dans l'ADN, avec les autres codons créant des contraintes qui provoquent leur modification ou réparation par le processus GC, en les remplaçant entre eux. Logiquement, si on raisonnait de la même façon ( biais du codon et compensation) que pour les autres codons, taa correspond bien à la situation où il y a plus que des bases a,t puisqu'il ne contient que ces bases, mais quand il y a plus de bases g,c c'est le codon tag qui aurait du être corrélé avec le processus GC. Or ce n'est pas le cas et pourtant tga et tag ont la même composition. Donc ce n'est ni le 3ème codon ni la composition en base qui expliquent le comportement des 3 codons Stop, mais bien leurs propriétés physiques en interaction avec les autres bases. J'avais proposé précédemment que le processus physique à la base de ces interactions entre les bases de l'ADN est le phénomène de résonance des nuages électroniques des hétérocycles mis côte à côte sur de grandes longueurs. Aussi il n'y a aucune raison de distinguer entre codon codant et codon Stops quand ils sont soumis au processus GC. Ainsi le comportement du codon ttg, très semblable à celui de tga par leur inversion quasi totale de leurs corrélations, peut être expliqué par la résonance dans l'ADN et non par la sélection naturelle qui opérerait sur les protéines et non sur l'ADN. De même taa et tga sont très semblables, à part leur inversion des corrélations, par leur rôle de stopper la traduction et leurs caractéristiques: moyenne du codon et de corrélation et la majorité des corrélations dépassant 0.40 en valeur absolue.

2_ tag: Le fait qu'il soit un codon Stop et que son comportement soit analogue à celui de tga avec une inversion à 50% des corrélations renforce encore l'hypothèse de la résonance. Elle est encore plus renforcée parce qu'elle peut varier d'un codon Stop à un autre. Il manifeste une résonance différente de celle de tga par des corrélations très faibles avec une moyenne de corrélation la plus petite des 7 codons étudiés.

3_ ttg et ggg: Nous venons de voir avec tga qu'il n'y avait aucune raison de distinguer ce dernier du codon ttg et que l'hypothèse de la résonance peut s'appliquer aux deux. Pour illustrer cette ressemblance j'ai recherché un contre exemple. Le seul exemple de codon codant ayant la même 3ème base et en situation de compensation analogue (c'est-à-dire un aa avec 6 codons) est agg, mais lui, il manifeste une inversion. Le contre exemple le plus marquant avec une compensation à 4 codons est le codon ggg: il a les mêmes moyennes de codon et de corrélation et ne présente aucune inversion.

4_ agg: Il se comporte comme tag et comme ttg. Comme tag ses corrélations sont inversées à 50% avec des moyennes de corrélation les plus faibles (13.5 et 9.3) et comme ttg il est codant, a la même 3ème base et a la même situation de compensation (aa à 6 codons).

5_ cga: Il ressemble à aag par la moyenne de codon et sa situation de compensation (aa à 6 codons) mais il a une inversion très faible et une moyenne de corrélation 2 fois plus élevées. Cette inversion faible n'est pas due à des effectifs faibles comme l'atteste atg qui a une moyenne de codon élevée mais une inversion faible comme cga.

6_ atg: Les inversions de corrélations chez atg confirment mon hésitation à inverser sa courbe de tendance dans les diagrammes étendus. Le cas de atg est la 3ème illustration du processus de résonance avec tga et tag sans compensation, atg étant l'unique codon de l'aa Met (remarquons que ces 3 codons sont composés par les mêmes bases). Son contre exemple est tgg, en tant que codon unique de son aa. Il n'a pas d'inversion de corrélations et diffère de atg par la moyenne de codon (71 contre 154 pour atg) et la moyenne de corrélation (43.2 contre 19.5 pour atg). tgg et atg se ressemblent aussi parce qu'ils ont la même 3ème base et sont accompagnés par un codon qui ne s'exprime très peu (ata pout atg) ou seulement quand le contenu en GC est très faible (tga ppour tgg).

7_ cgt: C'est le codon dont je n'ai pas soupçonné du tout l'inversion de sa courbe de tendance lors de l'étude des diagrammes étendus. Alors qu'avec cga j’avais des doutes à cause de sa moyenne de codon très faible. On est dans une nouvelle situation avec une 3ème base t,c au lieu de a,g ce qui confirme encore l'hypothèse de la résonance. De même atg et cgt se ressemblent beaucoup en inversion de corrélations (19 contre 12 pour atg), de moyenne de corrélation (18.2 contre 19.5 pour atg) et de moyenne de codon (103 contre 154 pour atg) alors qu'ils ont des situations de compensation radicalement opposées.

* Conclusion: Les stop ne concernent pas la 3ème base, tga tag taa. Un solitaire atg, sans compensation. Les compensations sont dans Arg et Leu mais pas dans Ser. Ils sont dans 3 carrés différents (bases 1 et 2).

Corrélations entre bactéries et conformation des protéines − 3.3.1.1.7

Jusqu'à maintenant j’ai étudié les colonnes du tableau original des 111 bactéries, c'est-à-dire l'évolution des codons et des aas en fonction du contenu en GC. Je vais étudier ici les lignes de ce tableau, c'est-à-dire l'évolution de l'ensemble des codons du lot de protéines d'une bactérie en fonction du contenu en GC de son génome. Le passage d'une bactérie à l’autre se traduit par un changement de séquence de ses aas et de ses codons, c'est un changement de conformation de la protéine. On peut appelé alors le changement de séquence des codons, changement de conformation du gène de la protéine, ce qui nous rapproche un peu plus de la résonance de ce gène. Dans cette étude je ne mets pas en jeu les séquences mais seulement le nombre des aas et des codons, aussi les conformations étudiées ne sont faites que par rapport à ces nombres. C'est un aperçu partiel des conformations mais il traite la globalité de l'échantillon étudié de 111 bactéries.

Les corrélations entre bactéries suivant les aas ou les codons me permet de caractériser l'échantillon étudié et surtout de confirmer la régularité des contenus en GC.

Conformation des protéines par le nombre d'aas et de codons: La conformation du lot des 6 protéines étudiées d'une bactérie peut être représentée par le diagramme des effectifs de ses aas en fonction des effectifs moyens (sur 111 bactéries) des aas du tableau des diagrammes des aas. Ce diagramme, et donc la conformation représentée, peut être décrit par les 2 coefficients de la droite de tendance et par son coefficient de détermination R2. L'évolution de la conformation du lot des 6 protéines est représentée par le diagramme de ces 3 coefficients en fonction du contenu en GC. La conformation des gènes de protéines est étudiée de même à partir du tableau des diagrammes des codons.
Diagrammes de l'évolution de la conformation du lot des 6 protéines en fonction du contenu en GC (%GC): voir ces diagrammes dans l'annexe des diagrammes.
- Pour qu'il n'y ait pas de confusion j'appelle paramètres les coefficients des diagramme des évolutions et laisse le terme de coefficient pour ceux des diagrammes des conformations. Les courbes de tendance des coefficients pente et constante sont des droites de paramètres a (pente),b (constante) et r2(R2). La courbe de tendance du coefficient R2 est un polynôme de degré 3 dont je ne représente que le paramètre R2, noté r23. Le paramètre r'23 du coefficient constante, analogue du r23, sert de comparaison.
- La conformation du lot de protéines étudié est imposée par la conformation de leurs gènes (confgenes,ancre).
  1. L'évolution de la conformation du lot de protéines à proprement parler, c'est-à-dire la conformation en nombres d'aas, est très semblable à celle de la conformation des codons du lot des gènes de ces protéines (voir le tableau récapitulatif): les droites de tendance des coefficients pente et constante sont semblables, seul le paramètre r2 du coefficient R2 est plus grand de 23%.
  2. Différence par la forme du diagramme de l’évolution du coefficient R2: C'est ce qui m'a poussé à faire les diagrammes des 2 groupes de codons bba,t et bbg,c. Le diagramme de l'évolution des conformations/aas a au début, jusqu'à 35 %GC, une forme en cloche puis se transforme en une horizontale (le coefficient R2 devient constant) jusqu'à 55 %GC et décroît légèrement jusqu'à 75 %GC sans pour autant prendre une forme en cloche. Le diagramme du coefficient R2 de l'évolution des conformations en nombre de codons est franchement une parabole avec un maximum à 50 %GC. La 1ère partie du 1er diagramme correspond à la grande variabilité des aas dont les codons contiennent beaucoup de bases a et t comme on l' a vu dans les diagrammes des aas alors que la 2ème partie subit la faible variabilité des aas contenant beaucoup de bases g et c. La situation est tout à fait différente pour les diagrammes conformation/codons, là les 2 types de codons, pris individuellement, sont très variables chacun à une extrémité de la gamme %GC, comme on l'a vu dans les diagrammes des codons.
  3. Le diagramme du coefficient R2 en fonction de tous les codons est l’addition de ceux des codons bba,t et bbg,c.
  4. Les paramètres a,b et r2 des 2 droites de tendance du diagramme des coefficient pente/bbg,c et /bba,t semblent être un développement d'une "fonction périodique" de la droite de tendance du diagramme du coefficient pente/codons: amplitudes élevées et égales de signe opposé (a), les (b) sont de signes contraires et les r2 sont élevés aussi mais de même signe (ce paramètre est toujours positif). Les 2 droites ressemblent à 2 fonctions périodiques en déphasage de 90° pour a et r2, qui une fois additionnées annulent leur amplitude (a1+a2=0.040-0.033=0.007~0.005=a/codons, r21+r22=907+894>>>279=r2/codons et b1+b2=2.59-0.91=1.48> 0.76=b/codons).
  5. Les paramètres des droites de tendance du coefficient constante: Le paramètre r2 de bba,t est plus grand de 50% de celui de bbg,c et celui de tous les codons est la moyenne des 2. On voit mieux cette moyenne avec r'23 (polynôme 3°) qu'on retrouve avec r23 qui est une variation de variation. Comment expliquer cette différence et surtout comment expliquer que pour les bba,t ou les bbg,c les paramètres r2 des coefficients pentes soient très différents de ceux des coefficients constante alors que pour aas et codons ces 2 paramètres sont égaux entre eux? Explicitons d'abord l’équation des aas puis celles des bba,t et bbg,c.
    - Équation de la courbe de tendance du diagramme du coefficient constante / aas: La conformation/aas d'une bactérie s'écrit, conformation(%GC)=y=ax+b où x est %GC. Le coefficient constante b peut s'écrire alors en fonction du coefficient pente a: b(a)= conformation-ax où conformation et x sont donnés et a est la variable. Comme a varie légèrement autour de la bissectrice (pente 1), b(a) va varier autour de la bissectrice orthogonale donc de pente (-1). Cette relation directe fait que les paramètres r2 du coefficient pente et constante sont les mêmes.
    - Équation de la courbe de tendance du diagramme du coefficient constante / bbg,c: On peut faire le même raisonnement que pour le coefficient constante/aas. Mais ici le coefficient pente a varie en fonction de %GC. Le paramètre r2 du coefficient constante est donc le produit des 2 variations de la constante et de la pente de la conformation. C'est pour cela qu'il est très différent de celui du coefficient pente. Aussi la courbe de tendance du coefficient constante va prendre la forme d'un arc de parabole. Le paramètre pente du coefficient constante, avec une courbe de tendance droite n’est plus alors la bissectrice orthogonale et se rapproche de (-0.5) puisque le paramètre pente s'étale entre 0.02 et 2. Les courbes de tendance sous forme de paraboles donnent des paramètres r2 meilleurs que les droites, respectivement 44 28 25 31 pour aas codons bbg,c bba,t contre 41 28 17 25 pour les droites.
    - Équation de la courbe de tendance du diagramme du coefficient constante / bba,t et codons: pour bba,t nous obtenons les mêmes résultats qu'avec bbg,c sauf que la courbe de tendance du coefficient constante sera parcourue dans le sens inverse de celui de bba,t et de convexité opposée. Le diagramme du coefficient constante / codons donne une parabole de tendance très aplatie (r2 droite=r2 parabole=28) et le paramètre pente de sa droite est quasiment égal à 0.5 moyenne des convexités opposées des 2 paraboles. On comprend alors que le paramètre r2 de /codons soit la moyenne de /bbg,c et bba,t comme cela est net avec r23.
  6. Les 3 paramètres r23 des coefficients R2 des 3 groupes de codons: Les paramètres des coefficients R2 sont des variations de variation de la conformation. Je n'ai pas explicité l'équation du polynôme de degré 3. Le r23 de la totalité des codons est la moyenne de ceux des groupes bbg,c et bba,t comme on l'a vu pour ces paramètres des coefficients de constante.
  7. La conformation par les aas procède d'un mécanisme de nature différente de celle de la conformation par les codons: Nous avons vu au chapitre précédent les tableaux triés des corrélations. Nous ne retrouvons pas chez les aas la simplicité des tableaux triés des codons. Les tableaux triés des aas ont plusieurs types de carrés imbriqués les uns aux autres alors que les codons ont en tout et pour tout que 2 carrés positifs et 2 carrés négatifs. C'est cette simplicité qui m'a permis de révéler les 2 fonctions periodiques trouvées avec les groupes de codons bbg,c et bba,t. Du fait de la complexité des tableaux triés des aas on ne peut pas retrouver l'équivalent de ces fonctions. C'est comme si la conformation des gènes était adaptée à la résonance de l’ADN avec ses nuages électroniques ordonnés en une ligne qui est de dimension une. Les fonctions périodiques en sont une caractéristique mais les corrélations fortes de proche en proche entre tous les codons en est une autre comme on l'a vu dans le tableau synthétique des corrélations et les tableaux triés. Ce n'est pas du tout le cas des aas qui créent des groupes fortement corrélés presque disjoints. Ceci s'adapte mieux aux interactions avec différents volumes dans l'espace à 3 dimensions et qui ne font plus intervenir la résonance électronique linéaire mais les interactions électrostatiques entre atomes mobiles ou fixés à la protéines.
  8. La conformation du lot de protéines étudié avec les aas est imposée par sa conformation avec les codons: Cette affirmation découle du constat que les corrélations entre aas résultent des corrélations fortes entre tous les codons que j'ai vu ci-dessus dans la synthèse des corrélations entre codons et entre aas. Quand il y a changement d'une base dans le gène les corrélations fortes entre codons entraînent des contraintes fortes que le système de réparation et de réplication doit résoudre par de nombreux d'autres changements de bases.
- (dents,ancre) Les changements brutaux des conformations protéiques et géniques sont à comparer aux changements beaucoup plus brutaux des diagrammes des codons en fonction de %GC: Pendant l’étude des diagrammes des codons en fonction du %GC j’avais attribué les changements brusques entre bactéries au changement de conformation de la protéine et donc de sa conformation génique en nombres de codons (courbes en dents de scie). L'étude présente de la conformation génique des protéines nous a montré que tous les codons sont impactés et presque tous de façon brutale à la suite d'une différence de 0.1%GC seulement. On peut apprécier ces changements de 2 façons théoriques, un changement proportionnel au nombre de l'acide aminé (c'est le coefficient pente de la droite de conformation) et une addition d'un même nombre à tous les aas (c'est le coefficient constante de la droite de conformation). Ce sont des changements énormes que je qualifierais de tremblement de Terre. Pourtant quand on regarde le changement de conformation en nombres d'aas les dents de scie sont beaucoup plus émoussées et certaines corrélations fortes en codons n'existent presque plus avec certains aas, comme le cas de la Glu et de Leu. J'ai présenté 6 diagrammes avec des changements de conformation entre 2 bactéries successives séparées seulement que par quelques décimales du %GC. Ceci pour montrer l'étendue des changements, les différences entre codons et aas et les différences entre changements proportionnels (pente) ou globaux (constante). Voir les Conformations des protéines par les exemples.
(tectonique,ancre) La tectonique des plasmides: Jusqu'à maintenant je raisonnais en généticien classique, c’est-à-dire par accumulation de mutation pour illustrer ces tremblements de Terre. C'est le concept d'adaptation progressive qui prévalait: des bactéries dans un milieu à gradient faible de conditions physiques résolvaient les contraintes physiques dans l’ADN petit à petit. Mais les corrélations très fortes entre codons m’ont laissé penser que les contraintes physiques devaient être très fortes et du coup le temps d'adaptation devait être très grand. Mais c'est aussi les concepts de la génétique classique avec des temps géologiques. Seulement cette intuition de tremblement de Terre, l'étude des plasmides et surtout celle des résistances acquises grâce à l’apparition des réplicases error-prone m’a fait penser aux contraintes physiques que peut libérer un plasmide quand il se détache du chromosome à l'instar des mouvements des plaques tectoniques lors d'un tremblement de Terre. Et ceci permet de déléguer les changements au plasmide qui serait plus adapté, par sa petite taille, ses réplications autonomes et multiples et ses contraintes spécifiques indépendamment de l'origine et du maintient de la contrainte du milieu. Une fois les contraintes résolues dans le plasmide, celui-ci peut entrer à nouveau en résonance avec le chromosome et s'y réintégrer. C'est ce que j'appelle la tectonique des plasmides, car il s'agit bien de contraintes physiques accumulées.
Fréquences des corrélations entre bactéries / codons: voir. Le diagramme de répartition des corrélations entre bactéries en tenant compte des codons (lignes) montrent que le diagramme de répartition entre codons (colonnes) est bien spécifique de ces derniers. Celui des codons a 2 parties symétriques , positives et négatives, semblables et parfaitement monotone au point de vue de la dérivée 1ère. Celui des bactéries a les 2 parties très inégales avec les négatives représentant un effet de bord. En plus la partie positive ressemble plutôt à une droite plutôt qu'à une sigmoïde caractéristique des processus physiques. Je pense que la répartition des corrélations entre bactéries / codons représente plutôt le choix des bactéries par leur %GC progressif et régulier que j'ai fait. En plus nous ne retrouvons pas les discontinuités des répartitions des corrélations entre aas (colonnes).
Fréquences des corrélations entre bactéries / aas: voir: Pour être complet je n'ai représenté que la répartition des corrélations entre bactéries /aas, sans le diagramme des fréquences. La répartition s'est révélée vite fait être le fait du choix de protéines ayant à peu près la même longueur et les mêmes substrats et fonctions. La majorité des bactéries sont très corrélées du coup.

La résonance de l'ADN dans les gènes de protéines, point d'étape − 3.3.1.1.8

Les répétitions des bases et l'hypothèse de la résonance:

L'objet de l'étude des codons en fonction du contenu en GC du génome était de caractériser la résonance d'un triplet (codon) par sa courbe (introduction). Mais les codons définis par le code génétique concernent la machinerie traductionnelle et n'ont pas directement une relation avec la résonance de l'ADN. Cependant le brin de l'ADN transcrit en RNA messager a été choisi par la polymérase d'après les caractéristiques physiques du gène ou du polycistron qui le contient, comme on l'a vu dans l'article des répétitions des bases dans l'ADN, et de ce fait transmet à la machinerie traductionnelle une résonance adénilique transformée contenue dans l'ARN simple brin. Par ailleurs l'hypothèse de la résonance dans l'ADN, avancée dans l'article des répétitions des bases, et les propriétés physiques et topologiques de cet ADN nous ont amené à proposer un code génétique pour les processus de variation du contenu en GC (réparations, réplications) identique à celui de la traduction (Le code génétique défini par la résonance dans l'ADN). Aussi notre étude par les diagrammes étendus des gènes de protéines revient à étudier la résonance non pas dans le chromosome entier mais seulement dans les gènes transcrits et seulement aussi sur le brin choisi par la polymérase. Si en plus on choisit des gènes ayant la même fonction cela revient à dire qu'on choisit un type de résonance qui se décline en résonances individuelles. Ces résonances individuelles on les a rattachées, ici, aux conformations protéiques au chapitre des corrélations entre bactéries.
Ainsi en choisissant des gènes avec des critères statistiques d'homogénéité (le groupe des bactéries, la même fonction du gène pour toutes les bactéries) et de longueur (pour avoir des effectifs notables des codons), qui n'avaient à priori aucun lien avec la résonance dans l'ADN, j'étudie en fait une résonance de l'ADN transformée et fragmentée mais harmonisée par le choix des brins transcrits par la polymérase. Le lien avec la résonance du chromosome qui aurait pu être arbitraire, devient plus explicite et justifie les relations qu'on peut faire entre la résonance dans l'ADN et les résultats obtenus dans l'étude des diagrammes étendus. Le lien de cette étude avec la résonance dans l'ADN est encore plus renforcé du fait que les substrats des 6 enzymes choisies se ressemblent, ce sont des macromolécules nucléiques.
Cependant les 2 études ne peuvent pas être comparées directement puisque les répétitions, même si on les réduisaient à 1 seul codon (répétitions de 5), sont des moyennes entre 2 codons ( le codon et son image par appariement) et ne concernent que 4 triplets, alors que les diagrammes étendus concernent tous les codons et directement sans l'appariement. Les répétitions nous ont permis de poser l'hypothèse de la résonance dans l'ADN et d'interpréter les résultats en termes de la physique de l'ADN et non en termes de la sélection naturelle. Avec le lien entre les 2 études qu'on a établi précédemment on peut étendre ces interprétations physiques aux diagrammes étendus des codons des gènes protéiques.

La résonance de l'ADN explique mieux les résultats des diagrammes étendus.

Nous avons montré avec les répétitions des bases que la résonance est bien distincte de l’appariement et de l'encombrement stérique. Or avec les gènes de protéines ces 2 derniers processus n'existent pas puisqu'on ne considère qu'un seul brin et que l'encombrement stérique a été résolu au moment de la transcription. On s'attend par ailleurs à ce que les processus de la sélection naturelle qui agissent sur la fonction de la protéine apparaissent dans le comportement des aas vis à vis de la variation du contenu en GC de son gène. Mais avec tous les résultats des diagrammes étendus les comportements des aas ne sont pas cohérents entre eux et ne concourent pas au maintien d'une fonction optimale. Au contraire dans les symbioses très fortes l'architecture de la protéine devient instable et sa fonction beaucoup plus inefficace jusqu'à la disparition de la plupart des protéines chez ces êtres. Par contre les codons répondent toujours à la structure physique de l'ADN par la résonance et la protéine obtenue résulte donc de celle-ci et non de la sélection d'une fonction optimale. C'est ainsi que:

Les taux de variations des aas ne correspondent pas aux taux attendus pour des mutations silencieuses ou à des remplacements d'aas par d'autres aas proches fonctionnellement (aas aliphatiques, Asp et Glu, Lys et Arg . . . etc.). Par contre les aas varient fortement comme les codons en fonction du contenu en GC, qu'ils soient très réactifs (Lys, Arg, Asp ..) ou pas comme les aas aliphatiques. Et comme la longueur des protéines change peu certains aas augmentent d'autres diminuent comme le font les codons.
Les corrélations entre aas ne répondent à aucun critère fonctionnel chimique. K N I F Y constitue un groupe fortement corrélé positivement avec lui même et corrélé fortement négativement avec le groupe P R A G V qui est fortement corrélé positivement avec lui-même. Que fait Arg(R) très réactif parmi 4 aliphatiques et que fait Ile(I) aliphatique parmi 2 aas réactifs et 2 aas aromatiques? Chaque groupe peut être étendu, mais on obtient alors 2 groupes dissymétriques de 12 et 7 aas respectivement et 1 aa, Leu, qui n'appartient à aucun des 2 groupes et très peu corrélé avec les autres. Maintenant si on regarde les 2 1ères bases de chaque aa on trouve que KNIFY se compose des 11 codons sur 14 commençant par a ou t (aa tt at ta) alors que PRAGV contient 4 aas avec les 16 codons commençant par g ou c (cc gg cg gc). La Val (V) appartient au groupe PRAGV mais elle et tous les autres aas restant ont les 2 1ères bases hybrides. Tout ceci est, par contre, cohérent avec le comportement des codons pris individuellement et donc avec la résonance dans l'ADN.
La comparaison des corrélations entre codons et entre aas montre des corrélations très fortes entre les codons d'un aa avec le reste des codons alors que l'aa lui-même est très peu corrélé avec les autres aas. Huit aas sont dans ce cas, C D E H L Q S T, avec seulement 2 aliphatiques, ce qui veut dire que la protéine change alors qu'elle n'en a pas besoin ou, autrement dit, c'est la séquence du gène qui impose la conformation de la protéine. Dans la théorie de la sélection naturelle c'est le contraire qui aurait du se produire. Mieux encore, tous les aas sont corrélés fortement par au moins 1 codon avec le reste des codons, sauf 2 cas emblématiques, M et W, codés par un seul triplet. Ceci explique les changements de conformation d'une protéine simultanément par le changement de l'ensemble de ses aas, processus que j'ai avancé pour l'hypothèse de la résonance et qu'on retrouve entre les lots de protéines de 2 bactéries séparées par quelques 10èmes de %GC. Tout ceci est conforme avec l'hypothèse de la résonance.
La répartition des fréquences de corrélation des codons et des aas illustre bien cette différence entre une conformation discontnue et accidentée qu'est celle d'une protéine et une conformation lisse et monotone qu'est celle de la séquence du gène. J'ai suggéré alors que la conformation de la protéine résulterait de l'interaction, dans un milieu à 3 dimensions, avec plusieurs voisinages différents chimiquement, alors que les bases dans l'ADN interagiraient entre elles seulement et à distance dans un espace donc à une dimmesion. C'est cette différence fondamentale qui imposerait la conformation de la protéine par le gène et non le contraire.
La comparaison entre diagrammes des codons nous a permis de définir un indice représentatif du diagramme, le paramètre diag. Ce dernier est la combinaison de 4 paramètres notoires représentatifs d'un diagramme, à savoir:
- La moyenne des effectifs du codon.
- la queue ou nombres de bactéries à valeur très faible en nombre de codons, qui se suivent avant la croissance de la courbe.
- l'écart du corps ou moyenne en valeur absolue et en % des écarts des effectifs par rapport à la courbe théorique. Le corps est la partie croissante du diagramme faisant suite à la queue.
- L'abscisse du maximum de la courbe si elle en a ou 75% sinon.
− Ces paramètres permettent de caractériser le diagramme de façon numérique (ce qui évite de se référer à l'échelle) et varient peu avec les aléas statistiques. Les soixante couples aux valeurs les plus faibles de l'indice diag (parallèles AT, parallèles GC) montrent que tout ces couples sont différents. Ce qui reste vrai pour le reste.

− Avec cette analyse des diagrammes je suis arrivé à établir une caractéristique du codon qu'on peut attribuer à la résonance. On peut toujours invoquer la complexité de la sélection naturelle pour justifier ces différences entre les diagrammes. Par contre la résonance prend le dessus quand on essaye de tester l'hypothèse des mutations silencieuses ou synonymes en analysant les rapports des effectifs moyens des codons se terminant par t et c d'une part et a et g d'autre part: sur 30 rapports ( en excluant les stops) 10 seulement sont proches de zéro % les 20 autres ont des valeurs absolues supérieures à 15% dont 15 négatifs et 5 positifs.

− Nous retrouvons, en valeurs relatives, les moyennes des 4 codons, aaa ttt ccc ggg, trouvées dans les répétitions des bases, soit respectivement 247 123 61 54. Ces valeurs extrêmes nous ont permis de poser l'hypothèse de la résonance mais les diagrammes présentent des extrêmes encore plus élevés qu'on ne peut pas malheureusement étudiés au niveau du génome entier. C'est ainsi qu'on a 7 valeurs plus faibles que ccc ou ggg ( cga 20, agg 24, tgt 27, cta 30, tgc 31, agt 38, cgg 44 ), 5 valeurs plus grandes ou égales que aaa (gaa 296, gag 226, gat 217, aag et gac 202) et de nombreuses valeurs supérieures à celles de ttt.
Le tableau trié des corrélations entre codons est le plus riche en indices en faveur de la résonance et qu'on ne peut attribuer à la sélection naturelle ou au processus de la variation en contenu GC:
- Alors que j'attribuais les formes anormales des courbes de ttg agg tga, aux effectifs faibles, les corrélations entre tous les codons montrent bien que le comportement de ces codons et de 4 autres, cga cgt atg tag, est généralisé et s'applique même aux effectifs élevés de cgt et atg. J'ai attribué alors à ce comportement un processus différent de celui à la base du contenu en GC et que j'ai appelé processus non GC. Ce nouveau processus est contraire aux mutations silencieuses ou synonymes. Il n'y a que la conformation du gène qui puissent l'expliquer et par là sa résonance.
- Avec les courbes j'ai introduit les codons stop alors que même leurs effectifs très faibles et biaisés par le choix de gène de protéines ne s'y prêtaient pas aux interprétations. Cependant les corrélations avec les autres codons montrent que les codons stop se comportent comme les autres codons: taa suit entièrement le processus GC et malgré son effectif très faible il affiche une corrélation moyenne de 42 et une corrélation simple de -80 avec tga. Celui-ci suit entièrement le processus non GC comme ttg et affiche comme taa une corrélation moyenne honorable de 45. Le codon stop tag suit partiellement le processus non GC comme les codons restants non GC, cgt cga agg atg. Encore là la sélection naturelle n'intervient pas par son action sur les protéines et seule peut être invoquée la synonymie entre codons stop. Par contre les codons stop se comportent, en corrélation, comme les autres codons et leurs comportements peuvent être interprétés dans le cadre de l'hypothèse de la résonance.
- Le tableau trié des corrélations entre codons se distingue de celui entre les aas de la même façon que la répartition des fréquences de corrélations se distingue de celle des aas. Le tableau trié des aas est dissymétrique bien qu'il y ait 2 groupes d'aas qui suivent le processus GC (1ère et 2ème base). Le tableau des codons est quasiment symétrique bien qu'il comporte des processus non GC. Cependant les codons par leur nombre et leur résonance unidimensionnelle s'ordonnent progressivement avec une organisation différente à l'intérieur de la zone des codons se terminant par a ou t qu'à l'intérieur de la zone des codons se terminant par c ou g. Chez les aas il y a rupture dans l'ordonnancement, aas fortement corrélés entre eux et les autres le sont très peu avec eux. Les 2 zones définies dans le tableau des aas résultent du comportement des codons et n'ont pas une raison d'être comme les codons par le processus GC. En plus dans ces zones l'ordonnancement est semblable.
- La différence entre les 2 tableaux triés montre clairement que les corrélations entre aas résultent des corrélations entre codons et non l'inverse comme le voudrait la théorie de la sélection naturelle. C'est ainsi aussi qu'on ne peut expliquer par les mutations silencieuses et synonymes les très grandes différences en effectifs moyens et corrélations moyennes entre 2 codons d'un même aa: ggc (169 69) contre ggg (54 27), caa (89 63) contre cag(132 66), cgc (132 67) contre agg (24 14) ou tta (120 61) contre cta (30 52).
La conformation des protéines ou changement de la séquence en aas du lot de protéines étudiées d'une bactérie à l'autre confirme les interprétations des corrélations entre codons et entre aas qu'on a vu au 3ème point de ce chapitre. Entre 2 bactéries se différenciant très peu en contenu GC (de 0.0 à 0.5 %GC) le lot de protéine voit tous ses aas changer en effectifs. Il est difficile d'imaginer, dans la théorie de la sélection naturelle, qu'un aussi grand nombre de mutations puissent se faire dans un temps court et que la conformation de la protéine se fasse par à coup, aa par aa, quand on sait les corrélations fortes qui existent entre les 10 aas KNIFY et PRAGV. Des organismes très fragilisés devraient survivre sur de longues générations avant que la protéine ne trouve sa conformation optimale. Et ceci pour de nombreuses protéines puisque le processus GC concerne tout le génome. D'un point de vue codon c'est encore plus dramatique puisque leurs courbes, en fonction de GC, ont des changement encore plus brutaux. Il est évident que l'organisme va choisir une autre voie plus sûre, celle d'accumuler les contraintes des mutations provoquées par le milieu, avant de procéder à un changement rapide et total quand c'est possible par d'autres mutations et surtout celles qui sont silencieuses et synonymes. C'est la résonance du gène entier qui va accumuler ces contraintes. La protéine va être moins efficace mais au moins elle va être fonctionnelle. C'est ce que j'appelle l'adaptation physique aux conditions du milieu. L'adaptation génique qui nécessite plusieurs générations est favorisée par la multiplication des bactéries par fission qui, en dehors des milieux létaux, permet d'accumuler les mutations sans disparitions des génomes. L'adaptation génique favorise les mutations silencieuses et synonymes qui n'imposent pas des contraintes fortes. Mais le grand nombre des autres mutations nécessaires au changement de conformation de toutes les protéines et des mileux très agressifs devraient provoquer des mutations en grand nombre et dans un court laps de temps. C'est ce qu'on observe dans le processus de la résistance aux antibiotiques. C'est ce que j'ai appelé "tremblement de Terre" et proposé le passage par les plasmides pour évacuer les contraintes accumulées dans une zone de l'ADN. C'est ce que j'ai appelé la tectonique des plasmides. Ces derniers peuvent se multiplier plusieurs fois, indépendamment du chromosome, en favorisant plus de mutations par leur petite taille et leur résonance plus énergétique (longueur d'onde du plasmide plus petite, de la taille du plasmide).
Les PEEMOVs peuvent être envisagées plus facilement avec l'hypothèse de la résonance dans l'ADN. En tout cas cette hypothèse est compatible avec le scénario que j'ai proposé pour les PEEMOVs dans mes 1ers articles et qui repose sur l'hypothèse de l'auto-assemblage dynamique du liposome, des aas libres et des monomères d'acides nucléiques. En effet la résonance d'un groupe de monomères d'ADN, renforcé par l'organisation du liposome et des acides aminés peut exister, même faiblement, et provoquer l’appariement de monomères d'ARN et l'intervention des aas sur cet ARN pour entamer l'évolution vers la machinerie traductionnelle. On arrive à un paradoxe apparent si on se souvient que chez les symbiotes la plupart des petites protéines disparaissent et ne restent que les grosses structures. Les 1ères pré-protéines, sans liaisons covalentes, seraient les grosses protéines en contact avec le pre-ADN et le pré-ARN. Le paradoxe n'est qu'apparent puisque la faible résonance sera compensée par le grand nombre d'aas et l'organisation de la grande structure du liposome.
− Une autre résonance peut se constituer lors des PEEMOVs, c'est celle des aas intégrés à la membrane. Nous avons vu que les corrélations entre aas dans une protéine se faisait en 3 dimensions. Mais c'est parce que les aas sont reliés fortement par les liaisons peptidiques. Les têtes zwitterioniques des phospholipides que j'ai supposé réalisées dans mes articles aux PEEMOVs peuvent enchaîner de nombreux aas et les forces puissantes de Van der Walls du liposome, qui contient plus de 10 millions de phospholipides par couche, peuvent stabiliser les aas localement en 3 dimensions et amorcer une résonance protéique faible mais qui augmentera avec le nombre d'aas et l'organisation générale du liposome. Dans ce scénario l’organisation attire plus d'organisation et les chaînes énergétiques membranaires prébiotiques avec le différentiel électrique créé dynamiquement par les ions monoatomiques pourront produire de plus en plus de contraintes jusqu'à créer, quoique très faiblement, les 1ères liaisons covalentes d'origine structurale et non statistique et qui seront donc propre à la vie. Certainement ce seront les 1ères molécules d'ATP qui pourront transférer leur énergie aux structures adényliques vues précédemment.

Les tRNAs chez les bactéries

Les tRNAs − 3.3.1.1.9

Lien vers corrélations gènes tRNAs Introduction

Les gènes tRNAs des 3 domaines, bactéries, archées et eucaryotes:
1. Corrélations entre nombres de tRNAs des 3 domaines ABE: Lien vers corrélations gènes tRNAs Similitude
2. 3 domaines: Lien vers corrélations gènes tRNAs doublets
3. 121 eucaryotes: Lien vers corrélations gènes tRNAs linéarité
4. Processus E et résonance des 121 eucaryotes: Lien vers corrélations gènes tRNAs Processus E et résonance
5. Les introns des 121 eucaryotes: Lien vers corrélations gènes tRNAs introns.
6. Zebrafish et la résonance de duplication: Lien vers corrélations gènes tRNAs Zebra
Les modifications des tRNAs en 34 et 37, modifications.
Les tRNAs des 4032 bactéries,les tRNAs solitaires: Lien vers corrélations gènes tRNAs 4032 bactéries
Calcul de la multiplicité des tRNAs des 4032 bactéries, Lien vers corrélations gènes tRNAs multiplicité
Les tRNAs des 111 bactéries 111 bactéries
Comptes détaillés des tRNAs des 111 bactéries
- Comptes détaillés
- Spectres des codons des tRNAs des 111 bactéries, spectres
- Comptes des solitaires des tRNAs des 111 bactéries, comptes
- Comptes détaillés des tRNAs des 111 bactéries: totaux, totaux
- Comptes détaillés des tRNAs des 111 bactéries: solitaires, solitaires
- Diagramme des solitaires de APV.
L'efficacité de la traduction par les moyennes des codons moyenne codon
L'efficacité de la traduction par les corrélations moyennes des codons moyenne corrélation
L'efficacité de la traduction par l'ordre des codons, ordre des codons
Comparaison des codons des 4032 bactéries par les 2 1ères bases, Lien vers corrélations gènes tRNAs comparaison

Il faut distinguer 2 processus, un pour l'ADN qu'est celui du contenu en GC, un pour les tRNAs pour leur fabrication. Nous venons de voir les implications du processus GC. Il rentre en concurrence avec la population des tRNAs. Il était temps de réfléchir sur le processus de production des tRNAs pour démêler la résonance de l'ADN de la sélection naturelle. C'est ainsi que, après analyse des résultats des décomptes des tRNAs, je peux maintenant distinguer 6 étapes dans la production et l'utilisation des tRNAs.

La ressource en gènes tRNA: Il peut exister 1 à plusieurs gènes différents pour un triplet donné, futur tRNA habillé de son aa. Dans la majorité des cas on a, pour un xy représentant les 2 1ères bases (tableau I des 4032 bactéries):
- V SS P T A HQ NK DE G, soit 9 doublets xy: 1 seul gène pour le triplet xyc et un pour xya.
- FL LL SR: 1 seul gène pour xyc, 1 gène pour xya et 1 gène pour xyg.
- IM CW: 1 seul gène pour xyc, 1 gène pour xyg.
- RR: 1 seul gène pour xyt, 1 gène pour xyg.
- YX: 1 seul gène pour xyc, grand X représentant les 2 triplets stop.
− Ce qui représente en majorité un lot minimal viable de 34 gènes de tRNAs.
La duplication de ces gènes
La fabrication du tRNA résultant de la transcription
L'habillage du tRNA avec son aa.
L'interaction avec le ribosome
Lecture

Réfléchir sur la résonance des codons Stops et du codon ATA dans les 3 domaines, bactéries archées eucaryotes.

Comparaison entre codons des enzymes à grands et petits substrats − 3.3.1.2

Comparaison par juxtaposition des diagrammes − 3.3.1.2.1

Comparaison des diagrammes par leurs constantes − 3.3.1.2.2

tableau des constantes abscisse et maximum. (*): ttg et agg, sont reportés en %AT et tga en %GC. (75) abscisse supérieure à 75 pour le maximum.
Prot-39: enzymes du métabolisme central. 39 bactéries avec un total moyen de 6 391 aas rapporté à 6 555 aas.
Dna-39: enzymes à substrat DNA ou RNA. 39 bactéries avec un total moyen de 6 555 aas.

Prot-39: enzymes du métabolisme central
	abscis	max		abscis	max		abscis	max		abscis	max

ttt	75	226	tct	68	109	tat	75	189	tgt	75	53
ttc	75	219	tcc	68	128	tac	75	158	tgc	74	46
tta	75	401	tca	75	155	taa	75	12	tga*	60	6
ttg*	58	95	tcg	75	154	tag	75	3	tgg	66	52

ctt	75	167	cct	75	120	cat	68	89	cgt	54	181
ctc	75	295	ccc	75	118	cac	75	131	cgc	75	317
cta	75	80	cca	75	128	caa	75	222	cga	57	22
ctg	63	335	ccg	75	227	cag	67	220	cgg	75	104

att	63	261	act	75	158	aat	75	358	agt	75	129
atc	74	332	acc	71	268	aac	64	171	agc	55	66
ata	75	365	aca	75	181	aaa	75	419	aga	75	248
atg*	53	190	acg	75	113	aag	75	310	agg*	75	27

gtt	67	205	gct	75	221	gat	75	324	ggt	61	220
gtc	75	382	gcc	75	473	gac	75	407	ggc	75	529
gta	75	211	gca	68	192	gaa	65	443	gga	75	289
gtg	67	223	gcg	75	291	gag	75	502	ggg	55	52

Dna-39: enzymes à substrat DNA ou RNA
	abscis	max		abscis	max		abscis	max		abscis	max

ttt	75	244	tct	75	120	tat	75	228	tgt	75	52
ttc	75	242	tcc	66	104	tac	75	174	tgc	69	45
tta	75	423	tca	75	137	taa	57	4	tga*	75	5
ttg*	59	110	tcg	75	157	tag	75	1	tgg	75	89

ctt	75	192	cct	75	119	cat	72	95	cgt	54	206
ctc	75	268	ccc	75	107	cac	75	135	cgc	75	333
cta	75	80	cca	75	122	caa	75	219	cga	57	23
ctg	64	385	ccg	73	229	cag	65	220	cgg	75	126

att	68	244	act	75	159	aat	75	396	agt	75	140
atc	72	301	acc	70	232	aac	67	178	agc	56	65
ata	75	325	aca	75	167	aaa	75	511	aga	75	267
atg*	47	176	acg	75	112	aag	75	363	agg*	75	33

gtt	66	207	gct	69	175	gat	72	350	ggt	58	198
gtc	75	359	gcc	75	387	gac	75	453	ggc	75	414
gta	75	236	gca	67	148	gaa	67	445	gga	75	204
gtg	67	222	gcg	75	304	gag	75	520	ggg	58	56

Différences Dna39-Prot39 en %, maximum des diagrammes et totaux − 3.3.1.2.3

Différences Dna39-Prot39 en %, maximum des diagrammes.
codon	%	codon	%	codon	%	codon	%	aas	%

ttt	7.3	tct	9.1	tat	17.0	tgt	-2.3	A	-73
ttc	9.6	tcc	-23.0	tac	9.1	tgc	-2.1	C	-4
tta	5.3	tca	-12.9	taa	-181	tga*	-17	D	18
ttg*	13.3	tcg	2.0	tag	-132	tgg	42.0	E	4
								F	17
ctt	13.4	cct	-0.7	cat	5.7	cgt	12.2	G	-73
ctc	-10.0	ccc	-9.7	cac	2.8	cgc	4.8	H	9
cta	0.2	cca	-4.9	caa	-1.4	cga	5.4	I	-30
ctg	13.0	ccg	0.9	cag	-0.2	cgg	17.4	K	33
								L	35
att	-7.2	act	0.8	aat	9.6	agt	7.3	M	-8
atc	-10.6	acc	-15.7	aac	4.2	agc	-1.0	N	14
ata	-12.4	aca	-8.2	aaa	18.1	aga	6.9	P	-14
atg*	-7.8	acg	-0.5	aag	14.6	agg*	18.2	Q	-2
								R	65
gtt	0.9	gct	-26.0	gat	7.5	ggt	-10.8	S	-19
gtc	-6.5	gcc	-22.1	gac	10.1	ggc	-27.8	T	-24
gta	10.8	gca	-29.0	gaa	0.5	gga	-42.0	V	5
gtg	-0.7	gcg	4.2	gag	3.5	ggg	7.3	W	42
−	−	−	−	−	−	−	−	Y	26

Différences Dna39-Prot39 en %, totaux
codon	%	codon	%	codon	%	codon	%	aas	%

ttt	3.1	tct	-0.8	tat	10.5	tgt	-10.3	A	-15.9
ttc	13.4	tcc	-19.1	tac	10.4	tgc	3.3	C	-1.5
tta	12.1	tca	-15.6	taa	−	tga	−	D	11.4
ttg	3.0	tcg	3.4	tag	−	tgg	43.7	E	2.0
								F	6.3
ctt	10.3	cct	6.4	cat	-0.1	cgt	16.3	G	-15.7
ctc	-1.8	ccc	-7.1	cac	1.3	cgc	2.9	H	0.7
cta	-6.1	cca	-5.8	caa	-6.7	cga	-2.2	I	-9.3
ctg	13.2	ccg	5.1	cag	3.2	cgg	17.9	K	11.7
								L	8.3
att	-13.4	act	-3.8	aat	-3.7	agt	-6.2	M	-4.5
atc	-7.5	acc	-13.8	aac	3.0	agc	-4.9	N	0.5
ata	-7.2	aca	-11.8	aaa	7.2	aga	2.5	P	1.5
atg	-4.5	acg	7.9	aag	15.9	agg	21.7	Q	0.2
								R	9.3
gtt	1.4	gct	-15.1	gat	13.4	ggt	-3.3	S	-6.9
gtc	-9.6	gcc	-24.2	gac	9.8	ggc	-25.2	T	-6.6
gta	-3.7	gca	-24.5	gaa	-2.4	gga	-28.1	V	-3.5
gtg	-1.3	gcg	-3.4	gag	7.1	ggg	4.2	W	43.7
−	−	−	−	−	−	−	−	Y	10.5

Moyenne des différences par rapport à dna-39 en % − 3.3.1.2.4

Moyenne de la différence par rapport à dna-39 en %, sans les effectifs faibles. Voir tableau des différences dans tableaux numériques. (*) sans effectifs faibles, (ecartt) écart type.

	moyen.	ecartt			moyen.	ecartt			moyen.	ecartt			moyen.	ecartt	
ttt	-6.6	26		tct	-7.6	25		tat	11.2	19		tgt	-11.2	25	
ttc	9.5	23		tcc	-18.5	19*	 	tac	11.2	12		tgc	-4.5	40	
tta	10.5	22		tca	-19.6	27		taa	−	−		tga	−	−	
ttg	-0.6	17		tcg	2.9	19		tag	−	−		tgg	43.8	10*	 
															
ctt	10.2	17		cct	4.0	22		cat	-2.1	25		cgt	18.0	17*	 
ctc	2.6	18		ccc	-4.3	28		cac	-0.5	15		cgc	1.7	15	
cta	-20.7	36		cca	-10.0	28		caa	-0.8	30		cga	-10.3	55	
ctg	8.1	21		ccg	4.3	18		cag	6.4	14		cgg	13.5	25	
															
att	-14.8	27		act	-7.0	24		aat	-15.3	33		agt	-18.1	38	
atc	-8.1	13		acc	-17.1	30		aac	1.6	9		agc	-8.0	19	
ata	-7.7	26		aca	-14.8	36		aaa	5.3	13		aga	9.1	20	
atg	-5.0	12		acg	9.5	20		aag	17.4	15*	 	agg	12.8	33	
															
gtt	-4.3	24		gct	-19.5	28		gat	14.7	13*	 	ggt	-2.4	21	
gtc	-14.6	28		gcc	-25.8	22*	 	gac	8.2	13		ggc	-26.7	15*	
gta	-4.5	25		gca	-21.1	32		gaa	-11.6	39		gga	-21.8	25	
gtg	-3.0	22		gcg	-7.7	23		gag	7.6	12		ggg	3.3	24

Moyenne des valeurs absolues des différences par rapport à dna-39 en % − 3.3.1.2.5

Moyenne des valeurs absolues des différences (%).

	moyen.	ecartt			moyen.	ecartt			moyen.	ecartt			moyen.	ecartt
ttt	17.6	20		tct	18.0	19		tat	15.8	15		tgt	21.1	17
ttc	20.1	14		tcc	21.7	15		tac	13.3	9		tgc	19.4	35
tta	17.6	16		tca	27.2	18		taa	−	−		tga	−	−
ttg	11.1	13		tcg	15.9	11		tag	−	−		tgg	43.8	10
														
ctt	14.6	13		cct	16.8	15		cat	16.2	19		cgt	20.3	14
ctc	14.9	9		ccc	19.5	21		cac	11.3	10		cgc	11.8	10
cta	31.5	26		cca	18.2	23		caa	17.9	23		cga	43.6	36
ctg	16.4	15		ccg	12.1	13		cag	11.0	11		cgg	21.9	18
														
att	23.0	20		act	16.9	18		aat	24.6	27		agt	29.7	29
atc	11.0	10		acc	23.9	24		aac	7.9	5		agc	14.6	15
ata	20.3	17		aca	26.5	28		aaa	10.3	9		aga	18.0	12
atg	11.4	7		acg	16.7	15		aag	19.4	12		agg	34.5	15
														
gtt	15.3	19		gct	22.9	25		gat	16.8	37		ggt	16.1	13
gtc	20.7	24		gcc	27.8	19		gac	11.4	8		ggc	26.9	15
gta	17.6	17		gca	29.8	24		gaa	16.5	11		gga	28.1	17
gtg	15.5	15		gcg	16.5	17		gag	12.8	8		ggg	19.7	14

Pourcentage de bactéries ayant une différence négative − 3.3.1.2.6

Pourcentage de bactéries ayant une différence négative, sans tenir compte des effectifs faibles.

													
codon	%-	bactéries	codon	%-	bactéries	codon	%-	bactéries	codon	%-	bactéries
ttt	10	30		tct	54	26		tat	55	33		tgt	67	24
ttc	41	39		tcc	92	36		tac	13	39		tgc	44	36
tta	50	18		tca	79	24		taa	−			tga	−	
ttg	34	35		tcg	50	36		tag	−			tgg	0	39
														
ctt	22	32		cct	28	29		cat	58	33		cgt	16	38
ctc	41	37		ccc	59	29		cac	49	39		cgc	32	37
cta	62	21		cca	58	26		caa	58	33		cga	44	16
ctg	16	37		ccg	26	38		cag	36	39		cgg	23	30
														
att	76	34		act	68	28		aat	59	32		agt	59	22
atc	69	39		acc	82	39		aac	49	39		agc	62	39
ata	50	14		aca	67	27		aaa	21	33		aga	25	12
atg	72	39		acg	26	38		aag	10	39		agg	25	8
														
gtt	56	34		gct	75	36		gat	11	36		ggt	63	38
gtc	78	37		gcc	90	39		gac	18	39		ggc	95	39
gta	52	27		gca	77	35		gaa	61	38		gga	76	33
gtg	51	39		gcg	63	38		gag	23	39		ggg	41	39

Corrélation entre les différences "dna-prot" de 2 codons − 3.3.1.2.7

La différence est exprimée en pourcentage de dna-39: 100*(prot39-dna39)/dna39. n est le nombre de bactéries ayant des effectifs de codons supérieurs à 10. En jaune les 2 1ères bases communes aux 2 codons. Copier, pour voir, le tableau numérique des bactéries retenues dans un tableur (largeur des colonnes 1,3 cm) .

.

Corrélation entre les différences “dna-prot” (%, n bactéries) de 2 codons ayant les 2 1ères bases en commun. Comparaison avec les mêmes codons de dna-39 (dna, 39 bactéries).

tt	%	dna	n
a.t	-65	85	18
a.c	-17	-80	18
a.g	2	42	18
t.c	-10	-97	30
t.g	23	57	30
c.g	-16	-64	35

tc	%	dna	n
a.t	17	75	23
a.c	-17	-70	21
a.g	19	-67	21
t.c	-25	-49	23
t.g	-24	-80	23
c.g	-22	37	34

ta	%	dna	n
a.t	−	−	−
a.c	−	−	−
a.g	−	−	−
t.c	-28	-93	33
t.g	−	−	−
c.g	−	−	−

tg	%	dna	n
a.t	−	−	−
a.c	−	−	−
a.g	−	−	−
t.c	-25	-57	21
t.g	-10	-37	24
c.g	37	17	36

ct	%	dna	n
a.t	-26	-75	21
a.c	9	-63	19
a.g	35	35	19
t.c	-13	-58	30
t.g	-2	-77	30
c.g	-18	-83	37

cc	%	dna	n
a.t	47	76	26
a.c	-20	-62	16
a.g	-34	-82	25
t.c	-13	-56	19
t.g	-42	-88	28
c.g	4	31	29

ca	%	dna	n
a.t	-9	81	33
a.c	-16	-78	33
a.g	-58	-93	33
t.c	-33	-94	33
t.g	16	-76	33
c.g	37	77	39

cg	%	dna	n
a.t	-47	5	16
a.c	-5	-28	15
a.g	-14	17	12
t.c	15	-39	36
t.g	13	-49	29
c.g	-9	53	30

at	%	dna	n
a.t	-34	33	14
a.c	-28	-69	14
a.g	-14	-15	14
t.c	-39	-84	34
t.g	29	-12	34
c.g	-14	29	39

ac	%	dna	n
a.t	1	74	25
a.c	-15	-88	27
a.g	-14	-35	26
t.c	-18	-75	28
t.g	-4	-65	27
c.g	-6	17	38

aa	%	dna	n
a.t	23	82	32
a.c	-5	-69	33
a.g	-34	-90	33
t.c	-49	-90	32
t.g	-31	-64	32
c.g	-5	58	39

ag	%	dna	n
a.t	27	84	12
a.c	9	-11	12
a.g	49	67	4
t.c	-25	1	22
t.g	-95	48	5
c.g	8	-9	7

gt	%	dna	n
a.t	-1	79	27
a.c	28	-79	25
a.g	-34	-73	27
t.c	-8	-84	32
t.g	-24	-72	34
c.g	-6	37	37

gc	%	dna	n
a.t	-10	85	33
a.c	-9	-85	35
a.g	14	-66	34
t.c	-32	-77	36
t.g	-22	-76	35
c.g	3	42	38

ga	%	dna	n
a.t	26	84	35
a.c	-12	-87	38
a.g	-4	-96	38
t.c	-44	-97	36
t.g	0	-85	36
c.g	2	86	39

gg	%	dna	n
a.t	-9	21	33
a.c	12	-85	33
a.g	-13	-6	33
t.c	0	-64	38
t.g	13	-25	38
c.g	6	-2	39