Next: 16. Liste détaillée des Up: No Title Previous: Références

Sous-sections

15. Programmes

Certains de ces programmes sont télé-chargeables à l'URL: http://www.pasteur.fr/units/neubiomol/softwares.html.

15.1 COMPACC

15.1.1 Objet du programme

Ce programme calcule la justesse de prédictions de structure secondaire pour un ensemble de protéines.

15.1.2 Mode d'utilisation

$\fbox{\ttfamily \begin{tabular}{ll} compacc & -I[fichier prédictions] \\ & -O[fichier sortie] \\ & -V[mode verbeux] \end{tabular} }$

Options:
`-I`	nom du fichier contenant les prédictions. La valeur par défaut est `input.txt`
`-O`	nom du fichier contenant le résultat. La valeur par défaut est `output.txt`
`-V`	Active le mode verbeux (sur la sortie standard ). La valeur par défaut est `OFF`. Pour rediriger l'information vers un fichier, utiliser `compacc -V > compacc.log`

15.1.3 Entrée

Les caractères acceptés sont H pour les résidus en hélice- $\alpha$ , E pour les résidus en brins- $\beta$ et C pour les résidus ne faisant pas partie d'une structure périodique.

Structure du fichier d'entrée (l'ordre doit être respecté):


# FIRST_CHAIN_ID  SEQUENCE(1)----
$ ACTUAL_STRUCT   STRUCTURE(1)---
$ METHODE1        PREDICTION(1,1)
[...]
$ METHODEm        PREDICTION(m,1)
[...]
# LAST_CHAIN_ID   SEQUENCE(s)----
$ ACTUAL_STRUCT   STRUCTURE(s)---
$ METHODE1        PREDICTION(1,s)
[...]
$ METHODEm        PREDICTIONm(m,s)

15.1.4 Sortie

Prédictions et consensus des prédictions:


FIRST_CHAIN_ID SEQUENCE(1)----
ACTUAL_STRUCT  STRUCTURE(1)---
METHODE1       PREDICTION(1,1)
[...]
METHODEm       PREDICTION(m,1)
[...]
CONSENSUS      CONSENSUS_PREDI [...]

Justesses des prédictions par chaîne:

$\begin{displaymath}Q_3=\frac{P_\alpha+P_\beta+P_C}{T} \end{displaymath}$

Où T est le nombre total de résidus. Q₃ représente donc la justesse globale.


        METH1   METH2   [...]   METHm   CONSENSUS
CHAIN1: Q3(1,1) Q3(2,1)         Q3(m,1) Q3(c,1)
CHAIN2: Q3(1,2) Q3(2,2)         Q3(m,2) Q3(c,2)
[...]
CHAINs: Q3(1,s) Q3(2,s)         Q3(m,s) Q3(c,s)

Chain   <Q3>(1) <Q3>(2)         <Q3>(m) <Q3>(c)
Stdev   SD(1)   SD(2)           SD(m)   SD(c)

Nombre total de résidus
Total des résidus observés dans un hélice- $\alpha$
Total des résidus observés dans un hélice- $\beta$
Total des résidus observés ni dans une hélice, ni dans un brin

Justesse globale des méthodes, toutes chaînes confondues: Pour chaque état structural:

$\begin{displaymath}Q_i^{obs}=\frac{P_i}{P_i+U_i} \end{displaymath}$

P_i+U_i représente ici le nombre de résidus réellement dans l'état i. Q_i^obs est donc un indice de justesse (mais non de fiabilité).
$\begin{displaymath}Q_i^{pred}=\frac{P_i}{P_i+O_i} \end{displaymath}$

P_i+O_i représente ici le nombre total de résidus prédits dans l'état i. Q_i^pred est donc un indice de fiabilité (mais non de justesse).
Coefficients de corrélation de MATTHEWS:

$\begin{displaymath}C_i=\frac{P_iN_i-U_iO_i}{\sqrt{(P_i+U_i)(P_i+O_i)(N_i+U_i)(N_i+O_i)}} \end{displaymath}$

où
- P_i est le nombre de résidus correctement identifiés dans l'état i
- N_i est le nombre de résidus correctement identifiés dans un état différent de i
- U_i est le nombre de résidus en i prédis dans un état différent de i
- O_i est le nombre de résidus dans un état différent de i prédis en i
La valeur 0 représente la prédiction aléatoire, 1 étant la prédiction parfaite.

Enfin Q3obs a la même définition qu'au-dessus mais sur l'ensemble des données. Notes Si une valeur est impossible de calculer (par exemple un coefficient de MATTHEW dans le cas où aucun résidu n'est prédit dans cet état) -99.99 est renvoyée pour cette valeur.

15.2 CONSINDEX

15.2.1 Objet du programme

Le programme calcule la conservation de séquence entre séquences homologues à chaque position d'un alignement multiple. Il calcule d'abord les N(N-1)/2 similarités globales S_ij (identités si la matrice identité est entrée) des N séquences. Puis, pour chaque position de l'alignement, un index de conservation est calculé comme suit:

$\begin{displaymath}CI=\frac {\displaystyle\sum_{i=1}^{N} \sum_{j=i+1}^{N} \fra... ...ij}}} {\displaystyle\sum_{i=1}^{N} \sum_{j=i+1}^{N} S_{ij}} \end{displaymath}$

où s_ij est l'élément pertinent de la matrice de similarité pour les résidus des séquences i et j à la position considérée.

15.2.2 Mode d'utilisation

$\fbox{\ttfamily \begin{tabular}{ll} consindex & -A[fichier alignement] \\ & -M[matrice] \\ & -O[fichier sortie] \end{tabular} }$

Options:
`-A`	Nom du fichier contenant l'alignement de séquence (défaut: `alignment.txt`)
`-M`	Nom de la matrice de comparaison, seuls les cinq premiers caractères sont évalués (défaut: default. Dans la version 1.5 default est en fait gcggap)
`-O`	Nom du fichier contenant le résultat (défaut: `output.txt`))

15.2.3 Entrée

Les caractères acceptés dans les alignements sont ceux des codes non dégénérés à une lettre, en capitale.

Format de l'alignement:

C'est un format du type CLUSTAL. Chaque ligne contient l'identification de la séquence et une chaîne de résidus. La longueur totale de la ligne doit être inférieure à 100 caractères. Une ligne vide sépare les blocs de séquence.

Matrices:

Les matrices sont codées dans le fichier matrix.h, qui doit être édité pour entrer une nouvelle matrice. Tous les éléments des matrices appartiennent à l'intervalle [0-100]. Les matrices de la version 1.5 sont:

nucident
matrice d'identité pour les séquences de nucléotides (ADN seulement)

pepident
matrice d'identité pour les séquences de protéines

gcggap
matrice par défaut du programme GAP du WISCONSIN package [85]. Cette matrice est une matrice de Dayhoff [79], modifiée dans Gribskov and Burgess NAR 14(16) 6745-6763 et re-échelonnée pour nos besoins. Chaque élément concernant un gap est mis à zéro.

15.2.4 Sortie

L'alignement dans une format non-entrelacé
La matrice utilisée
Les similarités globales sous forme de matrice
Les similarités globales en colonne
La conservation par position en colonne

15.2.5 Historique

ver	date	notes
1.0	09/03/1998	Première version
1.1	04/04/1998	La sortie des similarités globales est réalisée en colonne, afin de permettre un traitement ultérieur plus facile dans des tableurs.
1.2	17/04/1998	Les matrices sont maintenant dans un fichier en-tête, `matrix.h`, ce qui rend leur édition plus facile.
1.3	19/05/1998	Erreur corrigée dans `matrix.h`
1.4	29/05/1998	Erreurs corrigées dans `matrix.h` et dans le code (instructions d'utilisation).
1.5	22/06/1998	Erreurs corrigées dans le choix du nom de la matrice et du fichier de sortie.

15.3 Densitometria

15.4 Melting

Un article en français décrivant MELTING se trouve à l'URL: http://www.pasteur.fr/units/neubiomol/articles.html

15.4.1 Objet du programme

Le programme permet de calculer l'enthalpie et l'entropie d'une hybridation entre deux acides nucléiques, et par là même de déterminer la température de fusion du duplex formé. Pour les duplex de taille inférieure à 50 nucléotides, Le calcul réalisé est physiquement ``exact'' et diffère en cela des approximations fondées par exemple sur le taux de GC.

15.4.2 Algorithme

Le programme calcule d'abord l'enthalpie et l'entropie d'hybridation par la méthode des nearest-neighbor à partir des paramètres élémentaires de chaque paire de CRICK (Voir [289] pour une revue approfondie des différents paramètres nearest-neighbor). La différence entre les duplex commençant par A-T et G-C n'est pas prise en compte. Quand des paramètres d'initiation différents existent, on les moyenne. Puis la température de fusion est calculée en utilisant la formule suivante:

$\begin{displaymath}Tm = \frac{\Delta H}{\Delta S + R\ln c} - 16,6\log \frac{s}{1+0,7s} - 269.3 \end{displaymath}$

Les trois termes de droites représentent respectivement la température en Kelvin dans 1M [Na⁺], la correction pour la concentration en sel, et la correction pour obtenir des degrés Celsius. c représente la concentration du membre en excès.

Pour les sondes longues (>50nt, mais <1000nt)
$\begin{align*}\intertext{\textsc{adn/adn}:} Tm &= 81,5 + 16,6\log\frac{s}{1+0,7... ... &= 78 + 16.6\log\frac{s}{1+0.7s} + 0.7\% GC - \frac{500}{taille} \end{align*}$
Voir [348]

15.4.3 Mode d'utilisation

$\fbox{\ttfamily \begin{tabular}{ll} melting & -i[fichier entrée] \\ & -o[fi... ... & -P[concentration sonde] \\ & -N[concentration sel] \\ \end{tabular} }$

Options:
`-i`	Nom du fichier d'entrée. Pas de défaut
`-o`	Nom du fichier de sortie, par défaut `melting.out`. Si rien n'est spécifié mais qu'un fichier d'entrée est présent, le fichier de sortie prend le préfixe du nom du fichier d'entrée suivi de `.out`.
`-H`	Type d'hybridation, pas de défaut. Ce paramètre doit être entré avant la séquence. Il est par exemple illégal d'entrer la séquence sur la ligne de commande et le type d'hybridation dans un fichier d'entrée. A pour adn/adn, i.e. Sugimoto et al. (1996). Nuc Acid Res 24 : 4501-4505 B pour adn/arn, i.e. Sugimoto et al. (1995). Biochemistry 34 : 11211-11216 C pour arn/arn, i.e. Freier et al. (1986). Proc Natl Acad Sci USA 83 : 9373-9377 F pour Freier et al. (1986). Proc Natl Acad Sci USA 83 : 9373-9377 R pour Breslauer et al. (1986). Proc Natl Acad Sci USA 83 : 3746-3750 S pour Sugimoto et al. (1996). Nuc Acid Res 24 : 4501-4505 T pour SantaLucia et al. (1996). Biochemistry 35 : 2555-3562 U pour Sugimoto et al. (1995). Biochemistry 34 : 11211-11216 W pour Allawi et al. (1997). Biochemistry 36 : 10581-10594
`-S`	Pas de défaut. Attention, si la séquence dépasse 1000 nucléotides, seuls les 1000 premiers seront pris en compte.
`-P`	défaut: 0.0. Ce nombre peut comporter une virgule ou un point comme séparateur décimal. Attention, un nombre comme 3,525.75 sera converti en 3.525 .... La concentration en sonde doit être strictement positive et inférieure à 0,1 M.
`-N`	défaut: 0.0. Ce nombre peut comporter une virgule ou un point comme séparateur décimal. Attention, un nombre comme 3,525.75 sera converti en 3.525 .... La concentration en sonde doit être strictement positive et inférieure à 10 M.

15.4.4 Entrée

Structure d'un fichier d'entrée (l'ordre est important):

type d'hybridation [A,B,C,F,R,S,T,U,W]

séquence [lettres capitales, longueur $\leq$ 1000nt]

concentration en sonde [mol.l^-1]

concentration en sel [mol.l^-1]

La priorité pour les options est:

ligne de commande > fichier d'entrée > entrée interactive

Remarque: Le programme a été volontairement écrit non-permissif. Par exemple, si un paramètre illégal est entré sur la ligne de commande, mais qu'un légal est entré dans un fichier d'entrée, le programme va s'interrompre, il ne lira pas le paramètre légal.

15.4.5 Sortie

SÉQUENCE

paire de CRICK	nombre
-	-
-	-
-	-

concentration en sel
concentration en sonde
enthalpie
entropie
température de fusion

15.4.6 Historique

ver	date	notes
1.0	1997	Première version
1.1	Le code a été entièrement ré-écrit. Notamment les input/output sont désormais séparés sur `stdin`, `stdout` et `stderr`. Cette nouvelle version prend les options sur la ligne de commande et à partir d'un fichier d'entrée. Elle produit un fichier de sortie.
2.0	Les paramètres pour les hybridations DNA/DNA sont mis à jour. Précedemment: Breslauer et al. (1986). Proc Natl Acad Sci USA 83 : 3746-3750. Maintenant Sugimoto et al. (1996). Nuc Acid Res 24 : 4501-4505. Pour les hybrides longs (compris entre 50 et 1000nt), un calcul approché est réalisé.
2.1	Les paramètres numériques peuvent avoir une virgule aussi bien qu'un point comme séparateur décimal.
2.2	Modularisation du code. Les paramètres calorimétriques des paires de CRICK sont maintenant inscrits dans un fichier en-tête.
3.0	1998	Il y a maintenant le choix entre plusieurs ensembles de paramètres pour les hybridations DNA/DNA.

15.5 SSPCA

Le programme SSPCA étant déjà décrit de manière détaillé au chapitre 10 nous n'y reviendrons pas ici.

Next: 16. Liste détaillée des Up: No Title Previous: Références

Nicolas Le Novère
1999-06-19

nucident	matrice d'identité pour les séquences de nucléotides (ADN seulement)
pepident	matrice d'identité pour les séquences de protéines
gcggap	matrice par défaut du programme GAP du WISCONSIN package [85]. Cette matrice est une matrice de Dayhoff [79], modifiée dans Gribskov and Burgess NAR 14(16) 6745-6763 et re-échelonnée pour nos besoins. Chaque élément concernant un gap est mis à zéro.

type d'hybridation	[A,B,C,F,R,S,T,U,W]
séquence	[lettres capitales, longueur $\leq$ 1000nt]
concentration en sonde	[mol.l^-1]
concentration en sel	[mol.l^-1]