Fermé

Spectrométrie de masse

Les fichiers contenant des séquences protéiques ou nucléotidiques sont la plupart du temps au format “fasta”. Le format fasta est assez simple puisque ce sont des fichiers textes qui contiennent une ou plusieurs séquences. Pour chaque séquence il y a une ligne avec un identifiant unique, dont le début de ligne commence par un ”>” (il y a aussi éventuellement quelques mots de descriptions, ). La ligne qui suit est la séquence elle-même, correspondant à l'identifiant mentionné avant. Cette séquence peut être sur une ou plusieurs lignes. Puis à nouveau un identifiant et ainsi de suite. Une séquence protéique est représentée par une suite d'acides aminés dont chaque acide aminé est généralement représenté par une lettre (24 lettres + 2 symboles en tout).

Le problème est le suivant :

- On dispose de toutes les séquences protéiques issues du génome d'un organisme donné. Dans notre exemple nous allons prendre le génome d'un virus (Acanthamoeba polyphaga Mimivirus) dont les proteines se trouvent au format fasta ici [url removed, login to view]

- Un spectromètre de masse est un appareil qui trouve toutes les molécules présentes dans un échantillon, en sortant une liste des masses de ces molécules. On peut ainsi utiliser un spectromètre pour trouver toutes les proteines dans un échantillon donné.

- Pour un échantillon de proteines analysées au spectrometre, on veut savoir si cet échantillon contient une des séquences du virus précédent.

Il faut donc :

1- Calculer la masse de chaque proteine du virus : sommer la masse de chaque acide aminés. Les masses moléculaires de chaque acide aminé sont des constantes qui se trouvent facilement sur internet (il faudra utiliser des masses très précises évidemment).

2- Comparer la masse de chaque proteine avec les masses trouvées par le spectromètre

Pour les masses du spectromètre, prenez des masses aléatoires entrées par un utilisateur ou contenues dans un fichier texte simple. À noter que pour les protéines, les masses sont parfois exprimées en Daltons (=“Da”), il faudra donc faire des conversions d'unités si les masses entrées ne sont pas en grammes. Il faudra également entrer une incertitude pour chaque masse (ex. 4020 Da +/- 50 Da, etc.).

Comme résultats, on veut donc avoir pour chaque masse du spectromètre : aucune, 1 ou plusieurs identifiants de séquences protéiques qui peuvent correspondre.

Compétences : Programmation C++

en voir plus : trie on, plusieurs, nouveau, fasta, lettre, avoir, fichier, masse, virus programming, fichiers, est programming, liste l, avant, ces, liste products attributes oscommerce, freelancer stations liste, eurostarbet liste, analys asterisk cdr report, unix java process liste, wow server liste editieren

Concernant l'employeur :
( 0 commentaires ) France

Nº du projet : #5379586

3 freelance font une offre moyenne de €88 pour ce travail

MuradMurad

A proposal has not yet been provided

%bids___i_sum_sub_35% %project_currencyDetails_sign_sub_36% EUR en 7 jours
(0 Commentaires)
0.0
warrameur

Bonjour, Je suis intéressé par votre projet. J'ai une question concernant la sortie. Est ce que vous voulez que le programme s'exécute en ligne de commande dan un terminal ou est ce que le programme doit avoir une in Plus

%bids___i_sum_sub_35% %project_currencyDetails_sign_sub_36% EUR en 3 jours
(0 Commentaires)
0.0
mtartar

Bonjour, A partir de l'énoncé du projet, cela ne parait pas très compliqué mais il faudrait repréciser quelques détails pour etre sur d'avoir bien compris le problème. On peut modéliser le problème avec quelque Plus

%bids___i_sum_sub_35% %project_currencyDetails_sign_sub_36% EUR en 3 jours
(0 Commentaires)
0.0