- Множественные выравнивания ClustalW / ClustalX
- Сеть генных взаимодействий HumanNet
- JS библиотечка и список аминокислот
- gdc-portal.nci.nih.gov
- matplotlib
- Rosalind. Bioinformatics Armory
- Stepik. Молекулярная биология и генетика
- Stepik. Биотехнологии: генная инженерия
Формат .fasta
— текстовый формат для хранения аминокислотных или нуклеотиндных последовательностей Содержит название, начинающееся с символа >
и саму последовательность после символа конца строки \n
. При этом в ней допускаются переносы строк. Пример:
>MCHU - Calmodulin - Human
ADQLTEEQIAEFKEAFSLFDKDGDGTITTKE
DIDGDGQVNYEEFVQMMTAK*
>gi|5524211|gb|AAD44166.1| cytochrome b
LCLYTHIGRNIYYGSYLYSETWNTGIMLLLI
LLILILLLLLLALLSPDMLGDPDNHMPADPL
NTPLHIKPEWYFLFAYAILRSVPNKLGGVLA
IENY
Задача на машинное обучение. Есть обучающая data/X1/test.fa
и тестовая data/X1/train.fa
выборка. Индикатор класса — первая буква в названии рида. Нужно построить классификатор и каждому риду из тестовой выборки присвоить свой индикатор. Индикаторы в том же порядке что и риды записать в файл и загрузить в проверяющую систему. Использовать можно всё что угодно
В папке data/X2/reads.fa.zip
лежат уже выровненные риды. Используя полученные знания о процессе мутации и отбора локализовать сайты сплайсига. Аккуратно, степень выполнимости задачи неизвестна.
MEGVGGLWPWVLGLLSLPGVILGAPLASSCPGACDTSFPDGLTPEGTQASG
DKDIPAINQGLIPEETPESSFLIEGDIVRPSPFRLLSATSNKWPTGGGGVV
EVPFLLSSKYDEPSRQVILEALAEFEHSTCVRFVPYEGQRDFISIIPMYGC
FSSVGRSGGMQVVSLAPTCLQKGRGIVLHELMHVLGFWHEHARADRDRYIR
VNWNEILPGFEINFIKSRSSNMLTPYDYSSVMHYGRLAFSRRGLPTITPLW
APSVHIGQRWNLSASDITRVLKLYGCSPSGPSPVGEGSHAHSTDRSPAPAS
LSLQQLLEALSAESTSPDLIGSSALGQPAPAGPGESPPGWESPALKKLSAE
ASARQPQTLASSPRSRPGAGAPGVAQEQSWLAGVSTEPTVPSSEAGIQPVP
VQGSPALPGGCVPGNHFKGRSKD