Биоинформатика: различия между версиями
[непроверенная версия] | [отпатрулированная версия] |
исправлена сноска Метки: с мобильного устройства из мобильной версии |
Victoria (обсуждение | вклад) →Анализ генетических последовательностей: иллюстрирование |
||
(не показано 48 промежуточных версий 25 участников) | |||
Строка 1: | Строка 1: | ||
[[Файл:Genome viewer screenshot small.png|thumb|Карта Х хромосомы человека (с сайта [[Национальный центр биотехнологической информации|NCBI]]). Сборка [[Геном человека|человеческого генома]] — это одно из величайших достижений биоинформатики.]] |
[[Файл:Genome viewer screenshot small.png|thumb|Карта Х хромосомы человека (с сайта [[Национальный центр биотехнологической информации|NCBI]]). Сборка [[Геном человека|человеческого генома]] — это одно из величайших достижений биоинформатики.]] |
||
⚫ | '''Биоинформа́тика''' — |
||
⚫ | '''Биоинформа́тика''' — междисциплинарная область, объединяющая общую биологию, [[Молекулярная биология|молекулярную биологию]], кибернетику, [[Генетика|генетику]], химию, [[компьютерные науки]], [[Математика|математику]] и [[Статистика|статистику]]. Крупномасштабные биологические проблемы, требующие анализа больших объёмов данных, решаются биоинформатикой с вычислительной точки зрения<ref name="Can, 2014">{{публикация|книга |язык=en |
||
⚫ | В похожем контексте часто упоминается термин [[ |
||
|автор=Can |автор имя=T. |
|||
|часть=Introduction to bioinformatics |
|||
|заглавие=miRNomics |подзаголовок=MicroRNA Biology and Computational Analysis |
|||
|ответственный=Editors Malik Yousef and Jens Allmer |
|||
|место=Totowa, NJ |
|||
|издательство=Humana Press |
|||
|год=2014 |
|||
|pages=51–71 |
|||
|allpages=325 |
|||
|серия=Methods in Molecular Biology |серия volume=1107 |
|||
|doi=10.1007/978-1-62703-748-8_4 |
|||
|isbn2=978-1-62703-747-1 |
|||
|isbn=978-1-62703-748-8 |
|||
}}</ref>. Биоинформатика главным образом включает в себя изучение и разработку компьютерных методов и направлена на получение, анализ, хранение, организацию и визуализацию биологических данных<ref name="multiple">{{публикация |
|||
|1=статья |
|||
|язык=en |
|||
|автор=Nair |
|||
|автор имя=A. S. |
|||
|заглавие=Computational biology & bioinformatics |
|||
|подзаголовок=a gentle overview |
|||
|тип=журн |
|||
|издание=Communications of the Computer Society of India |
|||
|год=2007 |
|||
|месяц=01 |
|||
|volume=2 |
|||
|ссылка=https://www.researchgate.net/publication/231337374_Computational_Biology_Bioinformatics_A_Gentle_Overview |
|||
|архив дата=2022-03-26 |
|||
|архив=https://web.archive.org/web/20220326095606/https://www.researchgate.net/publication/231337374_Computational_Biology_Bioinformatics_A_Gentle_Overview |
|||
}}</ref>. |
|||
⚫ | В похожем контексте часто упоминается термин [[вычислительная биология]]. Эта область акцентирует свое внимание на разработке алгоритмов и математическом моделировании социальных, поведенческих и биологических систем. Биоинформатику считают областью внутри вычислительной биологии, которая главным образом сфокусирована на статистической обработке биологических данных<ref name="multiple" />. |
||
Биоинформатика в широком смысле подразумевает работу с любыми видами биологических данных, включая исследование электронных микрофотографий, поиск ключевых слов в биологической литературе и так далее |
|||
Различия в подходе с разных сторон: '''биоинформатики''' — это биологи, специализирующиеся на использовании вычислительных систем и инструментов для решения биологических задач, а '''вычислительные биологи''' — это специалисты по компьютерным наукам, математики, статистики и инженеры, разрабатывающие инструменты для таких расчётов<ref name="multiple" />. |
|||
<ref>[http://lenta.ru/articles/2012/11/30/koonin/ ''Е. Кунин'' Суп из гвоздя. Ведущий эволюционист рассказал о Мультивселенной и антропном принципе. // Lenta.ru, 1 декабря 2012]</ref>. Если рассматривать биоинформатику как набор подходов и методов для работы с данными, то зависимости от типов технических задач она включает в себя<ref>[https://postnauka.ru/video/42436 ''М. Гельфанд '' Биоинформатика как дисциплина. Биоинформатик Михаил Гельфанд о системной биологии, предсказании функций белков и процессах эволюции. // postnauka.ru, 28 февраля 2015]</ref>: |
|||
Биоинформатика в широком смысле подразумевает работу с любыми видами биологических данных, включая исследование электронных микрофотографий, поиск ключевых слов в биологической литературе и так далее<ref>{{публикация |1=статья |автор=Кунин |автор имя=Е. |заглавие=Суп из гвоздя |подзаголовок=Ведущий эволюционист рассказал о Мультивселенной и антропном принципе |издание=Лента.ru |год=2012 |месяц=12 |день=1 |ссылка=http://lenta.ru/articles/2012/11/30/koonin/ |архив дата=2014-08-09 |архив=https://web.archive.org/web/20140809220540/http://lenta.ru/articles/2012/11/30/koonin/ }}</ref>. Если рассматривать биоинформатику как набор подходов и методов для работы с данными, то в зависимости от типов технических задач она включает в себя<ref>{{публикация |
|||
⚫ | |||
|1=статья |
|||
⚫ | |||
|автор линк=Гельфанд, Михаил Сергеевич |
|||
|автор=Гельфанд |
|||
|автор имя=М. С. |
|||
⚫ | |||
|заглавие=Биоинформатика как дисциплина |
|||
|подзаголовок=Биоинформатик Михаил Гельфанд о системной биологии, предсказании функций белков и процессах эволюции |
|||
|издание=Постнаука |
|||
|год=2015 |
|||
|месяц=02 |
|||
|день=28 |
|||
|ссылка=https://postnauka.ru/video/42436 |
|||
|архив дата=2020-08-03 |
|||
|архив=https://web.archive.org/web/20200803233000/https://postnauka.ru/video/42436 |
|||
}}</ref>: |
|||
⚫ | |||
⚫ | |||
⚫ | |||
* Биоинформатика последовательностей |
* Биоинформатика последовательностей |
||
* Анализ экспрессий |
* Анализ экспрессий |
||
* Структурная биоинформатика |
* Структурная биоинформатика |
||
* Изучение клеточной организации |
* Изучение клеточной организации |
||
* [[ |
* [[Системная биология]] |
||
Для каждого из перечисленных разделов можно выделить свои стандартные типы данных, способы их обработки, биоинформатические алгоритмы и базы данных. |
|||
В биоинформатике используются методы [[прикладная математика|прикладной математики]], [[статистика|статистики]] и [[информатика|информатики]]. Биоинформатика используется в [[Биохимия|биохимии]], [[Биофизика|биофизике]], [[Экология|экологии]] и в других областях. |
В биоинформатике используются методы [[прикладная математика|прикладной математики]], [[статистика|статистики]] и [[информатика|информатики]]. Биоинформатика используется в [[Биохимия|биохимии]], [[Биофизика|биофизике]], [[Экология|экологии]] и в других областях. Наиболее часто используемыми инструментами и технологиями в этой области являются языки программирования [[Python]], [[R (язык программирования)|R]], [[Java]], [[C Sharp|C#]], [[C++]]; язык разметки — [[XML]]; язык структурированных запросов к базам данных — [[SQL]]; программно-аппаратная архитектура параллельных вычислений — [[CUDA]]; пакет прикладных программ для решения задач технических вычислений и одноимённый язык программирования, используемый в этом пакете — [[MATLAB]], и [[Электронная таблица|электронные таблицы]]. |
||
== Введение == |
== Введение == |
||
Биоинформатика стала важной частью многих областей биологии. Биоинформатические методы анализа дают возможность интерпретировать большие объемы экспериментальных данных, что до развития этой области было практически невозможно. Например, экспериментальной молекулярной биологии часто используются такие методы биоинформатики, как обработка изображений и [[обработка сигналов|сигналов]]. В области генетики и геномики биоинформатика помогает в функциональной аннотации геномов, детекции и анализе мутаций. Важной задачей является изучение экспрессии генов и способов её регуляции. Кроме того, инструменты биоинформатики позволяют сравнивать геномные данные, что является необходимым условием для изучения принципов [[Молекулярная эволюция|молекулярной эволюции]]. |
|||
Биоинформатика стала важной частью многих областей биологии. В экспериментальной молекулярной биологии методы биоинформатики, такие как создание изображений и [[обработка сигналов]], позволяют получать полезные результаты из большого количества исходных данных. В области генетики и геномики, биоинформатика помогает в упорядочивании и аннотировании геномов и наблюдаемых мутаций. Она играет роль в анализе данных из биологической литературы и развитии биологических и генетических онтологий по организации и запросу биологических данных. Она играет роль в анализе гена, экспрессии белка и регуляции. Инструменты биоинформатики помогают в сравнении генетических и геномных данных и, в целом, в понимании эволюционных аспектов молекулярной биологии. В общем виде, она помогает анализировать и каталогизировать биологические пути и сети, которые являются важной частью системной биологии. В структурной биологии, она помогает в симуляции и моделировании ДНК, РНК и белковых структур, а также молекулярных взаимодействий. |
|||
В общем виде, биоинформатика помогает анализировать и каталогизировать биохимические пути и сети, которые являются важной частью системной биологии. В [[Структурная биология|структурной биологии]], она помогает в моделировании ДНК, РНК и белковых структур, а также молекулярных взаимодействий. |
|||
Последние успехи в обработке биологических данных привели к значительным изменениям в области биомедицины. Благодаря развитию биоинформатики у ученых появилась возможность идентифицировать молекулярные механизмы, лежащие в основе как наследственных, так и приобретенных заболеваний, что помогает в разработке эффективных способов лечения и более точных тестов для диагностики заболеваний<ref>{{Cite web |url=https://link.springer.com/chapter/10.1007/978-981-15-2445-5_2 |title=''Manisekhar S. R., Siddesh G. M., Manvi S. S.'' Introduction to Bioinformatics // Statistical Modelling and Machine Learning Principles for Bioinformatics Techniques, Tools, and Applications. — Springer, Singapore, 2020. — С. 3-9. |access-date=2020-04-24 |archive-date=2022-06-03 |archive-url=https://web.archive.org/web/20220603184939/https://link.springer.com/chapter/10.1007/978-981-15-2445-5_2 |deadlink=no }}</ref>. Направление исследований, которое позволяет предсказывать эффективность и неблагоприятные эффекты действия лекарственных средств у пациентов, получило название [[фармакогенетика]], и в его основе также лежат биоинформатические методы. |
|||
Важная роль биоинформатики также заключается в анализе биологической литературы и развитии биологических и генетических онтологий по организации биологических данных. |
|||
=== История === |
=== История === |
||
Строка 31: | Строка 78: | ||
</ref>. Это определение проводит параллель биоинформатики с [[Биофизика|биофизикой]] (учение о физических процессах в биологических системах) или с [[Биохимия|биохимией]] (учение о химических процессах в биологических системах)<ref name="Hogeweg20112" />. |
</ref>. Это определение проводит параллель биоинформатики с [[Биофизика|биофизикой]] (учение о физических процессах в биологических системах) или с [[Биохимия|биохимией]] (учение о химических процессах в биологических системах)<ref name="Hogeweg20112" />. |
||
==== Последовательности ==== |
|||
В начале «геномной революции» термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживание базы данных для хранения биологической информации |
|||
Историю биоинформатики последовательностей можно отсчитывать от достижений 1950-х годов. В феврале 1953 года Уотсон и Крик предложили модель молекулы ДНК, а в мае 1953 года опубликовали статью в журнале [[Nature]], в которой разбирался вопрос о ДНК как о носителе кода генетической информации<ref>Watson J. D., Crick F. H. Genetical implications of the structure of deoxyribonucleic acid // Nature : journal. — 1953. — May (vol. 171, no. 4361). — P. 964—967. — doi:10.1038/171964b0. — Bibcode: 1953Natur.171..964W. — PMID 13063483.</ref>. Кроме того, в конце 1950-х Сэнгер опубликовал первую последовательность белка, инсулина<ref>{{Cite web |url=https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1198157/ |title=''Sanger F., Thompson E. O. P.'' The amino-acid sequence in the glycyl chain of insulin. 1. The identification of lower peptides from partial hydrolysates //Biochemical Journal. — 1953. — Т. 53. — №. 3. — С. 353. |access-date=2020-04-24 |archive-date=2022-06-03 |archive-url=https://web.archive.org/web/20220603184939/https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1198157/ |deadlink=no }}</ref><ref>[https://www.ncbi.nlm.nih.gov/pmc/articles/PMC1198158/ ''Sanger F., Thompson E. O. P.'' The amino-acid sequence in the glycyl chain of insulin. 2. The investigation of peptides from enzymic hydrolysates //Biochemical Journal. — 1953. — Т. 53. — №. 3. — С. 366.]</ref>. |
|||
Наиболее используемым методом секвенирования аминокислотных последовательностей стала деградация Эдмана, основным недостатком которой была сложность в получении длинных белковых последовательностей: теоретический максимум составлял 50—60 аминокислот за одну реакцию. Из-за этого белки нужно было сначала расщеплять на мелкие фрагменты, а затем собирать последовательности белка из сотен коротких цепей, что не всегда удавалось сделать правильно. Решение этой проблемы предложила {{нп4|Дейхофф, Маргарет|Маргарет Дейхофф||Margaret Oakley Dayhoff}} (1925—1983) — американская учёная, физический химик. Дейхофф активно использовала в своей работе компьютерные методы и увидела потенциал в их применении в области биологии и медицины. В 1962 году она завершила разработку COMPROTEIN, инструмента для определения первичной структуры белка с использованием данных секвенирования пептидов по методу Эдмана<ref>{{Cite web |url=https://dl.acm.org/doi/abs/10.1145/1461518.1461546 |title=''Dayhoff M. O., Ledley R. S.'' uter program to aid primary protein structure determination //Proceedings of the December 4-6, 1962, fall joint computer conference. — 1962. — С. 262—274. |access-date=2020-04-24 |archive-date=2020-06-26 |archive-url=https://web.archive.org/web/20200626021912/https://dl.acm.org/doi/abs/10.1145/1461518.1461546 |deadlink=no }}</ref>. В COMPROTEIN ввод и вывод аминокислотной последовательности был представлен в трехбуквенных сокращениях. Чтобы упростить обработку данных о последовательностях белков, Дейхофф позже разработала однобуквенный аминокислотный код, который используется до сих пор. Вклад Дейхофф в эту область настолько значителен, что Дэвид Дж. Липман, бывший директор Национального центра биотехнологической информации (NCBI), называл ее «мать и отец биоинформатики»<ref>[https://www.google.com/books?hl=ru&lr=&id=Q960CIDzRuIC&oi=fnd&pg=PP11&dq=Moody+G.+Digital+Code+of+Life:+How+Bioinformatics+is+Revolutionizing+Science,+Medicine,+and+Business.+London:+Wiley,+2004.&ots=kXyjy0VbbR&sig=OavDTd4UMLx-uXYnp08gaQwFzNE ''Moody G.'' Digital code of life: how bioinformatics is revolutionizing science, medicine, and business //John Wiley & Sons, 2004.]</ref>. |
|||
'''Последовательности'''. Компьютеры стали необходимыми в [[Молекулярная биология|молекулярной биологии]], когда белковые последовательности стали доступны после того, как [[Фредерик Сенгер]] определил последовательность инсулина в начале 1950-х. Сравнение нескольких последовательностей вручную оказалось непрактичным. Пионером в этой области была Маргарет Окли Дэйхоф (Margaret Oakley Dayhoff). Дэвид Липман (директор Национального центра биотехнологической информации) назвал её «матерью и отцом биоинформатики». Дэйхоф составила одну из первых баз последовательностей белков, первоначально опубликовав в виде книг и стала первооткрывателем методов выравнивания последовательностей и молекулярной эволюции. |
|||
С накоплением новых последовательностей белков, в них стали прослеживаться некоторые закономерности. Так, Цукеркандль и Полинг отметили, что ортологичные белки позвоночных (например, гемоглобин), демонстрируют слишком высокую степень сходства последовательностей чтобы быть результатом конвергентной эволюции. Для подтверждения новых эволюционных гипотез были необходимы новые математические и компьютерные методы<ref>[https://academic.oup.com/bib/article-abstract/20/6/1981/5066445 ''Gauthier J. et al.'' A brief history of bioinformatics //Briefings in bioinformatics. — 2019. — Т. 20. — №. 6. — С. 1981—1996.]</ref>. Первый алгоритм динамического программирования для парных выравниваний белковых последовательностей был разработан в 1970 году Нидлманом и Вуншем<ref>Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins //J Mol Biol 1970;48:443-53.</ref>. Алгоритмы множественного выравнивания последовательностей появились значительно позже: первый практически применимый алгоритм был разработан Да-Фэй Фэн и Расселом Ф. Дулитлом в 1987 году<ref>{{Cite web |url=https://link.springer.com/article/10.1007/BF02603120 |title=''Feng D. F., Doolittle R. F.'' Progressive sequence alignment as a prerequisitetto correct phylogenetic trees //Journal of molecular evolution. — 1987. — Т. 25. — №. 4. — С. 351—360. |access-date=2020-04-24 |archive-date=2021-02-24 |archive-url=https://web.archive.org/web/20210224121628/https://link.springer.com/article/10.1007/BF02603120 |deadlink=no }}</ref>. Его упрощение, алгоритм CLUSTAL, используется до сих пор. Кроме того, в 1978 году группа ученых, в которую входила Дейхофф, создала первую модель замен, основанную на наблюдении точечных принятых мутаций (PAMs) в филогенетических деревьях 71 семейства белков, имеющих более 85 % идентичности. В результате была получена матрица, содержащая значения вероятности замен аминокислот<ref>{{Cite web |url=http://profs.scienze.univr.it/~liptak/ACB/files/pam1.pdf |title=''Dayhoff M., Schwartz R., Orcutt B.'' 22 a model of evolutionary change in proteins //Atlas of protein sequence and structure. — MD : National Biomedical Research Foundation Silver Spring, 1978. — Т. 5. — С. 345—352. |access-date=2020-04-24 |archive-date=2021-08-16 |archive-url=https://web.archive.org/web/20210816095811/http://profs.scienze.univr.it/~liptak/ACB/files/pam1.pdf |deadlink=no }}</ref>. |
|||
'''Геномы'''. Поскольку полные последовательности генома стали доступны, снова с новаторской работой Фредерика Сенгера термин «биоинформатика» был переоткрыт и обозначал создание и техническое обслуживание баз данных для хранения биологической информации, такой как [[Нуклеотидная последовательность|последовательности нуклеотидов]] (база данных GenBank в 1982). Создание таких баз данных включало в себя не только вопросы оформления, но и создание комплексного интерфейса, позволяющего исследователям запрашивать имеющиеся данные и добавлять новые. С публичной доступностью данных, инструменты для их обработки были быстро разработаны и описаны в таких журналах, как «Исследование Нуклеиновых Кислот», который опубликовал специализированные вопросы по инструментам биоинформатики уже в 1982 году. |
|||
Центральная догма молекулярной биологии, которая была опубликована Френсисом Криком в 1970 году, а также постепенное определение всех аминокислот, кодируемых 68 кодонами, привели к постепенной смене парадигмы от белковой эволюции к эволюции ДНК в 1970—1980 годах. Появилась необходимость научиться читать последовательности ДНК. Первым методом секвенирования ДНК, получившим широкое распространение, стал метод секвенирования Максама — Гилберта в 1976 году<ref>{{Cite web |url=https://www.pnas.org/content/74/2/560.short |title=''Maxam A. M., Gilbert W.'' A new method for sequencing DNA //Proceedings of the National Academy of Sciences. — 1977. — Т. 74. — №. 2. — С. 560—564. |access-date=2020-04-24 |archive-date=2018-09-16 |archive-url=https://web.archive.org/web/20180916080417/http://www.pnas.org/content/74/2/560.short |deadlink=no }}</ref>. Однако наибольшее распространение получил метод, разработанный в лаборатории Фредерика Сэнгера в 1977 году, он используется до сих пор. Секвенирование по Сэнгеру позволило получать довольно большие для того времени объёмы информации, но размер фрагментов, которые получалось секвенировать, был ограничен сотнями нуклеотидов, чего хватало только для изучения таких небольших геномов, как геномы бактериофагов. Первое программное обеспечение, предназначенное для анализа последовательностей, полученный в результате секвенирования по Сэнгеру было опубликовано Роджером Стаденом в 1979 году<ref>{{Cite web |url=https://academic.oup.com/nar/article-abstract/6/7/2601/2384187 |title=''Staden R.'' A strategy of DNA sequencing employing computer programs //Nucleic acids research. — 1979. — Т. 6. — №. 7. — С. 2601—2610. |access-date=2020-04-24 |archive-date=2019-05-02 |archive-url=https://web.archive.org/web/20190502225714/https://academic.oup.com/nar/article-abstract/6/7/2601/2384187 |deadlink=no }}</ref>. Этот пакет компьютерных программ позволил не только для сборки последовательносей в контиги, но и для проверки и редактирования этих последовательностей, а также для аннотации. |
|||
==== Геномы ==== |
|||
С публикации генома человека в начале XXI века началась геномная эра биоинформатики. Проект был инициирован в 1991 году в США и обошёлся в 2,7 миллиарда долларов, заняв более 13 лет<ref>[NHGRI. Human Genome Project Completion: Frequently Asked Questions. National Human Genome Research Institute (NHGRI). https://www.genome.gov/11006943/ {{Wayback|url=https://www.genome.gov/11006943/ |date=20190416231019 }} Human-Genome-Project-Completion-Frequently-]</ref>. В 1998 году [[Celera Corporation|Celera Genomics]] произвела конкурирующее частное исследование по секвенированию и сборке человеческого генома. Исследование потребовало в 10 раз меньше денег и катализировало разработку новых экспериментальных стратегий секвенирования, таких как 454 и Illumina. Стоимость секвенирования ДНК упала на несколько порядков, что привело к колоссальному увеличению количества последовательностей в публичных базах данных. Возникла потребность в разработке способов хранения и быстрой обработке биологических данных. В 2005 году был создан Консорциум геномных стандартов и мандат, определивший минимальную информацию необходимую для публикации геномной последовательности.<ref>Field D, Sterk P, Kottmann R, et al. Genomic standards consortium projects. Stand Genomic Sci 2014;9:599-601.</ref>. Целью развития технологий изучения генома является удешевление стоимости расшифровки одного генома предположительно до 100$, что существенно сократит затраты и поможет внедрению этих процедур в повседневную жизнь. |
|||
=== Цели === |
=== Цели === |
||
Главная цель биоинформатики — способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: [[теория распознавания образов|распознавание образов]], [[data mining]], алгоритмы [[машинное обучение|машинного обучения]] и [[визуализация биологических данных]]. Основные усилия исследователей направлены на решение задач [[выравнивание последовательностей|выравнивания последовательностей]], нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, [[предсказание структуры белка|предсказания структуры белка]], предсказания [[Экспрессия генов|экспрессии генов]] и взаимодействий «белок-белок», [[полногеномный поиск ассоциаций|полногеномного поиска ассоциаций]] и моделирования эволюции. |
Главная цель биоинформатики — способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: [[теория распознавания образов|распознавание образов]], [[data mining]], алгоритмы [[машинное обучение|машинного обучения]] и [[визуализация биологических данных]]. Основные усилия исследователей направлены на решение задач [[выравнивание последовательностей|выравнивания последовательностей]], нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, [[предсказание структуры белка|предсказания структуры белка]], предсказания [[Экспрессия генов|экспрессии генов]] и взаимодействий «белок-белок», [[полногеномный поиск ассоциаций|полногеномного поиска ассоциаций]] и моделирования эволюции. |
||
Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов и теории для решения практических и теоретических проблем, возникающих при управлении и анализе биологических данных. |
Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов и теории для решения практических и теоретических проблем, возникающих при управлении и анализе биологических данных<ref>Robert Ghrist - Homological Algebra and Data.</ref>. |
||
== Основные области исследований == |
== Основные области исследований == |
||
=== Анализ генетических последовательностей === |
=== Анализ генетических последовательностей === |
||
[[Файл:Protein alignment.jpg|thumbnail|right|300px|Сравнительный анализ последовательнотей аминокислот, обозначенных одной буквой. Цвет буквы зависит от химических свойств аминокислоты - полярные и т.п.]] |
|||
[[Файл:DNA replication split.svg|thumbnail|right|150px|Обработка гигантского количества данных, получаемых при секвенировании, является одной из важнейших задач биоинформатики]] |
|||
C тех пор как в [[1977 год]]у был [[Секвенирование|секвенирован]] фаг {{нп5|Phi-X174||en|Phi X 174}}, [[Генетический код|последовательности ДНК]] всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей [[Белок|белков]] и регуляторных участков. Сравнение генов в рамках одного или разных [[Вид (биология)|видов]] может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены [[Филогенетическое дерево|Филогенетические деревья]]). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по [[геном]]ам тысяч организмов, состоящих из миллиардов пар [[нуклеотид]]ов используются компьютерные программы. Программы могут однозначно сопоставить ([[Выравнивание последовательностей|выровнять]]) похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «[[Метод дробовика|дробного секвенирования]]» (которая была, например, использована {{нп5|Институт Генетических Исследований|Институтом Генетических Исследований|en|The Institute for Genomic Research}} для секвенирования первого бактериального генома, ''[[Haemophilus influenzae]]'') вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но [[Сборка генома|сборка фрагментов]] может быть довольно сложной задачей для больших геномов. В проекте по расшифровке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и [[Сборка генома#Алгоритмические подходы|алгоритмы сборки геномов]] являются одной из острейших проблем биоинформатики на сегодняшний момент. |
C тех пор как в [[1977 год]]у был [[Секвенирование|секвенирован]] фаг {{нп5|Phi-X174||en|Phi X 174}}, [[Генетический код|последовательности ДНК]] всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей [[Белок|белков]] и регуляторных участков. Сравнение генов в рамках одного или разных [[Вид (биология)|видов]] может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены [[Филогенетическое дерево|Филогенетические деревья]]). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по [[геном]]ам тысяч организмов, состоящих из миллиардов пар [[нуклеотид]]ов используются компьютерные программы. Программы могут однозначно сопоставить ([[Выравнивание последовательностей|выровнять]]) похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «[[Метод дробовика|дробного секвенирования]]» (которая была, например, использована {{нп5|Институт Генетических Исследований|Институтом Генетических Исследований|en|The Institute for Genomic Research}} для секвенирования первого бактериального генома, ''[[Haemophilus influenzae]]'') вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но [[Сборка генома|сборка фрагментов]] может быть довольно сложной задачей для больших геномов. В проекте по расшифровке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и [[Сборка генома#Алгоритмические подходы|алгоритмы сборки геномов]] являются одной из острейших проблем биоинформатики на сегодняшний момент. |
||
Строка 54: | Строка 107: | ||
=== Аннотация геномов === |
=== Аннотация геномов === |
||
В контексте [[Геномика|геномики]] ''аннотация'' — процесс маркировки генов и других объектов в последовательности [[ДНК]]. Первая программная система аннотации [[геном]]ов была создана в [[1995 год]]у Оуэном Уайтом |
В контексте [[Геномика|геномики]] ''аннотация'' — процесс маркировки генов и других объектов в последовательности [[ДНК]]. Первая программная система аннотации [[геном]]ов была создана в [[1995 год]]у {{нп4|Уайт, Оуэн|Оуэном Уайтом||Owen White}}, работавшим в команде Института Геномных Исследований (англ. [[:en:The Institute for Genomic Research|The Institute for Genomic Research]]), секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии ''[[Палочка Пфайфера|Haemophilus influenzae]]''. Доктор Уайт построил систему для нахождения [[ген]]ов (участок ДНК, задающий последовательность определённого полипептида либо функциональной РНК), [[тРНК]] и других объектов ДНК и сделал первые обозначения функций этих генов. Большинство современных систем аннотации генома работают сходным образом, но такие программы доступные для анализа геномной ДНК, как {{нп5|GeneMark}}, используются для нахождения генов, кодирующих белок в Haemophilus influenzae, постоянно меняются и совершенствуются. |
||
=== Вычислительная эволюционная биология === |
=== Вычислительная эволюционная биология === |
||
[[Эволюционная биология]] исследует происхождение и появление [[Биологический вид|видов]], также как их развитие с течением времени. Информатика помогает эволюционным биологам в нескольких аспектах: |
[[Эволюционная биология]] исследует происхождение и появление [[Биологический вид|видов]], также как их развитие с течением времени. Информатика помогает эволюционным биологам в нескольких аспектах: |
||
* изучать эволюцию большого числа организмов, измеряя изменения в их [[ДНК]], а не только в строении или [[физиология|физиологии]]; |
* изучать эволюцию большого числа организмов, измеряя изменения в их [[ДНК]], а не только в строении или [[физиология|физиологии]]; |
||
Строка 67: | Строка 119: | ||
=== Оценка биологического разнообразия === |
=== Оценка биологического разнообразия === |
||
⚫ | [[Биологическое разнообразие]] экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, и пусть это [[биоплёнка]] в заброшенной шахте, капля морской воды, горсть земли или вся [[биосфера]] планеты [[Земля]]. Для сбора [[Биологический вид|видовых]] имён, описаний, области распространения, генетической информации используются базы данных. Специализированное программное обеспечение применяется для поиска, визуализации и анализа информации, и, что более важно, предоставления её другим людям. Компьютерные симуляторы моделируют такие вещи, как популяционная динамика, или вычисляют общее генетическое здоровье культуры в [[Агрономия|агрономии]]. Один из важнейших потенциалов этой области заключается в анализе последовательностей [[ДНК]] или полных [[геном]]ов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью вымрут. |
||
⚫ | [[Биологическое разнообразие]] экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, |
||
Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия — таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как [[фенетика]], или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, [[биоценометрия]]. |
Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия — таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как [[фенетика]], или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, [[биоценометрия]]. |
||
Строка 76: | Строка 127: | ||
* [http://cmpg.unibe.ch/software/arlequin35/ Arlequin] — анализ популяционно-генетических данных |
* [http://cmpg.unibe.ch/software/arlequin35/ Arlequin] — анализ популяционно-генетических данных |
||
* [[Bioconductor]] — масштабный [[FLOSS]]-проект, предоставляющий множество отдельных пакетов для биоинформатических исследований. Написан на [[R (язык программирования)|R]]. |
* [[Bioconductor]] — масштабный [[FLOSS]]-проект, предоставляющий множество отдельных пакетов для биоинформатических исследований. Написан на [[R (язык программирования)|R]]. |
||
* [http://www.mbio.ncsu.edu/BioEdit/bioedit.html BioEdit] — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей |
* [https://web.archive.org/web/20090916025402/http://www.mbio.ncsu.edu/BioEdit/bioedit.html BioEdit] — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей |
||
* [http://www.applied-maths.com/bn/bn.htm BioNumerics] — коммерческий универсальный пакет программ |
* [http://www.applied-maths.com/bn/bn.htm BioNumerics] — коммерческий универсальный пакет программ |
||
* [[BLAST]] — [[Выравнивание последовательностей|поиск родственных последовательностей]] в базе данных нуклеотидных и аминокислотных последовательностей |
* [[BLAST]] — [[Выравнивание последовательностей|поиск родственных последовательностей]] в базе данных нуклеотидных и аминокислотных последовательностей |
||
Строка 98: | Строка 149: | ||
* [[Sequin]] — депонирование последовательностей в [[GenBank]], [[EMBL]], [[DDBJ]] |
* [[Sequin]] — депонирование последовательностей в [[GenBank]], [[EMBL]], [[DDBJ]] |
||
* [http://bioinf.spbau.ru/spades SPAdes] — сборщик бактериальных геномов |
* [http://bioinf.spbau.ru/spades SPAdes] — сборщик бактериальных геномов |
||
* [http://www.splitstree.org SplitsTree] |
* [http://www.splitstree.org SplitsTree] — программа для построения филогенетических деревьев |
||
* [https://web.archive.org/web/20061222001245/http://igs-server.cnrs-mrs.fr/~cnotred/Projects_home_page/t_coffee_home_page.html T-Coffee] — множественное прогрессивное [[Выравнивание последовательностей|выравнивание]] нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в [[ClustalW]]/[[ClustalX]]. |
* [https://web.archive.org/web/20061222001245/http://igs-server.cnrs-mrs.fr/~cnotred/Projects_home_page/t_coffee_home_page.html T-Coffee] — множественное прогрессивное [[Выравнивание последовательностей|выравнивание]] нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в [[ClustalW]]/[[ClustalX]]. |
||
* [[UGENE]] — свободный русскоязычный инструмент, множественное [[Выравнивание последовательностей|выравнивание]] нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных. |
* [[UGENE]] — свободный русскоязычный инструмент, множественное [[Выравнивание последовательностей|выравнивание]] нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных. |
||
* [http://www.ebi.ac.uk/~zerbino/velvet/ Velvet] — сборщик геномов |
* [http://www.ebi.ac.uk/~zerbino/velvet/ Velvet] — сборщик геномов |
||
* [http://www.nature.com/nbt/journal/v32/n3/full/nbt.2840.html ZENBU] — обобщение результатов |
* [http://www.nature.com/nbt/journal/v32/n3/full/nbt.2840.html ZENBU] — обобщение результатов |
||
== Биоинформатика и вычислительная биология == |
|||
Под биоинформатикой понимают любое использование компьютеров для обработки биологической информации. На практике, иногда это определение более узкое, под ним понимают использование компьютеров для обработки экспериментальных данных по структуре биологических макромолекул ([[Белки|белков]] и [[Нуклеиновые кислоты|нуклеиновых кислот]]) с целью получения биологически значимой информации. В свете изменения шифра научных специальностей (03.00.28 «Биоинформатика» превратилась в 03.01.09 «Математическая биология, биоинформатика») поле термина «биоинформатика» расширилось и включает все реализации математических алгоритмов, связанных с биологическими объектами. |
|||
Термины ''биоинформатика'' и «[[вычислительная биология]]» часто употребляются как синонимы, хотя последний чаще указывает на разработку [[алгоритм]]ов и конкретные вычислительные методы. Считается, что не всякое использование вычислительных методов в биологии является биоинформатикой, например, [[Математическая биология|математическое моделирование биологических процессов]] — это не биоинформатика.{{нет АИ|17|10|2010}} |
|||
Биоинформатика использует методы [[прикладная математика|прикладной математики]], [[статистика|статистики]] и [[информатика|информатики]]. Исследования в вычислительной биологии нередко пересекаются с [[системная биология|системной биологией]]. Основные усилия исследователей в этой области направлены на изучение [[геном]]ов, анализ и предсказание структуры [[белок|белков]], анализ и предсказание взаимодействий молекул белка друг с другом и другими молекулами, а также реконструкция [[эволюция|эволюции]]. |
|||
Биоинформатика и её методы используются также в [[Биохимия|биохимии]], [[Биофизика|биофизике]], [[Экология|экологии]] и в других областях. Основная линия в проектах биоинформатики — это использование [[математика|математических]] средств для извлечения полезной [[информация|информации]] из «шумных» или слишком объёмных данных о структуре [[ДНК]] и белков, полученных экспериментально. |
|||
== Структурная биоинформатика == |
== Структурная биоинформатика == |
||
Строка 145: | Строка 186: | ||
* Сетубал Ж, Мейданис Ж. «Введение в вычислительную молекулярную биологию». — М.-Ижевск: НИЦ «Регулярная и хаотичная динамика», 2007. — 420 с. — ISBN 978-5-93972-623-8 |
* Сетубал Ж, Мейданис Ж. «Введение в вычислительную молекулярную биологию». — М.-Ижевск: НИЦ «Регулярная и хаотичная динамика», 2007. — 420 с. — ISBN 978-5-93972-623-8 |
||
* В. А. Таланов, [http://new.math.msu.su/department/dm/dmmc/PUBL1/gen.htm Математические модели синтеза пептидных цепей и методы теории графов в расшифровке генетическиех текстов] |
* В. А. Таланов, [http://new.math.msu.su/department/dm/dmmc/PUBL1/gen.htm Математические модели синтеза пептидных цепей и методы теории графов в расшифровке генетическиех текстов] |
||
== Ссылки == |
|||
* {{cite web |url=https://nauka.tass.ru/tag/bioinformatics |title=Биоинформатика |subtitle=Рубрика «Наука» |publisher=[[ТАСС]] |description=Читать все последние новости на тему |accessdate=2023-08-07 }} |
|||
{{внешние ссылки}} |
{{внешние ссылки}} |
||
{{^}}{{Разделы биологии}} |
{{^}}{{Разделы биологии}} |
||
{{Персонализированная медицина}} |
{{Персонализированная медицина}} |
||
[[Категория:Биоинформатика| ]] |
[[Категория:Биоинформатика| ]] |
Текущая версия от 08:03, 11 сентября 2024
Биоинформа́тика — междисциплинарная область, объединяющая общую биологию, молекулярную биологию, кибернетику, генетику, химию, компьютерные науки, математику и статистику. Крупномасштабные биологические проблемы, требующие анализа больших объёмов данных, решаются биоинформатикой с вычислительной точки зрения[1]. Биоинформатика главным образом включает в себя изучение и разработку компьютерных методов и направлена на получение, анализ, хранение, организацию и визуализацию биологических данных[2].
В похожем контексте часто упоминается термин вычислительная биология. Эта область акцентирует свое внимание на разработке алгоритмов и математическом моделировании социальных, поведенческих и биологических систем. Биоинформатику считают областью внутри вычислительной биологии, которая главным образом сфокусирована на статистической обработке биологических данных[2]. Различия в подходе с разных сторон: биоинформатики — это биологи, специализирующиеся на использовании вычислительных систем и инструментов для решения биологических задач, а вычислительные биологи — это специалисты по компьютерным наукам, математики, статистики и инженеры, разрабатывающие инструменты для таких расчётов[2].
Биоинформатика в широком смысле подразумевает работу с любыми видами биологических данных, включая исследование электронных микрофотографий, поиск ключевых слов в биологической литературе и так далее[3]. Если рассматривать биоинформатику как набор подходов и методов для работы с данными, то в зависимости от типов технических задач она включает в себя[4]:
- Разработку алгоритмов и программ для более эффективной работы с данными
- Хранение и передачу информации или работу с базами данных
Однако, биоинформатические методы анализа также неразрывно связаны со многими научными областями, которые подразумевает поиск ответов на конкретные биологические вопросы. В таком случае основные направления можно выделить на основании исследуемых объектов:
- Биоинформатика последовательностей
- Анализ экспрессий
- Структурная биоинформатика
- Изучение клеточной организации
- Системная биология
Для каждого из перечисленных разделов можно выделить свои стандартные типы данных, способы их обработки, биоинформатические алгоритмы и базы данных.
В биоинформатике используются методы прикладной математики, статистики и информатики. Биоинформатика используется в биохимии, биофизике, экологии и в других областях. Наиболее часто используемыми инструментами и технологиями в этой области являются языки программирования Python, R, Java, C#, C++; язык разметки — XML; язык структурированных запросов к базам данных — SQL; программно-аппаратная архитектура параллельных вычислений — CUDA; пакет прикладных программ для решения задач технических вычислений и одноимённый язык программирования, используемый в этом пакете — MATLAB, и электронные таблицы.
Введение
[править | править код]Биоинформатика стала важной частью многих областей биологии. Биоинформатические методы анализа дают возможность интерпретировать большие объемы экспериментальных данных, что до развития этой области было практически невозможно. Например, экспериментальной молекулярной биологии часто используются такие методы биоинформатики, как обработка изображений и сигналов. В области генетики и геномики биоинформатика помогает в функциональной аннотации геномов, детекции и анализе мутаций. Важной задачей является изучение экспрессии генов и способов её регуляции. Кроме того, инструменты биоинформатики позволяют сравнивать геномные данные, что является необходимым условием для изучения принципов молекулярной эволюции.
В общем виде, биоинформатика помогает анализировать и каталогизировать биохимические пути и сети, которые являются важной частью системной биологии. В структурной биологии, она помогает в моделировании ДНК, РНК и белковых структур, а также молекулярных взаимодействий.
Последние успехи в обработке биологических данных привели к значительным изменениям в области биомедицины. Благодаря развитию биоинформатики у ученых появилась возможность идентифицировать молекулярные механизмы, лежащие в основе как наследственных, так и приобретенных заболеваний, что помогает в разработке эффективных способов лечения и более точных тестов для диагностики заболеваний[5]. Направление исследований, которое позволяет предсказывать эффективность и неблагоприятные эффекты действия лекарственных средств у пациентов, получило название фармакогенетика, и в его основе также лежат биоинформатические методы.
Важная роль биоинформатики также заключается в анализе биологической литературы и развитии биологических и генетических онтологий по организации биологических данных.
История
[править | править код]Опираясь на признание важной роли передачи, хранения и обработки информации в биологических системах, в 1970 году Полина Хогевег ввела термин «биоинформатика», определив его как изучение информационных процессов в биотических системах[6][7]. Это определение проводит параллель биоинформатики с биофизикой (учение о физических процессах в биологических системах) или с биохимией (учение о химических процессах в биологических системах)[6].
Последовательности
[править | править код]Историю биоинформатики последовательностей можно отсчитывать от достижений 1950-х годов. В феврале 1953 года Уотсон и Крик предложили модель молекулы ДНК, а в мае 1953 года опубликовали статью в журнале Nature, в которой разбирался вопрос о ДНК как о носителе кода генетической информации[8]. Кроме того, в конце 1950-х Сэнгер опубликовал первую последовательность белка, инсулина[9][10].
Наиболее используемым методом секвенирования аминокислотных последовательностей стала деградация Эдмана, основным недостатком которой была сложность в получении длинных белковых последовательностей: теоретический максимум составлял 50—60 аминокислот за одну реакцию. Из-за этого белки нужно было сначала расщеплять на мелкие фрагменты, а затем собирать последовательности белка из сотен коротких цепей, что не всегда удавалось сделать правильно. Решение этой проблемы предложила Маргарет Дейхофф[англ.] (1925—1983) — американская учёная, физический химик. Дейхофф активно использовала в своей работе компьютерные методы и увидела потенциал в их применении в области биологии и медицины. В 1962 году она завершила разработку COMPROTEIN, инструмента для определения первичной структуры белка с использованием данных секвенирования пептидов по методу Эдмана[11]. В COMPROTEIN ввод и вывод аминокислотной последовательности был представлен в трехбуквенных сокращениях. Чтобы упростить обработку данных о последовательностях белков, Дейхофф позже разработала однобуквенный аминокислотный код, который используется до сих пор. Вклад Дейхофф в эту область настолько значителен, что Дэвид Дж. Липман, бывший директор Национального центра биотехнологической информации (NCBI), называл ее «мать и отец биоинформатики»[12].
С накоплением новых последовательностей белков, в них стали прослеживаться некоторые закономерности. Так, Цукеркандль и Полинг отметили, что ортологичные белки позвоночных (например, гемоглобин), демонстрируют слишком высокую степень сходства последовательностей чтобы быть результатом конвергентной эволюции. Для подтверждения новых эволюционных гипотез были необходимы новые математические и компьютерные методы[13]. Первый алгоритм динамического программирования для парных выравниваний белковых последовательностей был разработан в 1970 году Нидлманом и Вуншем[14]. Алгоритмы множественного выравнивания последовательностей появились значительно позже: первый практически применимый алгоритм был разработан Да-Фэй Фэн и Расселом Ф. Дулитлом в 1987 году[15]. Его упрощение, алгоритм CLUSTAL, используется до сих пор. Кроме того, в 1978 году группа ученых, в которую входила Дейхофф, создала первую модель замен, основанную на наблюдении точечных принятых мутаций (PAMs) в филогенетических деревьях 71 семейства белков, имеющих более 85 % идентичности. В результате была получена матрица, содержащая значения вероятности замен аминокислот[16].
Центральная догма молекулярной биологии, которая была опубликована Френсисом Криком в 1970 году, а также постепенное определение всех аминокислот, кодируемых 68 кодонами, привели к постепенной смене парадигмы от белковой эволюции к эволюции ДНК в 1970—1980 годах. Появилась необходимость научиться читать последовательности ДНК. Первым методом секвенирования ДНК, получившим широкое распространение, стал метод секвенирования Максама — Гилберта в 1976 году[17]. Однако наибольшее распространение получил метод, разработанный в лаборатории Фредерика Сэнгера в 1977 году, он используется до сих пор. Секвенирование по Сэнгеру позволило получать довольно большие для того времени объёмы информации, но размер фрагментов, которые получалось секвенировать, был ограничен сотнями нуклеотидов, чего хватало только для изучения таких небольших геномов, как геномы бактериофагов. Первое программное обеспечение, предназначенное для анализа последовательностей, полученный в результате секвенирования по Сэнгеру было опубликовано Роджером Стаденом в 1979 году[18]. Этот пакет компьютерных программ позволил не только для сборки последовательносей в контиги, но и для проверки и редактирования этих последовательностей, а также для аннотации.
Геномы
[править | править код]С публикации генома человека в начале XXI века началась геномная эра биоинформатики. Проект был инициирован в 1991 году в США и обошёлся в 2,7 миллиарда долларов, заняв более 13 лет[19]. В 1998 году Celera Genomics произвела конкурирующее частное исследование по секвенированию и сборке человеческого генома. Исследование потребовало в 10 раз меньше денег и катализировало разработку новых экспериментальных стратегий секвенирования, таких как 454 и Illumina. Стоимость секвенирования ДНК упала на несколько порядков, что привело к колоссальному увеличению количества последовательностей в публичных базах данных. Возникла потребность в разработке способов хранения и быстрой обработке биологических данных. В 2005 году был создан Консорциум геномных стандартов и мандат, определивший минимальную информацию необходимую для публикации геномной последовательности.[20]. Целью развития технологий изучения генома является удешевление стоимости расшифровки одного генома предположительно до 100$, что существенно сократит затраты и поможет внедрению этих процедур в повседневную жизнь.
Цели
[править | править код]Главная цель биоинформатики — способствовать пониманию биологических процессов. Отличие биоинформатики от других подходов состоит в том, что она фокусируется на создании и применении интенсивных вычислительных методов для достижения этой цели. Примеры подобных методов: распознавание образов, data mining, алгоритмы машинного обучения и визуализация биологических данных. Основные усилия исследователей направлены на решение задач выравнивания последовательностей, нахождения генов (поиск региона ДНК, кодирующего гены), расшифровки генома, конструирования лекарств, разработки лекарств, выравнивания структуры белка, предсказания структуры белка, предсказания экспрессии генов и взаимодействий «белок-белок», полногеномного поиска ассоциаций и моделирования эволюции.
Биоинформатика сегодня подразумевает создание и совершенствование баз данных, алгоритмов, вычислительных и статистических методов и теории для решения практических и теоретических проблем, возникающих при управлении и анализе биологических данных[21].
Основные области исследований
[править | править код]Анализ генетических последовательностей
[править | править код]C тех пор как в 1977 году был секвенирован фаг Phi-X174[англ.], последовательности ДНК всё большего числа организмов были дешифрованы и сохранены в базах данных. Эти данные используются для определения последовательностей белков и регуляторных участков. Сравнение генов в рамках одного или разных видов может продемонстрировать сходство функций белков или отношения между видами (таким образом могут быть составлены Филогенетические деревья). С возрастанием количества данных уже давно стало невозможным вручную анализировать последовательности. В наши дни для поиска по геномам тысяч организмов, состоящих из миллиардов пар нуклеотидов используются компьютерные программы. Программы могут однозначно сопоставить (выровнять) похожие последовательности ДНК в геномах разных видов; часто такие последовательности несут сходные функции, а различия возникают в результате мелких мутаций, таких как замены отдельных нуклеотидов, вставки нуклеотидов, и их «выпадения» (делеции). Один из вариантов такого выравнивания применяется при самом процессе секвенирования. Так называемая техника «дробного секвенирования» (которая была, например, использована Институтом Генетических Исследований[англ.] для секвенирования первого бактериального генома, Haemophilus influenzae) вместо полной последовательности нуклеотидов даёт последовательности коротких фрагментов ДНК (каждый длиной около 600—800 нуклеотидов). Концы фрагментов накладываются друг на друга и, совмещённые должным образом, дают полный геном. Такой метод быстро даёт результаты секвенирования, но сборка фрагментов может быть довольно сложной задачей для больших геномов. В проекте по расшифровке генома человека сборка заняла несколько месяцев компьютерного времени. Сейчас этот метод применяется для практически всех геномов, и алгоритмы сборки геномов являются одной из острейших проблем биоинформатики на сегодняшний момент.
Другим примером применения компьютерного анализа последовательностей является автоматический поиск генов и регуляторных последовательностей в геноме. Не все нуклеотиды в геноме используются для задания последовательностей белков. Например, в геномах высших организмов, большие сегменты ДНК явно не кодируют белки и их функциональная роль неизвестна. Разработка алгоритмов выявления кодирующих белки участков генома является важной задачей современной биоинформатики.
Биоинформатика помогает связать геномные и протеомные проекты, к примеру, помогая в использовании последовательности ДНК для идентификации белков.
Аннотация геномов
[править | править код]В контексте геномики аннотация — процесс маркировки генов и других объектов в последовательности ДНК. Первая программная система аннотации геномов была создана в 1995 году Оуэном Уайтом[англ.], работавшим в команде Института Геномных Исследований (англ. The Institute for Genomic Research), секвенировавшей и проанализировавшей первый декодированный геном свободноживущего организма, бактерии Haemophilus influenzae. Доктор Уайт построил систему для нахождения генов (участок ДНК, задающий последовательность определённого полипептида либо функциональной РНК), тРНК и других объектов ДНК и сделал первые обозначения функций этих генов. Большинство современных систем аннотации генома работают сходным образом, но такие программы доступные для анализа геномной ДНК, как GeneMark[англ.], используются для нахождения генов, кодирующих белок в Haemophilus influenzae, постоянно меняются и совершенствуются.
Вычислительная эволюционная биология
[править | править код]Эволюционная биология исследует происхождение и появление видов, также как их развитие с течением времени. Информатика помогает эволюционным биологам в нескольких аспектах:
- изучать эволюцию большого числа организмов, измеряя изменения в их ДНК, а не только в строении или физиологии;
- сравнивать целые геномы (см. BLAST), что позволяет изучать более комплексные эволюционные события, такие как: дупликация генов, горизонтальный перенос генов, и предсказывать бактериальные специализирующие факторы;
- строить компьютерные модели популяций, чтобы предсказать поведение системы во времени;
- отслеживать появление публикаций, содержащих информацию о большом количестве видов.
Область в компьютерных науках, которая использует генетические алгоритмы, часто путают с компьютерной эволюционной биологией, но две эти области не обязательно связаны. Работа в этой области использует специализированное программное обеспечение для улучшения алгоритмов и вычислений и основывается на эволюционных принципах, таких, как репликация, диверсификация через рекомбинацию или мутации, и выживании в естественном отборе.
Оценка биологического разнообразия
[править | править код]Биологическое разнообразие экосистемы может быть определено как полная генетическая совокупность определённой среды, состоящая из всех обитающих видов, и пусть это биоплёнка в заброшенной шахте, капля морской воды, горсть земли или вся биосфера планеты Земля. Для сбора видовых имён, описаний, области распространения, генетической информации используются базы данных. Специализированное программное обеспечение применяется для поиска, визуализации и анализа информации, и, что более важно, предоставления её другим людям. Компьютерные симуляторы моделируют такие вещи, как популяционная динамика, или вычисляют общее генетическое здоровье культуры в агрономии. Один из важнейших потенциалов этой области заключается в анализе последовательностей ДНК или полных геномов целых вымирающих видов, позволяя запомнить результаты генетического эксперимента природы в компьютере и возможно использовать вновь в будущем, даже если эти виды полностью вымрут.
Часто из области рассмотрения биоинформатики выпадают методы оценки других компонентов биоразнообразия — таксонов (в первую очередь видов) и экосистем. В настоящее время математические основания биоинформационных методов для таксонов представлены в рамках такого научного направления как фенетика, или численная таксономия. Методы анализа структуры экосистем рассматриваются специалистами таких направлений как системная экология, биоценометрия.
Основные биоинформатические программы
[править | править код]- ACT (Artemis Comparison Tool) — геномный анализ
- Arlequin — анализ популяционно-генетических данных
- Bioconductor — масштабный FLOSS-проект, предоставляющий множество отдельных пакетов для биоинформатических исследований. Написан на R.
- BioEdit — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
- BioNumerics — коммерческий универсальный пакет программ
- BLAST — поиск родственных последовательностей в базе данных нуклеотидных и аминокислотных последовательностей
- Clustal — множественное выравнивание нуклеотидных и аминокислотных последовательностей
- DnaSP — анализ полиморфизма последовательностей ДНК
- FigTree — редактор филогенетических деревьев
- Genepop — популяционно-генетический анализ
- Genetix — популяционно-генетический анализ (программа доступна только на французском языке)
- JalView — редактор множественного выравнивания нуклеотидных и аминокислотных последовательностей
- MacClade — коммерческая программа для интерактивного эволюционного анализа данных
- MEGA — молекулярно-эволюционный генетический анализ
- Mesquite — программа для сравнительной биологии на языке Java
- Muscle — множественное сравнение нуклеотидных и аминокислотных последовательностей. Более быстрая и точная по сравнению с ClustalW
- PAUP — филогенетический анализ с использованием метода парсимонии (и других методов)
- PHYLIP — пакет филогенетических программ
- Phylo_win — филогенетический анализ. Программа имеет графический интерфейс.
- PopGene — анализ генетического разнообразия популяций
- Populations — популяционно-генетический анализ
- PSI Protein Classifier — обобщение результатов, полученных с помощью программы PSI-BLAST
- Seaview — филогенетический анализ (с графическим интерфейсом)
- Sequin — депонирование последовательностей в GenBank, EMBL, DDBJ
- SPAdes — сборщик бактериальных геномов
- SplitsTree — программа для построения филогенетических деревьев
- T-Coffee — множественное прогрессивное выравнивание нуклеотидных и аминокислотных последовательностей. Более чувствительное, чем в ClustalW/ClustalX.
- UGENE — свободный русскоязычный инструмент, множественное выравнивание нуклеотидных и аминокислотных последовательностей, филогенетический анализ, аннотирование, работа с базами данных.
- Velvet — сборщик геномов
- ZENBU — обобщение результатов
Структурная биоинформатика
[править | править код]К структурной биоинформатике относится разработка алгоритмов и программ для предсказания пространственной структуры белков. Темы исследований в структурной биоинформатике:
- Рентгеноструктурный анализ (РСА) макромолекул
- Индикаторы качества модели макромолекулы, построенной по данным РСА
- Алгоритмы вычисления поверхности макромолекулы
- Алгоритмы нахождения гидрофобного ядра молекулы белка
- Алгоритмы нахождения структурных доменов белков
- Пространственное выравнивание структур белков
- Структурные классификации доменов SCOP и CATH
- Молекулярная динамика
См. также
[править | править код]- Вычислительная биология
- Математическая биология
- Хемоинформатика
- Международное Общество Вычислительной Биологии
- Генная онтология
- Пангеном
- Список научных журналов по биоинформатике (англ.)
- Когнитивная геномика
Примечания
[править | править код]- ↑ Can, T. Introduction to bioinformatics // miRNomics : MicroRNA Biology and Computational Analysis : [англ.] / Editors Malik Yousef and Jens Allmer. — Totowa, NJ : Humana Press, 2014. — P. 51–71. — 325 p. — (Methods in Molecular Biology ; vol. 1107). — ISBN 978-1-62703-748-8. — ISBN 978-1-62703-747-1. — doi:10.1007/978-1-62703-748-8_4.
- ↑ 1 2 3 Nair, A. S. Computational biology & bioinformatics : a gentle overview : [англ.] : [арх. 26 марта 2022] // Communications of the Computer Society of India : журн. — 2007. — Vol. 2 (January).
- ↑ Кунин, Е. Суп из гвоздя : Ведущий эволюционист рассказал о Мультивселенной и антропном принципе : [арх. 9 августа 2014] // Лента.ru. — 2012. — 1 декабря.
- ↑ Гельфанд, М. С. Биоинформатика как дисциплина : Биоинформатик Михаил Гельфанд о системной биологии, предсказании функций белков и процессах эволюции : [арх. 3 августа 2020] // Постнаука. — 2015. — 28 февраля.
- ↑ Manisekhar S. R., Siddesh G. M., Manvi S. S. Introduction to Bioinformatics // Statistical Modelling and Machine Learning Principles for Bioinformatics Techniques, Tools, and Applications. — Springer, Singapore, 2020. — С. 3-9. Дата обращения: 24 апреля 2020. Архивировано 3 июня 2022 года.
- ↑ 1 2 Hogeweg P. The roots of bioinformatics in theoretical biology. (англ.) // Public Library of Science for Computational Biology. — 2011. — Vol. 7, no. 3. — P. e1002021. — doi:10.1371/journal.pcbi.1002021. — PMID 21483479.
- ↑ Hesper B., Hogeweg P. Bioinformatica: een werkconcept (неопр.). — Kameleon, 1970. — Т. 1, № 6. — С. 28—29.
- ↑ Watson J. D., Crick F. H. Genetical implications of the structure of deoxyribonucleic acid // Nature : journal. — 1953. — May (vol. 171, no. 4361). — P. 964—967. — doi:10.1038/171964b0. — Bibcode: 1953Natur.171..964W. — PMID 13063483.
- ↑ Sanger F., Thompson E. O. P. The amino-acid sequence in the glycyl chain of insulin. 1. The identification of lower peptides from partial hydrolysates //Biochemical Journal. — 1953. — Т. 53. — №. 3. — С. 353. Дата обращения: 24 апреля 2020. Архивировано 3 июня 2022 года.
- ↑ Sanger F., Thompson E. O. P. The amino-acid sequence in the glycyl chain of insulin. 2. The investigation of peptides from enzymic hydrolysates //Biochemical Journal. — 1953. — Т. 53. — №. 3. — С. 366.
- ↑ Dayhoff M. O., Ledley R. S. uter program to aid primary protein structure determination //Proceedings of the December 4-6, 1962, fall joint computer conference. — 1962. — С. 262—274. Дата обращения: 24 апреля 2020. Архивировано 26 июня 2020 года.
- ↑ Moody G. Digital code of life: how bioinformatics is revolutionizing science, medicine, and business //John Wiley & Sons, 2004.
- ↑ Gauthier J. et al. A brief history of bioinformatics //Briefings in bioinformatics. — 2019. — Т. 20. — №. 6. — С. 1981—1996.
- ↑ Needleman SB, Wunsch CD. A general method applicable to the search for similarities in the amino acid sequence of two proteins //J Mol Biol 1970;48:443-53.
- ↑ Feng D. F., Doolittle R. F. Progressive sequence alignment as a prerequisitetto correct phylogenetic trees //Journal of molecular evolution. — 1987. — Т. 25. — №. 4. — С. 351—360. Дата обращения: 24 апреля 2020. Архивировано 24 февраля 2021 года.
- ↑ Dayhoff M., Schwartz R., Orcutt B. 22 a model of evolutionary change in proteins //Atlas of protein sequence and structure. — MD : National Biomedical Research Foundation Silver Spring, 1978. — Т. 5. — С. 345—352. Дата обращения: 24 апреля 2020. Архивировано 16 августа 2021 года.
- ↑ Maxam A. M., Gilbert W. A new method for sequencing DNA //Proceedings of the National Academy of Sciences. — 1977. — Т. 74. — №. 2. — С. 560—564. Дата обращения: 24 апреля 2020. Архивировано 16 сентября 2018 года.
- ↑ Staden R. A strategy of DNA sequencing employing computer programs //Nucleic acids research. — 1979. — Т. 6. — №. 7. — С. 2601—2610. Дата обращения: 24 апреля 2020. Архивировано 2 мая 2019 года.
- ↑ [NHGRI. Human Genome Project Completion: Frequently Asked Questions. National Human Genome Research Institute (NHGRI). https://www.genome.gov/11006943/ Архивная копия от 16 апреля 2019 на Wayback Machine Human-Genome-Project-Completion-Frequently-]
- ↑ Field D, Sterk P, Kottmann R, et al. Genomic standards consortium projects. Stand Genomic Sci 2014;9:599-601.
- ↑ Robert Ghrist - Homological Algebra and Data.
Литература
[править | править код]- Jonathan Pevsner (2013) Bioinformatics and Functional Genomics
- Jean-Michel Claverie Ph.D. (2007) Bioinformatics For Dummies. 2nd edition.
- Дурбин Р, Эдди Ш, Крог А, Митчисон Г. «Анализ биологических последовательностей». — М.-Ижевск: НИЦ «Регулярная и хаотичная динамика», 2006. — 480 с. — ISBN 5-93972-559-7
- Бородовский М., Екишева С. «Задачи и решения по анализу биологических последовательностей». — М.-Ижевск: НИЦ «Регулярная и хаотичная динамика», 2008. — 420 с. — ISBN 978-5-93972-644-3
- Сетубал Ж, Мейданис Ж. «Введение в вычислительную молекулярную биологию». — М.-Ижевск: НИЦ «Регулярная и хаотичная динамика», 2007. — 420 с. — ISBN 978-5-93972-623-8
- В. А. Таланов, Математические модели синтеза пептидных цепей и методы теории графов в расшифровке генетическиех текстов
Ссылки
[править | править код]- Биоинформатика. Рубрика «Наука» . ТАСС. — Читать все последние новости на тему. Дата обращения: 7 августа 2023.