BLAST: различия между версиями

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
[отпатрулированная версия][непроверенная версия]
Содержимое удалено Содержимое добавлено
м Подстановка даты в шаблон:copyvio
м разделение параметров «authors» шаблонов {{cite journal}} по запросу
 
(не показано 35 промежуточных версий 21 участника)
Строка 3: Строка 3:
{{Карточка программы
{{Карточка программы
|name=BLAST
|name=BLAST
|developer= {{Iw|Стивен Альтшуль|||Stephen Altschul}}, {{Iw|Уоррен Гиш|||Warren Gish}}, {{Iw|Вебб Миллер|||Webb Miller}}, [[Майерс, Юджин|Юджин Майерс]] и {{Iw|Дэвид Липман|||David J. Lipman}} ([[NCBI]])
|developer=Altschul S.F., Gish W., Miller E.W., Lipman D.J., [[NCBI]]
|latest_release_version=2.2.24
|latest_release_version=2.13.0
|latest_release_date=08.08.2010
|latest_release_date=17.03.2022
|operating_system=[[UNIX]], [[Linux]], {{nobr|[[Apple Macintosh]]}}, {{nobr|[[Microsoft Windows]]}}
|operating_system=[[UNIX]], [[Linux]], {{nobr|[[Apple Macintosh]]}}, {{nobr|[[Microsoft Windows]]}}
|genre=Биоинформатика
|genre=Биоинформатика
|license=[[Public Domain]]
|license=[[Public Domain]]
|website=[ftp://ftp.ncbi.nlm.nih.gov/blast/ FTP сервер NCBI]
|website= ftp://ftp.ncbi.nlm.nih.gov/blast/
}}
}}


'''BLAST''' ({{lang-en|'''B'''asic '''L'''ocal '''A'''lignment '''S'''earch '''T'''ool}}) — семейство компьютерных программ, служащих для поиска [[Гомология (биология)|гомологов]] [[белок|белков]] или [[Нуклеиновая кислота|нуклеиновых кислот]], для которых известна первичная структура (последовательность) или её фрагмент. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с последовательностями из базы данных и найти последовательности предполагаемых гомологов. Является важнейшим инструментом для молекулярных биологов, биоинформатиков, систематиков.
'''BLAST''' ({{lang-en|'''B'''asic '''L'''ocal '''A'''lignment '''S'''earch '''T'''ool}} — средство поиска основного локального [[выравнивание последовательностей|выравнивания]]) — семейство компьютерных программ, служащих для поиска сходных [[белок|аминокислотных]] или [[Нуклеиновая кислота|нуклеотидных]] последовательностей<ref name="Pertsemlidis2001">{{cite journal |author1=Pertsemlidis A|author2=Fondon JW|title=Having a BLAST with bioinformatics (and avoiding BLASTphemy) |journal=Genome Biology |volume=2 |issue=10 |pages=reviews2002.1 |year=2001 |pmid=11597340 |doi=10.1186/gb-2001-2-10-reviews2002}}</ref>. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с последовательностями из базы данных и найти предполагаемые гомологи. Является важнейшим инструментом для молекулярных биологов, биоинформатиков и систематиков. Программа BLAST была разработана группой учёных: {{Iw|Стивен Альтшуль|||Stephen Altschul}}, {{Iw|Уоррен Гиш|||Warren Gish}}, {{Iw|Вебб Миллер|||Webb Miller}}, [[Майерс, Юджин|Юджин Майерс]] и {{Iw|Дэвид Липман|||David J. Lipman}} в системе [[Национальные институты здравоохранения США|Национальных институтов здравоохранения США]]. Первая публикация с описанием программы вышла в {{Iw|Журнал молекулярной биологии|Журнале молекулярной биологии||Journal of molecular biology}} в 1990 году<ref name="Altschul1990">{{cite journal |author1=Altschul SF |author2=Gish W |author3=Miller W |author4=Myers EW |author5=Lipman DJ |title=Basic local alignment search tool |journal=Journal of Molecular Biology |volume=215 |issue=3 |pages=403—410 |year=1990 |pmid=2231712 |doi=10.1016/S0022-2836(05)80360-2}}</ref>.

{{copyvio|http://ru.wikipedia.org/ruwiki/w/index.php?title=BLAST&diff=18783471&oldid=18783419|date=2011-04-06}}


== Классификация программ серии BLAST ==
== Классификация программ серии BLAST ==
Семейство программ серии BLAST делится на 4 основные группы:

Семейство программ серии BLAST делится на 5 основных групп:


=== Нуклеотидные ===
=== Нуклеотидные ===
предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированных нуклеиновых кислот и их участков:
предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированных геномов и их участков:


* megablast — быстрое сравнение с целью поиска высоко сходных последовательностей,
* megablast — быстрое сравнение с целью поиска высоко сходных последовательностей,
* dmegablast — быстрое сравнение с целью поиска дивергировавших последовательностей, обладающих незначительным сходством,
* discontiguous megablast — быстрое сравнение с целью поиска дивергировавших последовательностей, обладающих незначительным сходством,
* blastn — поиск относительно коротких последовательностей, обладающих незначительным сходством и др.
* blastn — медленное сравнение с целью поиска всех сходных последовательностей и др..


=== Белковые ===
=== Белковые ===
предназначены для сравнения изучаемой аминокислотной последовательности белка с имеющейся базой данных белков и их участков.
предназначены для сравнения изучаемой аминокислотной последовательности белка с имеющейся базой данных белков и их фрагментов.


* blastp — медленное сравнение с целью поиска всех сходных последовательностей,
* blastp — медленное сравнение с целью поиска всех сходных последовательностей,
* DELTA-BLAST — поиск последовательностей, обладающих незначительным сходством. Проводится сравнение запроса с базой данных консервативных доменов и построение позиционной таблицы счетов ({{lang-en|position-specific score matrix}}). Итоговый поиск в базах данных проводится с использованием полученной позиционной таблицы<ref name="Boratyn2012">{{cite journal |author1=Boratyn GM|author2=Schäffer AA|author3=Agarwala R|author4=Altschul SF|author5=Lipman DJ|author6=Madden TL|title=Domain enhanced lookup time accelerated BLAST |journal=Biology Direct |volume=7 |pages=12 |year=2012 |pmid=22510480 |doi=10.1186/1745-6150-7-12}}</ref>.
* cdart — сравнение с целью поиска гомологичных белков по доменной архитектуре,
* PSI-BLAST — сравнение с целью поиска последовательностей, обладающих незначительным сходством,
* rpsblast — сравнение с базой данных консервативных доменов,
* PHI-BLAST — поиск белков, содержащих определённый пользователем паттерн и др.
* psi-blast — сравнение с целью поиска последовательностей, обладающих незначительным сходством,
* phi-blast — поиск белков, содержащих определённый пользователем паттерн и др.


=== Транслирующие ===
=== Транслирующие ===
способны транслировать нуклеотидные последовательности в аминокислотные:
способны переводить нуклеотидные последовательности в аминокислотные и наоборот:


* blastx — переводит изучаемую нуклеотидную последовательность в кодируемые аминокислоты, а затем сравнивает её с имеющейся базой данных аминокислотных последовательностей белков,
* blastx — переводит изучаемую нуклеотидную последовательность в кодируемые аминокислоты, а затем сравнивает её с имеющейся базой данных аминокислотных последовательностей белков,
* tblastn — изучаемая аминокислотная последовательность сравнивается с транслированными последовательностями базы данных секвенированных нуклеиновых кислот,
* tblastn — изучаемая аминокислотная последовательность сравнивается с транслированными последовательностями базы данных секвенированных нуклеиновых кислот,
* tblastx — переводит изучаемую нуклеотидную последовательность в аминокислотную, а затем сравнивает её с транслированными последовательностями базы данных секвенированных нуклеиновых кислот.
* tblastx — переводит изучаемую нуклеотидную последовательность в аминокислотную, а затем сравнивает её с транслированными последовательностями базы данных секвенированных нуклеиновых кислот.

=== Геномные ===
предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированного генома какого-либо организма (человека, мыши и др.)


=== Специальные ===
=== Специальные ===
Строка 50: Строка 43:


* bl2seq — сопоставление двух последовательностей по принципу локальных выравниваний,
* bl2seq — сопоставление двух последовательностей по принципу локальных выравниваний,
* CDART — сравнение с целью поиска гомологичных белков по доменной архитектуре,
* magicblast — картирует прочтения (риды) на полный геном или транскриптом,
* VecScreen — определение сегментов нуклеотидной последовательности нуклеиновой кислоты, которые могут иметь векторное происхождение и др.
* VecScreen — определение сегментов нуклеотидной последовательности нуклеиновой кислоты, которые могут иметь векторное происхождение и др.


== Принципы работы BLAST ==
== Принципы работы BLAST ==

Все выравнивания принято делить на глобальные (последовательности сравниваются полностью) и локальные (сравниваются только определённые участки последовательностей). Программы серии BLAST производят локальные выравнивания, что связано с наличием в различных белках сходных доменов и паттернов. Кроме этого локальное выравнивание позволяет сравнить иРНК с геномной ДНК. В случае глобального выравнивания обнаруживается меньшее сходство последовательностей, особенно их доменов и паттернов.
Все выравнивания принято делить на глобальные (последовательности сравниваются полностью) и локальные (сравниваются только определённые участки последовательностей). Программы серии BLAST производят локальные выравнивания, что связано с наличием в различных белках сходных доменов и паттернов. Кроме этого локальное выравнивание позволяет сравнить иРНК с геномной ДНК. В случае глобального выравнивания обнаруживается меньшее сходство последовательностей, особенно их доменов и паттернов.


Строка 64: Строка 58:
При определении сходства ключевым элементом является матрица замен, так как она определяет показатели сходства для любой возможной пары нуклеотидов или аминокислот. В большинстве программ серии BLAST используется матрица BLOSUM62 (Blocks Substitution matrix 62 % identity, блоковая матрица замен с 62 % идентичности). Исключением являются blastn и megablast (программы, которые выполняют нуклеотид — нуклеотидные сравнения и не используют матрицы аминокислотных замен).
При определении сходства ключевым элементом является матрица замен, так как она определяет показатели сходства для любой возможной пары нуклеотидов или аминокислот. В большинстве программ серии BLAST используется матрица BLOSUM62 (Blocks Substitution matrix 62 % identity, блоковая матрица замен с 62 % идентичности). Исключением являются blastn и megablast (программы, которые выполняют нуклеотид — нуклеотидные сравнения и не используют матрицы аминокислотных замен).


С помощью модифицированных алгоритмов Смита-Уотермана или Селлерса определяются все пары сегментов (продленные «слова»), которые нельзя увеличить, так как это приведёт к уменьшению показателей сходства. Такие пары продленных «слов» называются парами сегментов с максимальным сходством (high-scoring segment pairs, HSP). В случае достаточно большой длины изучаемой последовательностей (m) и последовательности базы данных (n) показатели сходства HSP характеризуются двумя параметрами K (размера области поиска) и P (системы подсчёта). Эти показатели необходимо указывать при приведении показателей сходства изучаемой последовательности и последовательности базы данных (S).
С помощью модифицированных алгоритмов [[Алгоритм Смита — Ватермана|Смита-Уотермана]] или Селлерса определяются все пары сегментов (продленные «слова»), которые нельзя увеличить, так как это приведёт к уменьшению показателей сходства. Такие пары продленных «слов» называются парами сегментов с максимальным сходством (high-scoring segment pairs, HSP). В случае достаточно большой длины изучаемой последовательностей (m) и последовательности базы данных (n) показатели сходства HSP характеризуются двумя параметрами K (размера области поиска) и P (системы подсчёта). Эти показатели необходимо указывать при приведении показателей сходства изучаемой последовательности и последовательности базы данных (S).


Для сравнения показателей сходства различных выравниваний независимо от используемой матрицы, их необходимо преобразовать. Для получения преобразованного показателя сходства (числа битов, B) используют формулу:
Для сравнения показателей сходства различных выравниваний независимо от используемой матрицы, их необходимо преобразовать. Для получения преобразованного показателя сходства (числа битов, B) используют формулу:
Строка 72: Строка 66:
Величина B показывает, насколько сходны последовательности (чем больше число битов, тем больше сходство). Так как в формулу расчёта B заложены показатели К и P, то нет необходимости указывать их при приведении значений B. Величина E (Е-value), соответствующая показателю B, показывает достоверность данного выравнивания (чем ниже значение E, тем достовернее выравнивание). Она определяется по формуле:
Величина B показывает, насколько сходны последовательности (чем больше число битов, тем больше сходство). Так как в формулу расчёта B заложены показатели К и P, то нет необходимости указывать их при приведении значений B. Величина E (Е-value), соответствующая показателю B, показывает достоверность данного выравнивания (чем ниже значение E, тем достовернее выравнивание). Она определяется по формуле:


: <math>E = m\cdot n\cdot 2 - B </math>
: <math>E = m\cdot n\cdot 2^{-B} </math>


Программы BLAST преимущественно определяют значение E, а не P (вероятности наличия хотя бы одного HPS с показателем, превышающим или равным S). Но при E < 0,01 значения P и E почти идентичны.
Программы BLAST преимущественно определяют значение E, а не P (вероятности наличия хотя бы одного HSP с показателем, превышающим или равным S). Но при E < 0,01 значения P и E почти идентичны.


Величина E определяется по формуле (2) при сравнении лишь двух аминокислотных или нуклеотидных последовательностей. Сравнение изучаемой последовательности длиной m с множеством последовательностей базы данных может основываться на двух положениях. Первое положение состоит в том, что все последовательности базы данных одинаково сходны с изучаемой. Это подразумевает, что значение E для выравнивания с короткой последовательностью, содержащейся в базе данных, следует приравнять со значением E для выравнивания с длинной последовательностью. Для вычисления значения E по базе данных необходимо умножить значение E, полученное при попарном сравнении, на число последовательностей в ней. Второе положение заключается в том, что изучаемая последовательность более сходна с короткими, а не с длинными последовательностями, потому что последние часто состоят из различных участков (многие белки состоят из доменов). Если предположить, что вероятность сходства пропорциональна длине последовательности, то попарное значение E для последовательности базы данных длиной n надо умножить на N/n, где N — общая длина аминокислот или нуклеотидов в базе данных. Программы BLAST преимущественно используют этот подход для вычисления значений E по базе данных.
Величина E определяется по формуле (2) при сравнении лишь двух аминокислотных или нуклеотидных последовательностей. Сравнение изучаемой последовательности длиной m с множеством последовательностей базы данных может основываться на двух положениях. Первое положение состоит в том, что все последовательности базы данных одинаково сходны с изучаемой. Это подразумевает, что значение E для выравнивания с короткой последовательностью, содержащейся в базе данных, следует приравнять со значением E для выравнивания с длинной последовательностью. Для вычисления значения E по базе данных необходимо умножить значение E, полученное при попарном сравнении, на число последовательностей в ней. Второе положение заключается в том, что изучаемая последовательность более сходна с короткими, а не с длинными последовательностями, потому что последние часто состоят из различных участков (многие белки состоят из доменов). Если предположить, что вероятность сходства пропорциональна длине последовательности, то попарное значение E для последовательности базы данных длиной n надо умножить на N/n, где N — общая длина аминокислот или нуклеотидов в базе данных. Программы BLAST преимущественно используют этот подход для вычисления значений E по базе данных.
Строка 82: Строка 76:
== См. также ==
== См. также ==
* [[PSI Protein Classifier]]
* [[PSI Protein Classifier]]

== Примечания ==
{{примечания}}


== Ссылки ==
== Ссылки ==
* [http://blast.ncbi.nlm.nih.gov/Blast.cgi NCBI Blast]{{ref-en}}
* [http://blast.ncbi.nlm.nih.gov/Blast.cgi NCBI Blast]{{ref-en}}
* [http://microarray.ru/?cat=11 уроки по работе с NCBI BLAST на русском]
* [http://biochem.bio.msu.ru/assets/files/bioinformatics/bioinfo7_08.ppt Презентация о BLAST на русском]
* [http://biochem.bio.msu.ru/assets/files/bioinformatics/bioinfo7_08.ppt Презентация о BLAST на русском]


Строка 91: Строка 87:
[[Категория:Молекулярная биология]]
[[Категория:Молекулярная биология]]
[[Категория:Научное программное обеспечение]]
[[Категория:Научное программное обеспечение]]

[[ca:BLAST]]
[[de:BLAST-Algorithmus]]
[[en:BLAST]]
[[es:BLAST]]
[[fa:بلاست]]
[[fr:Basic Local Alignment Search Tool]]
[[is:BLAST]]
[[it:Basic local alignment search tool]]
[[ja:BLAST]]
[[nl:BLAST]]
[[no:Blast]]
[[pt:BLAST]]
[[sv:BLAST]]
[[vi:BLAST]]
[[zh:BLAST (生物資訊學)]]

Текущая версия от 10:23, 10 декабря 2023

BLAST
Скриншот программы BLAST
Тип Биоинформатика
Разработчики Стивен Альтшуль[англ.], Уоррен Гиш[англ.], Вебб Миллер[англ.], Юджин Майерс и Дэвид Липман[англ.] (NCBI)
Написана на C++ и Си
Операционные системы UNIX, Linux, Apple Macintosh, Microsoft Windows
Последняя версия 2.13.0 (17.03.2022)
Лицензия Public Domain
Сайт ftp.ncbi.nlm.nih.gov/bla…

BLAST (англ. Basic Local Alignment Search Tool — средство поиска основного локального выравнивания) — семейство компьютерных программ, служащих для поиска сходных аминокислотных или нуклеотидных последовательностей[1]. Используя BLAST, исследователь может сравнить имеющуюся у него последовательность с последовательностями из базы данных и найти предполагаемые гомологи. Является важнейшим инструментом для молекулярных биологов, биоинформатиков и систематиков. Программа BLAST была разработана группой учёных: Стивен Альтшуль[англ.], Уоррен Гиш[англ.], Вебб Миллер[англ.], Юджин Майерс и Дэвид Липман[англ.] в системе Национальных институтов здравоохранения США. Первая публикация с описанием программы вышла в Журнале молекулярной биологии[англ.] в 1990 году[2].

Классификация программ серии BLAST

[править | править код]

Семейство программ серии BLAST делится на 4 основные группы:

Нуклеотидные

[править | править код]

предназначены для сравнения изучаемой нуклеотидной последовательности с базой данных секвенированных геномов и их участков:

  • megablast — быстрое сравнение с целью поиска высоко сходных последовательностей,
  • discontiguous megablast — быстрое сравнение с целью поиска дивергировавших последовательностей, обладающих незначительным сходством,
  • blastn — поиск относительно коротких последовательностей, обладающих незначительным сходством и др.

предназначены для сравнения изучаемой аминокислотной последовательности белка с имеющейся базой данных белков и их фрагментов.

  • blastp — медленное сравнение с целью поиска всех сходных последовательностей,
  • DELTA-BLAST — поиск последовательностей, обладающих незначительным сходством. Проводится сравнение запроса с базой данных консервативных доменов и построение позиционной таблицы счетов (англ. position-specific score matrix). Итоговый поиск в базах данных проводится с использованием полученной позиционной таблицы[3].
  • PSI-BLAST — сравнение с целью поиска последовательностей, обладающих незначительным сходством,
  • PHI-BLAST — поиск белков, содержащих определённый пользователем паттерн и др.

Транслирующие

[править | править код]

способны переводить нуклеотидные последовательности в аминокислотные и наоборот:

  • blastx — переводит изучаемую нуклеотидную последовательность в кодируемые аминокислоты, а затем сравнивает её с имеющейся базой данных аминокислотных последовательностей белков,
  • tblastn — изучаемая аминокислотная последовательность сравнивается с транслированными последовательностями базы данных секвенированных нуклеиновых кислот,
  • tblastx — переводит изучаемую нуклеотидную последовательность в аминокислотную, а затем сравнивает её с транслированными последовательностями базы данных секвенированных нуклеиновых кислот.

Специальные

[править | править код]

прикладные программы, использующие BLAST:

  • bl2seq — сопоставление двух последовательностей по принципу локальных выравниваний,
  • CDART — сравнение с целью поиска гомологичных белков по доменной архитектуре,
  • magicblast — картирует прочтения (риды) на полный геном или транскриптом,
  • VecScreen — определение сегментов нуклеотидной последовательности нуклеиновой кислоты, которые могут иметь векторное происхождение и др.

Принципы работы BLAST

[править | править код]

Все выравнивания принято делить на глобальные (последовательности сравниваются полностью) и локальные (сравниваются только определённые участки последовательностей). Программы серии BLAST производят локальные выравнивания, что связано с наличием в различных белках сходных доменов и паттернов. Кроме этого локальное выравнивание позволяет сравнить иРНК с геномной ДНК. В случае глобального выравнивания обнаруживается меньшее сходство последовательностей, особенно их доменов и паттернов.

После введения изучаемой нуклеотидной или аминокислотной последовательности (запрос) на одну из веб-страниц BLAST, она вместе с другой входной информацией (база данных, размера «слова» (участка), значение величины E и др.) поступает на сервер. BLAST создаёт таблицу всех «слов» (в белке — это участок последовательностей, который по умолчанию состоит из трёх аминокислот, а для нуклеиновых кислот из 11 нуклеотидов) и сходных «слов».

Затем в базе данных проводится их поиск. Когда обнаруживается соответствие, то делается попытка продлить размеры «слова» (до 4 и более аминокислот и 12 и более нуклеотидов) сначала без гэпов (пробелов), а затем с их использованием. После максимального продления размеров всех возможных «слов» изучаемой последовательности, определяются выравнивания с максимальным количеством совпадений для каждой пары запрос — последовательность базы данных, и полученная информация фиксируется в структуре SeqAlign. Форматер, расположенный на сервере BLAST, использует информацию из SeqAlign и представляет её различными способами (традиционным, графическим, в виде таблицы).

Для каждой обнаруженной в базе данных программами BLAST последовательности необходимо определить, насколько она сходна с изучаемой последовательностью (запрос) и значимо ли это сходство. Для этого BLAST вычисляет число битов и величину Е (expected value, E-value) для каждой пары последовательностей.

При определении сходства ключевым элементом является матрица замен, так как она определяет показатели сходства для любой возможной пары нуклеотидов или аминокислот. В большинстве программ серии BLAST используется матрица BLOSUM62 (Blocks Substitution matrix 62 % identity, блоковая матрица замен с 62 % идентичности). Исключением являются blastn и megablast (программы, которые выполняют нуклеотид — нуклеотидные сравнения и не используют матрицы аминокислотных замен).

С помощью модифицированных алгоритмов Смита-Уотермана или Селлерса определяются все пары сегментов (продленные «слова»), которые нельзя увеличить, так как это приведёт к уменьшению показателей сходства. Такие пары продленных «слов» называются парами сегментов с максимальным сходством (high-scoring segment pairs, HSP). В случае достаточно большой длины изучаемой последовательностей (m) и последовательности базы данных (n) показатели сходства HSP характеризуются двумя параметрами K (размера области поиска) и P (системы подсчёта). Эти показатели необходимо указывать при приведении показателей сходства изучаемой последовательности и последовательности базы данных (S).

Для сравнения показателей сходства различных выравниваний независимо от используемой матрицы, их необходимо преобразовать. Для получения преобразованного показателя сходства (числа битов, B) используют формулу:

Величина B показывает, насколько сходны последовательности (чем больше число битов, тем больше сходство). Так как в формулу расчёта B заложены показатели К и P, то нет необходимости указывать их при приведении значений B. Величина E (Е-value), соответствующая показателю B, показывает достоверность данного выравнивания (чем ниже значение E, тем достовернее выравнивание). Она определяется по формуле:

Программы BLAST преимущественно определяют значение E, а не P (вероятности наличия хотя бы одного HSP с показателем, превышающим или равным S). Но при E < 0,01 значения P и E почти идентичны.

Величина E определяется по формуле (2) при сравнении лишь двух аминокислотных или нуклеотидных последовательностей. Сравнение изучаемой последовательности длиной m с множеством последовательностей базы данных может основываться на двух положениях. Первое положение состоит в том, что все последовательности базы данных одинаково сходны с изучаемой. Это подразумевает, что значение E для выравнивания с короткой последовательностью, содержащейся в базе данных, следует приравнять со значением E для выравнивания с длинной последовательностью. Для вычисления значения E по базе данных необходимо умножить значение E, полученное при попарном сравнении, на число последовательностей в ней. Второе положение заключается в том, что изучаемая последовательность более сходна с короткими, а не с длинными последовательностями, потому что последние часто состоят из различных участков (многие белки состоят из доменов). Если предположить, что вероятность сходства пропорциональна длине последовательности, то попарное значение E для последовательности базы данных длиной n надо умножить на N/n, где N — общая длина аминокислот или нуклеотидов в базе данных. Программы BLAST преимущественно используют этот подход для вычисления значений E по базе данных.

Теоретически локальное выравнивание может начинаться с любой пары нуклеотидов или аминокислот выровненных последовательностей. Однако HPS, как правило, не начинаются близко к краю (началу или концу) последовательностей. Для коррекции такого краевого эффекта необходимо вычислять эффективную длину последовательностей. В случае последовательностей длиной более 200 остатков происходит нейтрализация краевого эффекта.

Примечания

[править | править код]
  1. Pertsemlidis A; Fondon JW (2001). "Having a BLAST with bioinformatics (and avoiding BLASTphemy)". Genome Biology. 2 (10): reviews2002.1. doi:10.1186/gb-2001-2-10-reviews2002. PMID 11597340.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)
  2. Altschul SF; Gish W; Miller W; Myers EW; Lipman DJ (1990). "Basic local alignment search tool". Journal of Molecular Biology. 215 (3): 403—410. doi:10.1016/S0022-2836(05)80360-2. PMID 2231712.
  3. Boratyn GM; Schäffer AA; Agarwala R; Altschul SF; Lipman DJ; Madden TL (2012). "Domain enhanced lookup time accelerated BLAST". Biology Direct. 7: 12. doi:10.1186/1745-6150-7-12. PMID 22510480.{{cite journal}}: Википедия:Обслуживание CS1 (не помеченный открытым DOI) (ссылка)