Статья Автор: Деникина Н.В., Деникин А.В.

Локальное и глобальное выравнивание (модуль PairwiseAligner)

Выравнивание последовательностей — это процесс сравнения двух биологических последовательностей (например, ДНК, РНК или белков) для выявления областей сходства, которые могут указывать на функциональные, структурные или эволюционные связи.

Существует два основных типа выравнивания:

Глобальное выравнивание: Сравниваются последовательности по всей их длине. Применяется, если последовательности примерно одинаковой длины и ожидается их полное соответствие.
Локальное выравнивание: Выравниваются наиболее похожие подстроки внутри двух последовательностей. Используется для поиска областей сходства внутри длинных или сильно различающихся последовательностей.

2. Модуль PairwiseAligner

Модуль PairwiseAligner из библиотеки Biopython предоставляет инструменты для выполнения как локального, так и глобального выравнивания последовательностей с использованием матричного подхода.

3. Глобальное выравнивание

В глобальном выравнивании обе последовательности сравниваются по всей длине, включая вставки и пропуски (гэпы), чтобы добиться наилучшего совпадения.

Пример задачи

Выравнивание последовательностей:
```
Seq1: GATTACA 
Seq2: GCATGCU 
```

Основной алгоритм

Для глобального выравнивания часто используется алгоритм Нидлмана-Вунша. Он строит матрицу баллов, где сравниваются все возможные пары символов, и выбирается оптимальный путь.

Применение

Анализ эволюционной связи между видами.
Сравнение генов с высокой степенью консервативности.

4. Локальное выравнивание

В локальном выравнивании идентифицируются самые похожие участки двух последовательностей. Несовпадающие участки вне этих областей игнорируются.

Пример задачи

Выравнивание последовательностей:
```
Seq1: GATTACA 
Seq2: TAGACCA
```

Основной алгоритм

Для локального выравнивания используется алгоритм Смита-Ватермана. Он аналогичен алгоритму Нидлмана-Вунша, но в результате возвращает только те области, которые показывают наибольшее сходство.

Применение

Поиск гомологичных областей в геномах.
Анализ функциональных доменов белков.

5. Взвешивание совпадений, гэпов и замен

Оба алгоритма используют систему весов для определения качества выравнивания:

Совпадение (match): Положительный балл, если символы совпадают.
Замена (mismatch): Отрицательный балл за несовпадение.
Гэп (gap): Отрицательный балл за вставку или удаление символа.

Баллы задаются пользователем или берутся из стандартных таблиц (например, матрицы PAM или BLOSUM для белков).

6. Использование PairwiseAligner

Основные функции модуля:

aligner.align(seq1, seq2): Выравнивание с двух последовательностей.
aligner.match_score = 1: Балл за совпадение
aligner.mismatch_score: Балл за несовпадение
aligner.gap_score = gap_open : Устанавливаем штраф за открытие гэпа.
aligner.extend_gap_score = gap_extend : Устанавливаем штраф за продолжение гэпа
aligner.mode = 'global' : Устанавливаем режим глобального выравнивания

7. Примеры

Пример 1: Глобальное выравнивание

from Bio.Align import PairwiseAligner


seq1 ="ACGTACGT"
seq2 = "ACGGTCG"


aligner = PairwiseAligner()

aligner.mode = 'global'  # Устанавливаем режим глобального выравнивания

# Шаг 3. Глобальное выравнивание
alignments = aligner.align(seq1, seq2)

# Печать всех выравниваний
for alignment in alignments:
    print(alignment)

Пример результата:

G-ATTA-CA-
| | |  |  
GCA-T-GC-U
  Score=4

Пример 2: Локальное выравнивание

from Bio.Align import PairwiseAligner


seq1 ="ACGTACGT"
seq2 = "ACGGTCG"


aligner = PairwiseAligner()

aligner.mode = 'local'  # Устанавливаем режим глобального выравнивания

# Шаг 3. Глобальное выравнивание
alignments = aligner.align(seq1, seq2)

# Печать всех выравниваний
for alignment in alignments:
    print(alignment)

Пример результата:

4 TA--C-A
  ||  | |
1 TAGACCA
  Score=4

Загрузка...

Чтобы оставить комментарий, необходимо авторизоваться

💬

Пока нет комментариев. Будьте первым!

Печать