バイオ・メディカル

慢性C型肝炎 免疫療法の対訳学習(核酸・アミノ酸の類似配列検索)

自力翻訳した以下の明細書について記事を書きます。

【公表番号】特表2012-503011(P2012-503011A)
【公表日】平成24年2月2日(2012.2.2)
【発明の名称】慢性C型肝炎ウイルス感染の免疫療法

今回は、核酸・アミノ酸の類似配列検索に関わる部分について取り上げます。
自力翻訳で、かなりの時間を要した部分です。

BLASTを用いた核酸・アミノ酸の配列検索

明細書の以下の部分について、自力訳と公開訳を比較します。

  As used herein, unless otherwise specified, reference to a percent (%) identity refers to an evaluation of homology which is performed using: (1) a BLAST 2.0 Basic BLAST homology search using blastp for amino acid searches and blastn for nucleic acid searches with standard default parameters, wherein the query sequence is filtered for low complexity regions by default (described in Altschul, S.F., Madden, T.L., SchaSffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, DJ. (1997) “Gapped BLAST and PSI- BLAST: a new generation of protein database search programs.” Nucleic Acids Res. 25:3389-3402, incorporated herein by reference in its entirety); (2) a BLAST 2 alignment (using the parameters described below); (3) and/or PSI-BLAST with the standard default parameters (Position-Specific Iterated BLAST. It is noted that due to some differences in the standard parameters between BLAST 2.0 Basic BLAST and BLAST 2, two specific sequences might be recognized as having significant homology using the BLAST 2 program, whereas a search performed in BLAST 2.0 Basic BLAST using one of the sequences as the query sequence may not identify the second sequence in the top matches. In addition, PSI-BLAST provides an automated, easy-to-use version of a “profile” search, which is a sensitive way to look for sequence homologues. The program first performs a gapped BLAST database search.The PSI-BLAST program uses the information from any significant alignments returned to construct a position-specific score matrix, which replaces the query sequence for the next round of database searching. Therefore, it is to be understood that percent identity can be determined by using any one of these programs.
Two specific sequences can be aligned to one another using BLAST 2 sequence as described in Tatusova and Madden, (1999), “Blast 2 sequences – a new tool for comparing protein and nucleotide sequences”, FEMS Microbiol Lett. 174:247-250, incorporated herein by reference in its entirety. BLAST 2 sequence alignment is performed in blastp or blastn using the BLAST 2.0 algorithm to perform a Gapped BLAST search (BLAST 2.0) between the two sequences allowing for the introduction of gaps (deletions and insertions) in the resulting alignment. For purposes of clarity herein, a BLAST 2 sequence alignment is performed using the standard default parameters as follows.
For blastn, using 0 BLOSUM62 matrix:
Reward for match = 1
Penalty for mismatch = -2
Open gap (5) and extension gap (2) penalties
gap x dropoff (50) expect (10) word size (11) filter (on)

For blastp, using 0 BLOSUM62 matrix:
Open gap (11) and extension gap (1) penalties
gap x_dropoff (50) expect (10) word size (3) filter (on).

長文なので、1~2文ずつ公開訳と自分訳を比較します。気づきや不明点があればコメントを書いています。

公開訳と比較

①reference to ~refers to…

As used herein, unless otherwise specified, reference to a percent (%) identity refers to an evaluation of homology which is performed using:

公開訳:本明細書において用いる場合、他に特定しない限り、同一性(%)という言及は、以下を用いて行われる相同性の評価を指す

自分訳:本明細書で使用する場合、パーセント(%)同一性は、他に明示されない限り、以下を用いて実施される相同性の評価によるものである。

BLAST(Basic Local Alignment Search Tool)を実施して、2つのアミノ酸の間の類似性(パーセント同一性)を調べます。

最初は、公開訳と同じように「パーセント同一性(%)という言及は、相同性の評価を指す」と訳出しました。

しかし、「言及が、~を指す」という表現が不自然であると感じ、いくつか候補訳を考えた結果、上記の自分訳のようにしました。

②a BLAST 2.0 Basic BLAST homology search

(1) a BLAST 2.0 Basic BLAST homology search using blastp for amino acid searches and blastn for nucleic acid searches with standard default parameters, wherein the query sequence is filtered for low complexity regions by default (described in Altschul, S.F., Madden, T.L., SchaSffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, DJ. (1997) “Gapped BLAST and PSI- BLAST: a new generation of protein database search programs.” Nucleic Acids Res. 25:3389-3402, incorporated herein by reference in its entirety);

公開訳:(1)アミノ酸検索のためにはblastp及び核酸検索のためにはblastnを用いる(標準デフォルトパラメータによる)BLAST 2.0 Basic BLAST相同性検索、ここでクエリー配列は、デフォルトによって低い複雑性領域についてフィルタリングされる;

自力訳:(1)アミノ酸検索用のblastpと、核酸検索用のblastnとを標準的なデフォルトパラメータで用いた、BLAST 2.0 Basic BLAST相同性検索(クエリ配列は、デフォルトで低複雑度領域がフィルタリングされる)、

※分かりやすくするため、原文のカッコ内に対する訳は省略して示しています。

2-1  low complexity region

“low complexity region”は、「低複雑性領域(低複雑度領域)」といい、これを解析対象から除き(フィルタリングし)ます。

低複雑度領域により、異常に高いスコアで一致する場合があるためです。

低複雑度領域の例としては、ポリA鎖(核からのmRNA輸送を促進したり、mRNAを分解から保護したりする役割をもつ)というアデニンヌクレオチドの繰り返し配列が挙げられます。

該当する部分は、塩基配列なら”N”、タンパク質なら”X”などで置き換えられます。

2-2  homology:相同性について

「相同性」について調べました。

「相同性」という言葉は、2つの配列間で「類似している領域が多い」ことから、「共通の祖先に由来すること」をいいます。

したがって、相同性は「ある」か「ない」かのどちらかであって、「この配列間には30%の相同性がある」、「高い相同性がある」などという表現自体、不自然であることが分かりました。

「●%相同性」などという表現が用いられるようになったのは、BLASTなどの配列類似性の検索に、”homology search”という語が使用されていることも一因として考えられるとか。

ちなみに、私は「相同性検索」と訳出しましたが、「ホモロジー検索」で検索しても多くヒットします。

相同性について、詳しくは以下が参考になります。
https://www.jstage.jst.go.jp/article/jpros/1/2/1_63/_pdf/-char/ja

2-3  a BLAST 2.0 Basic BLAST homology search

訳出時は”BLAST 2.0 Basic BLAST”がBLASTのバージョン名であると思い込み、そのまま記載しました。

しかし、改めて調べると、BLASTトップ画面に”Basic BLAST(基本的なBLAST検索)”という項目があることが分かりました。

以下をみると、BLAST 2.0にも”Basic BLAST”があることがわかります。

https://bio.davidson.edu/courses/Molbio/searchYFP.html
https://bio.davidson.edu/courses/Molbio/websearch/SearchingNCBI.html

これを知らずに訳出していたのですから、完全に調査不足でした。

“a BLAST 2.0 Basic BLAST homology search”は、「BLAST 2.0の基本的なBLAST検索(Basic BLAST)による相同性検索」などとする方が良かったでしょうか。

1つの名詞になっているので、「BLAST 2.0 Basic BLAST相同性検索」の方がスッキリした感じがしますが。

③PSI-BLAST

(2) a BLAST 2 alignment (using the parameters described below);(3) and/or PSI-BLAST with the standard default parameters (Position-Specific Iterated BLAST.

公開訳:(2)BLAST 2アラインメント(下記のパラメータを用いる);(3)及び/又は標準的なデフォルトパラメータによるPSI-BLAST(Position-Specific Iterated BLAST)。

自分訳:(2)BLAST2アラインメント(後述するパラメータを用いる)、及び/又は(3)標準的なデフォルトパラメータを用いたPSI-BLAST(Position-Specific Iterated BLAST)。

3-1  BLAST 2 alignment

“alignment(アラインメント)”は、2つのアミノ酸配列を「整列化」することをいいます。

例えば、MIGMMITという配列とMIIGMITという配列があるとします。これらを整列化すると、図のようになります。

図で赤い「-」が入ることによって、2つの配列を対応付けるように整列化させることができます。この「-」部分を「ギャップ」といいます。

3-2  PSI-BLAST

PSI-BLAST(Position Specific Iterated BLAST)は、BLASTを使った新しい配列検出方法です。

BLAST検索で返された結果の中から特定の配列を選択して、再度検索を繰り返すというプログラムです。

選択するのは、アミノ酸配列の保存性が高い(進化の過程で変化することなく維持されている)、重要であると考えられる部分です。

検索を繰り返すことで、1回目のBLAST検索では検出できなかった配列を検出することができるようになります。

上の図に”profile”と書いていますが、これについては後ほど書きます。

④BLAST 2.0 Basic BLAST and BLAST 2

It is noted that due to some differences in the standard parameters between BLAST 2.0 Basic BLAST and BLAST 2, two specific sequences might be recognized as having significant homology using the BLAST 2 program, whereas a search performed in BLAST 2.0 Basic BLAST using one of the sequences as the query sequence may not identify the second sequence in the top matches.

公開訳:BLAST 2.0 Basic BLASTBLAST 2との間の標準的パラメータにおけるいくつかの相違に起因して、2つの特異的な配列が、BLAST2プログラムを用いて有意な相同性を有すると認識される場合があるが、クエリー配列として配列の1つを用いてBLAST 2.0 Basic BLASTで行われる検索は、第2の配列をトップマッチで特定し得ない。

自分訳:BLAST 2.0 Basic BLASTと、BLAST 2との間に、標準的なパラメータにいくつか違いがあるため、BLAST2プログラムを用いると2つの特定の配列がかなりの相同性を有すると認識される場合があるが、これらの配列のうち1つをクエリ配列としてBLAST 2.0 Basic BLASTで検索すると、2つ目の配列を上位マッチとして認識しない場合があることに留意されたい。

改訳:BLAST 2.0 Basic BLASTと、BLAST 2アラインメントとでは、標準的なパラメータにいくつか違いがあるため、BLAST2アラインメントプログラムを用いると2つの特定の配列に有意な類似性があると認識される可能性があるのに対して、これらの配列のうち1つをクエリ配列としてBLAST 2.0 Basic BLASTで検索すると、2つ目の配列が上位マッチとして認識されない場合があることに留意されたい。

訳出時は、”BLAST 2.0 Basic BLAST”がプログラム名であると考え、”BLAST 2.0 Basic BLAST”と”BLAST 2″という別のプログラムがあると思い込んでいました。

“BLAST 2″が前述の「BLAST 2アラインメント」を指しているとも考えていませんでした。

改訳では、「BLAST 2」だけでは分かりにくいと感じ「アラインメント」と補ったのですが、やりすぎでしょうか。

また、BLASTは配列類似性をデータベースと比較して統計的な有意性を計算するものであるため、”significant”に対する訳語は「かなりの」から「有意の」に修正しました。

この一文は、”BLAST 2.0″で基本的な検索(Basic BLAST)をするか、あるいは配列を整列化させるか(BLAST 2アラインメントをするか)を比較していることが分かります。

時間をかけたにも関わらず、最終的には機械的に訳出していました。

⑤profile

In addition, PSI-BLAST provides an automated, easy-to-use version of a “profile” search, which is a sensitive way to look for sequence homologues. The program first performs a gapped BLAST database search.

公開訳:さらに、PSI-BLASTは、配列相同体を探す鋭敏な方法である「プロフィール」検索の自動化された簡便版を提供する。このプログラムは最初に、ギャップのあるBLASTデータベース検索を行う。

自分訳:さらに、PSI-BLASTでは、配列相同体を調べる高感度な方法である「プロフィール」検索の、自動化された利用しやすいバージョンが提供されている。このプログラムでは、まずギャップを含むBLASTデータベース検索を行う。

5-1  位置特異的スコア行列とprofile


画像引用元:https://www.people.vcu.edu/~elhaij/IntroBioinf/Notes/PSSM.pdf

“profile(プロフィール)”は、ギャップを含めて複数の配列をアラインメントして、それぞれの配列要素の出現頻度を計算して作った「位置特異的スコア行列(position-specific scoring matrices)」のことをいいます。

上の画像では、出現頻度に基づいて位置特異的スコア行列が作られています。

赤く塗られているものは頻度が高いことが分かります。また、conserved sequence(保存配列)であると書かれています。

解析対象の配列で出現頻度が高いことから、進化の過程で変化せず保存されている配列であると考えられる、ということです。

⑥the query sequence

The PSI-BLAST program uses the information from any significant alignments returned to construct a position-specific score matrix, which replaces the query sequence for the next round of database searching. Therefore, it is to be understood that percent identity can be determined by using any one of these programs.

公開訳:このPSI-BLASTプログラムは、位置特異的なスコアマトリックスを構築するように戻された任意の有意なアラインメントからの情報を用い、このマトリックスは次回のデータベース検索のためにクエリー配列を置き換える。従って、同一性割合はこれらのプログラムのいずれか1つを用いることによって決定され得ることが理解されるべきである。

自分訳:PSI-BLASTプログラムでは、返された有意性のある任意のアラインメントの情報を使用して位置特異的スコア行列を作成し、最初のクエリ配列の代わりに、この位置特異的スコア行列を使用して次のデータベース検索を行う。したがって、パーセント同一性は、これらのプログラムのいずれか1つを用いて決定できることを理解すべきである。

“the query sequence”について。

「クエリ配列」だけでは、1回目の検索時に用いた配列であると分かりずらいと考え、「最初のクエリ配列」としたのですが、余計な補いでしょうか…。

⑦BLAST 2 sequence

Two specific sequences can be aligned to one another using BLAST 2 sequence as described in Tatusova and Madden, (1999), “Blast 2 sequences – a new tool for comparing protein and nucleotide sequences”, FEMS Microbiol Lett. 174:247-250, incorporated herein by reference in its entirety.

公開訳:2つの特異的な配列は、Tatusova及びMadden,(1999),“Blast 2 sequences - a new tool for comparing protein and nucleotide sequences”,FEMS Microbiol Lett.174:247-250(その全体が参照により本明細書に援用される)に記載されるようなBLAST 2配列を用いて別の配列に対して整列され得る。

自分訳:TatusovaおよびMadden著、1999年、「Blast 2 sequences - A new tool for comparing Protein and nucleotide sequences」、FEMS Microbiol Lett.誌、第174巻247~250ページ(その全体が本明細書に参照として組み込まれる)に記載されるBLAST 2 sequenceを用いて、2つの特定の配列を互いに整列化させることができる。

以下の記事を読むと、「すでに相同であることが既知である2つの配列間だけを比較する」ための新たなツールとして、BLAST 2 sequencesというものがあることが分かります。

https://pubmed.ncbi.nlm.nih.gov/10339815/

したがって、「2つの特異的な配列を別の配列に対して整列する」という公開訳は、やや不自然であると感じます。

⑧BLAST 2 sequence alignment

BLAST 2 sequence alignment is performed in blastp or blastn using the BLAST 2.0 algorithm to perform a Gapped BLAST search (BLAST 2.0) between the two sequences allowing for the introduction of gaps (deletions and insertions) in the resulting alignment.

公開訳:BLAST 2配列アラインメントを、BLAST2.0アルゴリズムを用いてblastp又はblastnで行い、2つの配列間のGapped BLAST検索(BLAST 2.0)を行って、得られたアラインメントにおけるギャップ(欠失及び挿入)の導入を可能にする

自分訳:BLAST2.0アルゴリズムを用いてblastpまたはblastnでBLAST2配列アラインメント行うことで、2つの配列間でGapped BLAST検索(BLAST2.0)を実施することができる。BLAST2.0は、得られたアラインメントにおけるギャップ(欠失および挿入)の導入を許容するものである

この一文の訳出は、自信がありません。

“BLAST 2 sequence alignment”は、前文の”Blast 2 sequences”というツールを指しているのではなく、「BLAST2(Blast 2 sequences)配列アラインメントを行うこと」を意味していると考えたのですが、これは正しいのでしょうか。

⑨BLAST 2 sequence alignment

For purposes of clarity herein, a BLAST 2 sequence alignment is performed using the standard default parameters as follows.

公開訳:本明細書における明確化の目的のために、以下のように標準デフォルトパラメータを用いてBLAST 2配列アラインメントを行う。

自分訳:本明細書では、明瞭に理解できるように、以下の通り標準的なデフォルトパラメータを用いてBLAST2配列アラインメントを行う。

⑩standard default parameters

For blastn, using 0 BLOSUM62 matrix: Reward for match = 1 Penalty for mismatch = -2 Open gap (5) and extension gap (2) penalties gap x dropoff (50) expect (10) word size (11) filter (on) For blastp, using 0 BLOSUM62 matrix: Open gap (11) and extension gap (1) penalties gap x_dropoff (50) expect (10) word size (3) filter (on).

公開訳:
blastnについては、0 BLOSUM62マトリックスを用いる:
マッチに対するリウォード(報酬)=1
ミスマッチに対するペナルティ=-2
オープンギャップ(5)及びエクステンションギャップ(2)ペナルティ
ギャップx_ドロップオフ(50)期待値(10)ワードサイズ(11)フィルター(オン)
blastpについては、0 BLOSUM62マトリックスを用いる:
オープンギャップ(11)及びエクステンションギャップ(1)ペナルティ
ギャップx_ドロップオフ(50)期待値(10)ワードサイズ(3)フィルター(オン)。

自分訳:
blastnの場合、0 BLOSUM62行列を用いる:
Reward for match=1
Penalty for mismatch=-2
Open gap(5) and extension gap(2)penalties
gap x dropoff(50)expect(10) word size(11)filter(on)
blastpの場合、0 BLOSUM62行列を用いる:
Open gap(11) and extension gap(1)penalties
gap x dropoff(50)expect (10)word size(3)filter(on)。

前文の説明の通り、BLAST2アラインメントにおけるデフォルトパラメータが挙げられています。

調べてみると、パラメータをそのまま英語で記載している資料も多いのですが、公開訳のように全て訳出する方が良かったのでしょうか。

また、「0 BLOSUM62」が良く分かりません。「BLOSUM62 が 0」という意味なら、「BLOSUM62を使用しない」ということなのでしょうか?

だとすると「0 BLOSUM62行列を用いる」というのは不自然です。

パラメータについては現時点では調査不足なので、今後新たに分かることがあれば追記します。

全体

これまでに紹介した公開訳と自分訳の全体を示します(【0001】などの番号は省略します)。

  As used herein, unless otherwise specified, reference to a percent (%) identity refers to an evaluation of homology which is performed using: (1) a BLAST 2.0 Basic BLAST homology search using blastp for amino acid searches and blastn for nucleic acid searches with standard default parameters, wherein the query sequence is filtered for low complexity regions by default (described in Altschul, S.F., Madden, T.L., SchaSffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, DJ. (1997) “Gapped BLAST and PSI- BLAST: a new generation of protein database search programs.” Nucleic Acids Res. 25:3389-3402, incorporated herein by reference in its entirety); (2) a BLAST 2 alignment (using the parameters described below); (3) and/or PSI-BLAST with the standard default parameters (Position-Specific Iterated BLAST. It is noted that due to some differences in the standard parameters between BLAST 2.0 Basic BLAST and BLAST 2, two specific sequences might be recognized as having significant homology using the BLAST 2 program, whereas a search performed in BLAST 2.0 Basic BLAST using one of the sequences as the query sequence may not identify the second sequence in the top matches. In addition, PSI-BLAST provides an automated, easy-to-use version of a “profile” search, which is a sensitive way to look for sequence homologues. The program first performs a gapped BLAST database search.The PSI-BLAST program uses the information from any significant alignments returned to construct a position-specific score matrix, which replaces the query sequence for the next round of database searching. Therefore, it is to be understood that percent identity can be determined by using any one of these programs.
Two specific sequences can be aligned to one another using BLAST 2 sequence as described in Tatusova and Madden, (1999), “Blast 2 sequences – a new tool for comparing protein and nucleotide sequences”, FEMS Microbiol Lett. 174:247-250, incorporated herein by reference in its entirety. BLAST 2 sequence alignment is performed in blastp or blastn using the BLAST 2.0 algorithm to perform a Gapped BLAST search (BLAST 2.0) between the two sequences allowing for the introduction of gaps (deletions and insertions) in the resulting alignment. For purposes of clarity herein, a BLAST 2 sequence alignment is performed using the standard default parameters as follows.
For blastn, using 0 BLOSUM62 matrix:
Reward for match = 1
Penalty for mismatch = -2
Open gap (5) and extension gap (2) penalties
gap x dropoff (50) expect (10) word size (11) filter (on)

For blastp, using 0 BLOSUM62 matrix:
Open gap (11) and extension gap (1) penalties
gap x_dropoff (50) expect (10) word size (3) filter (on).

公開訳:

本明細書において用いる場合、他に特定しない限り、同一性(%)という言及は、以下を用いて行われる相同性の評価を指す:(1)アミノ酸検索のためにはblastp及び核酸検索のためにはblastnを用いる(標準デフォルトパラメータによる)BLAST 2.0 Basic BLAST相同性検索、ここでクエリー配列は、デフォルトによって低い複雑性領域についてフィルタリングされる(その全体が参照により本明細書に援用される、Altschul,S.F.,Madden,T.L.,Schaaffer,A.A.,Zhang,J.,Zhang,Z.,Miller,W.& Lipman,D.J.(1997)“Gapped BLAST and PSI- BLAST:a new generation of protein database search programs.”Nucleic Acids Res.25:3389~3402);(2)BLAST 2アラインメント(下記のパラメータを用いる);(3)及び/又は標準的なデフォルトパラメータによるPSI-BLAST(Position-Specific Iterated BLAST)。BLAST 2.0 Basic BLASTとBLAST 2との間の標準的パラメータにおけるいくつかの相違に起因して、2つの特異的な配列が、BLAST2プログラムを用いて有意な相同性を有すると認識される場合があるが、クエリー配列として配列の1つを用いてBLAST 2.0 Basic BLASTで行われる検索は、第2の配列をトップマッチで特定し得ない。さらに、PSI-BLASTは、配列相同体を探す鋭敏な方法である「プロフィール」検索の自動化された簡便版を提供する。このプログラムは最初に、ギャップのあるBLASTデータベース検索を行う。このPSI-BLASTプログラムは、位置特異的なスコアマトリックスを構築するように戻された任意の有意なアラインメントからの情報を用い、このマトリックスは次回のデータベース検索のためにクエリー配列を置き換える。従って、同一性割合はこれらのプログラムのいずれか1つを用いることによって決定され得ることが理解されるべきである。
2つの特異的な配列は、Tatusova及びMadden,(1999),“Blast 2 sequences - a new tool for comparing protein and nucleotide sequences”,FEMS Microbiol Lett.174:247-250(その全体が参照により本明細書に援用される)に記載されるようなBLAST 2配列を用いて別の配列に対して整列され得る。BLAST 2配列アラインメントを、BLAST2.0アルゴリズムを用いてblastp又はblastnで行い、2つの配列間のGapped BLAST検索(BLAST 2.0)を行って、得られたアラインメントにおけるギャップ(欠失及び挿入)の導入を可能にする。本明細書における明確化の目的のために、以下のように標準デフォルトパラメータを用いてBLAST 2配列アラインメントを行う。
blastnについては、0 BLOSUM62マトリックスを用いる:
マッチに対するリウォード(報酬)=1
ミスマッチに対するペナルティ=-2
オープンギャップ(5)及びエクステンションギャップ(2)ペナルティ
ギャップx_ドロップオフ(50)期待値(10)ワードサイズ(11)フィルター(オン)
blastpについては、0 BLOSUM62マトリックスを用いる:
オープンギャップ(11)及びエクステンションギャップ(1)ペナルティ
ギャップx_ドロップオフ(50)期待値(10)ワードサイズ(3)フィルター(オン)。

自分訳

本明細書で使用する場合、パーセント(%)同一性は、他に明示されない限り、以下を用いて実施される相同性の評価によるものである: (1)アミノ酸検索用のblastpと、核酸検索用のblastnとを標準的なデフォルトパラメータで用いた、BLAST 2.0 Basic BLAST相同性検索(クエリ配列は、デフォルトで低複雑度領域がフィルタリングされる)(Altschul, S.F., Madden, T.L., SchaSffer, A.A., Zhang, J., Zhang, Z., Miller, W. & Lipman, DJ 、1997年、「Gapped BLAST and PSI- BLAST: A new generation of protein database search programs」、Nucleic Acids Res.誌、第25巻、3389~3402ページに記載されており、その全体が本明細書に参照として組み込まれる)、(2)BLAST2アラインメント(後述するパラメータを用いる)、及び/又は(3)標準的なデフォルトパラメータを用いたPSI-BLAST(Position-Specific Iterated BLAST)。 BLAST 2.0 Basic BLASTと、BLAST 2アラインメントとでは、標準的なパラメータにいくつか違いがあるため、BLAST2アラインメントプログラムを用いると2つの特定の配列に有意な類似性があると認識される可能性があるのに対して、これらの配列のうち1つをクエリ配列としてBLAST 2.0 Basic BLASTで検索すると、2つ目の配列が上位マッチとして認識されない場合があることに留意されたい。 さらに、PSI-BLASTでは、配列相同体を調べる高感度な方法である「プロフィール」検索の、自動化された利用しやすいバージョンが提供されている。このプログラムでは、まずギャップを含むBLASTデータベース検索を実施する。 PSI-BLASTプログラムでは、返された有意性のある任意のアラインメントの情報を使用して位置特異的スコア行列を作成し、最初のクエリ配列の代わりに、この位置特異的スコア行列を使用して次のデータベース検索を行う。 したがって、パーセント同一性は、これらのプログラムのいずれか1つを用いて決定できることを理解すべきである。
TatusovaおよびMadden著、1999年、「Blast 2 sequences - A new tool for comparing Protein and nucleotide sequences」、FEMS Microbiol Lett.誌、第174巻247~250ページ(その全体が本明細書に参照として組み込まれる)に記載されるBLAST 2 sequenceを用いて、2つの特定の配列を互いに整列化させることができる。 BLAST2.0アルゴリズムを用いてblastpまたはblastnでBLAST2配列アラインメントを行うことで、2つの配列間でGapped BLAST検索(BLAST2.0)を実施することができる。BLAST2.0は、得られたアラインメントにおけるギャップ(欠失および挿入)の導入を許容するものである。本明細書では、明瞭に理解できるように、以下の通り標準的なデフォルトパラメータを用いてBLAST2配列アラインメントを行う。
blastnの場合、0 BLOSUM62行列を用いる:
Reward for match=1
Penalty for mismatch=-2
Open gap(5) and extension gap(2)penalties
gap x dropoff(50)expect(10) word size(11)filter(on)
blastpの場合、0 BLOSUM62行列を用いる:
Open gap(11) and extension gap(1)penalties
gap x dropoff(50)expect (10)word size(3)filter(on)。

まとめ

今回は、自力翻訳した明細書の中で配列の類似性検索に関わる部分を公開訳と比較しながらまとめました。

時間の制限を設けていない今でこそ、納得するまで掘り下げて調べることができます。

しかし、実際には、限られた時間の中で調査して正しく訳出することが求められます。

バイオインフォマティクスに関連する内容に触れることは今後も必ずあると思うので、さらにインプット + アウトプットを進めます。

COMMENT

メールアドレスが公開されることはありません。 が付いている欄は必須項目です