【Autodock Vina】 Autodock Vinaを使ったin silicoスクリーニング【in silico創薬】

本記事はAutodock Vinaを使ったin silico薬物スクリーニングついて書かれた記事です。in silico薬物スクリーニングは膨大な数の小さな分子からリード化合物を特定するための強力なツールとなっています。本記事では実際に糖尿病の原因タンパク質に対して、実際にin silicoスクリーニングを行い、薬物候補化合物を取ってきます。自分のパソコンで簡単にできるので、ぜひトライしてみてください！

【この記事のまとめ】

「AutoDock Vina」を用いて、自宅のPCでも実践可能な「インシリコ・スクリーニング」の手順を初心者向けに解説した記事です。 糖尿病に関わる標的タンパク質（DPP4）を例に、膨大な化合物ライブラリから薬の候補となる分子を効率的に絞り込む具体的な手法を学べます。

標的タンパク質とライブラリの準備： PDBデータ（2OQV）から不要な分子を除去し、ドッキングシミュレーションに適した「.pdbqt」形式へ変換する工程を詳説。
探索空間（グリッドボックス）の最適化： center （座標）や size （範囲）などのパラメータ設定を行い、リガンドが結合を試みる領域を正確に定義。
バインディングモードの解析： AutoDock Vinaを実行し、最大10通りの結合構造（モード）を生成。自由エネルギーに基づく結合親和性の評価方法を提示。

この記事を読むことで、専門的なインシリコ創薬の基礎を実作業ベースで習得し、独自の化合物スクリーニングを開始できる力を身につけることができます。

Parallel desktopで構築したWindows 11 Pro (22H2). PC自体はmacOS Ventura(13.2.1) （通常のwindowsで大丈夫です）

OpenBabelGUI(2.3.1)、 MGLTools(1.5.7) MGLToolsがMacでは使えません！

perl 5, version 14, subversion 2 (v5.14.2) built for MSWin32-x86-multi-thread

ここでしか手に入らない、In silico ペプチド創薬の決定版！

AutoDock Vinaとは？

高速性: 最適化されたアルゴリズムにより迅速な計算が可能。
精度: AutoDockの改良版として、高いドッキング精度を持つ。
使いやすさ: シンプルなコマンドラインインターフェースを採用。
柔軟性: 多様なリガンドとターゲットタンパク質に適応。
無料: オープンソースであり、カスタマイズが可能。
大規模スクリーニング: 大量の化合物ライブラリを効率的に処理。
マルチスレッド対応: 複数のCPUコアでの高速化が可能。

In silico screeningとは？

In silico screening（インシリコスクリーニング）とは、バーチャルスクリーニングの一種で、コンピューターシミュレーションを使用して、大規模な分子ライブラリーから、特定の生物学的標的に対して有望な化合物を選別するプロセスです。

“In silico”とは、ラテン語の「in silicium（シリコン中）」に由来し、コンピューター上でのシミュレーションを意味しています。

In silico screeningでは、コンピューターモデルを用いて、大量の化合物の構造情報や生物学的活性を予測し、検討対象とするターゲットに対して最適な化合物を探索することができます。

In silico screeningは、薬剤の探索や、化学物質の特性予測、新しい材料の設計など、様々な分野で活用されています。

今回はパソコンのスペック上、大規模ライブラリーを構築することは難しいので、3つの化合物からなる小規模ライブラリを使ってin silico screeningを行います。

では早速AutoDock Vinaを使ったin silico screeningを試してみましょう！

標的タンパク質の準備
化合物ライブラリの準備
in silicoスクリーニングの設定
in silicoスクリーニング

標的タンパク質の準備

sele chain A

と記入し実行してください。sele chain Aとは、鎖IDがAである分子を選択するコマンドです。

color red, sele

そして、再度 sele chain A からchain Aを選択し、

save DPP4_prep.pdb, sele

今回は結合サイトがわからないので、できるたけこのボックスを大きくします。number of points in x-dimensionのところなどをドラッグして、タンパク質がこのボックスに入るようにしてください。（以下の図では最大値の126としていますが、メモリの関係で８０が丁度よさそうです。）

大体こんな感じです。わかりやすいようにView→show boxes as linesにしてボックスを線でわかるようにしています。

調節したGrid Boxの情報はのちに使うので、Grid OptionのFile→Output grid dimensions Fileとして保存しておきます。

ZINCデータベースからの化合物ライブラリの構築

In silico screeningの設定

ダウンロードしたAutoDock vinaにあるファイル（C:\Program Files (x86)\The Scripps Research Institute\Vinaにあると思います。）にあるvinaとvina_licenseとvina_splitのファイルを移動させて、

その中に次の文章を入れてください。receptorについては.pdbqtと拡張子がないとうまく動かないので、注意してください。

receotor = DPP4_prep.pdbqt center_x = 18.171 center_y = 58.177 center_z = 17.705 size_x = 80 size_y = 80 size_z = 80 num_modes = 10 energy_range = 4

conf_vs.txt ファイルは、AutoDock Vinaを使用してドッキング計算を行うための設定ファイルとして見られます。以下は、提供されたファイルの各項目の説明です：

receptor:
- DPP4_prep.pdbqt はドッキングに使用されるレセプターのファイル名を指定しています。レセプターは、リガンドが結合するタンパク質または他の大きな分子を指します。 .pdbqt フォーマットは、AutoDockやAutoDock Vinaで使用される特別なフォーマットであり、原子の座標の他に、原子タイプや部分的な電荷情報を持っています。
center_x, center_y, center_z:
- これらは探索空間の中心の座標を指定しています。探索空間は、リガンドがどの範囲でタンパク質との間に結合を試みるかを示しています。この座標は通常、ドッキングの注目領域や既知の結合サイトの中心に設定されます。
size_x, size_y, size_z:
- これらは探索空間のサイズを指定しています。各方向（X, Y, Z）での探索空間のサイズをアングストローム単位で示しています。このサイズは、探索を行いたい領域の大きさに基づいて選択されます。
- 126が最大ですが、メモリの関係上各数値を８０に設定しておきます。
num_modes:
- 10 は、生成されるバインディングモード（結合構造）の最大数を示しています。AutoDock Vinaは、複数の異なるリガンドの結合構造（モード）を生成することができ、これによりリガンドがどのようにタンパク質と結合する可能性があるかを評価できます。
energy_range:
- 4 は、最良の結合モード（最も低いエネルギー）と表示される最悪の結合モードとの間の最大エネルギー差を示しています。この値が大きいほど、エネルギー的に不利な結合モードも結果として表示される可能性があります。

dir /B > Ligand.txt

このコマンドはWindowsのコマンドプロンプトで使用されるもので、現在のディレクトリのファイルとサブディレクトリの名前のみを** Ligand.txt **に出力します。

dir : ディレクトリの内容を表示するコマンド。
/B : これはオプションで、名前のみを表示します。通常、** dir コマンドはファイルサイズ、作成日、最終変更日などの詳細も表示しますが、 /B **オプションを使用すると名前のみが表示されます。
> : 出力のリダイレクト。この記号の後にファイル名を指定すると、コマンドの出力はそのファイルに保存されます。
Ligand.txt : 出力が保存されるファイルの名前。

このコマンドを実行すると、** Ligand.txt **という名前のファイルが現在のディレクトリに作成され、その中には現在のディレクトリ内のファイルとサブディレクトリの名前がリストとして保存されます。

Anagliptin.pdbqt Omarigliptin.pdbqt substance.pdbqt

さて、これにてin silico screeningの準備は完了です。

In silicoスクリーニング perl Vina_windows.pl 結果 mode | affinity | dist from best mode | (kcal/mol) | rmsd l.b.| rmsd u.b. -----+------------+----------+---------- 1 -6.9 0.000 0.000 2 -6.7 3.102 4.347 3 -6.6 20.983 24.994 4 -6.6 34.775 36.825 5 -6.6 37.303 39.078 6 -6.6 33.968 36.318 7 -6.5 27.023 28.704 8 -6.5 3.644 5.007 9 -6.4 54.846 57.680 10 -6.4 27.367 28.847

mode: ドッキングの姿勢を示す番号です。最もエネルギーが低い（最も好ましい）姿勢が1で、次に好ましい姿勢が2、というように続いています。
affinity (kcal/mol): この姿勢の結合親和性を示すエネルギー値です。この値が低いほど、リガンドとターゲットタンパク質の結合が強いことを示します。
dist from best mode: この部分は、最も好ましい姿勢（mode 1）との比較に基づく距離を示しています。
- rmsd l.b.: lower bound（最小値）のRMSD (Root Mean Square Deviation) 値。これは、リガンドの姿勢の平均的な偏差を示す値です。
- rmsd u.b.: upper bound（最大値）のRMSD値。

このログを解釈すると、最も好ましい結合姿勢（mode 1）は、結合親和性が-6.9 kcal/molであり、その後の姿勢はそれと若干異なる形や位置でのドッキング結果を示しています。2番目や8番目の姿勢は1番目の姿勢と比較して、それほど離れていないことを示していますが、3番目の姿勢以降は1番目の姿勢と大きく異なる可能性が高いです。

Anagliptin_out mode | affinity | dist from best mode | (kcal/mol) | rmsd l.b.| rmsd u.b. -----+------------+----------+---------- 1 -6.9 0.000 0.000 2 -6.7 3.102 4.347 3 -6.6 20.983 24.994 4 -6.6 34.775 36.825 5 -6.6 37.303 39.078 6 -6.6 33.968 36.318 7 -6.5 27.023 28.704 8 -6.5 3.644 5.007 9 -6.4 54.846 57.680 10 -6.4 27.367 28.847 Omarigliptin_out mode | affinity | dist from best mode | (kcal/mol) | rmsd l.b.| rmsd u.b. -----+------------+----------+---------- 1 -8.2 0.000 0.000 2 -7.5 4.813 9.825 3 -7.0 1.396 2.552 4 -7.0 22.600 25.155 5 -6.9 26.790 28.270 6 -6.8 24.370 25.515 7 -6.8 5.341 8.885 8 -6.7 35.981 37.517 9 -6.7 23.764 25.377 10 -6.7 20.055 22.510 substance_out mode | affinity | dist from best mode | (kcal/mol) | rmsd l.b.| rmsd u.b. -----+------------+----------+---------- 1 -8.1 0.000 0.000 2 -7.9 25.160 28.365 3 -7.9 35.292 37.012 4 -7.9 29.785 33.301 5 -7.8 38.196 39.991 6 -7.8 26.114 28.770 7 -7.7 49.792 53.366 8 -7.7 23.544 28.206 9 -7.7 24.302 27.489 10 -7.7 3.062 6.948

結合親和性: すべてのリガンドの最も好ましい結合姿勢の結合親和性（affinity）を比較すると、Omarigliptinが最も高い親和性を持ち、次にsubstance、最後にAnagliptinとなります。この情報は、リガンドがターゲットタンパク質とどれだけ強く結合するかを示しています。
ドッキング姿勢の多様性: RMSDの値は、最も好ましい姿勢からの他の姿勢の偏差を示しています。RMSDが低い値を持つ姿勢は、最も好ましい姿勢と構造的に類似していることを示しています。一方、高いRMSD値は、異なる結合モードや異なる結合位置を示しています。
結果の信頼性: RMSDの範囲（l.b.とu.b.の間）が狭い場合、その姿勢の結果は比較的信頼性が高いと考えられます。逆に、RMSDの範囲が広い場合、その姿勢の正確さには不確実性があると考えられます。

最後に

参考文献

ここでしか手に入らない、In silico ペプチド創薬の決定版！

【ACFIS2.0】ACFIS2.0を用いたfragment-based 創薬【in silico創薬】 Boltzを使ったタンパク質構造とリガンド複合体の予測【タンパク質デザイン】【分子ドッキング】【GROMACS】GROMACSを用いたタンパク質-低分子リガンドのMD simulation【in silico創薬】【後編】【GROMACS】タンパク質-ペプチド複合体のMDシミュレーション【In silicoペプチド創薬】【ポケット探索】CASTpを使ったタンパク質結合サイトの探索【in silico創薬】【In silico 創薬】PyRosettaによるPyMOL上でのタンパク質可視化コメントを残すコメントをキャンセル【metafor】メタ解析におけるフォレストプロット解析のやり… 【Gaussian】Avogadroを使ってHOMO-LUMO… ライター募集

LabCodeでは、粒子・流体シミュレーション、 CAE / FEM 解析など、実際に研究の現場で使える技術を発信してくださるライターを募集中！

おすすめサイト一覧

研究者に役立つサイトをこちらで紹介しています。

カテゴリーアンケートご協力のお願い

修士・博士・ポスドクの方を対象にアンケート調査を実施しております。 3~5分程度で終わる簡単なアンケートですので、ご協力をお願い致します。 アンケートはこちら

書いてほしい記事はありますか？

勉強したいこと、将来必要になりそうなことなどありましたらフォームからお伝えください！

📎📎📎📎📎📎📎📎📎📎