定量的構造活性相関

定量的構造活性相関QSAR)モデルは、化学・生物科学および工学において用いられる回帰モデルまたは分類モデルである[ 1 ]。QSAR回帰モデルでは、一連の「予測」変数(X)を応答変数(Y)の効力に関連付け、分類QSARモデルでは、予測変数を応答変数のカテゴリ値に関連付ける[ 1 ]

QSARモデリングでは、予測因子は化学物質の物理化学的性質または理論的な分子記述子[ 2 ] [ 3 ]から構成され、QSARの応答変数は化学物質の生物学的活性となる可能性がある。QSARモデルはまず、化学物質のデータセットにおける化学構造生物学的活性との間の想定される関係を要約する。次に、QSARモデルは新規化学物質の活性を予測する。 [ 4 ] [ 5 ]

関連用語には、化学特性を応答変数としてモデル化する場合の定量的構造特性関係(QSPR)がある。 [ 6 ] [ 7 ] 「化学分子の様々な特性や挙動がQSPRの分野で研究されてきた。いくつかの例としては、定量的構造反応性関係(QSRR)、定量的構造クロマトグラフィー関係(QSCR)、定量的構造毒性関係(QSTR)、定量的構造電気化学関係(QSER)、定量的構造生分解性関係(QSBR)などがある。」[ 8 ]

例えば、生物学的活性は、特定の生物学的反応を示すために必要な物質の濃度として定量的に表現することができます。さらに、物理化学的性質や構造が数値で表される場合、両者の間に数学的な関係、すなわち定量的な構造活性相関を見出すことができます。この数式は、慎重に検証されれば[ 9 ] [ 10 ] [ 11 ] [ 12 ]、他の化学構造のモデル化された反応を予測するために使用することができます[ 13 ] 。

QSAR は数学モデルの形式をとります。

  • 活性 = f (物理化学的性質および/または構造的性質) + 誤差

誤差には、モデル誤差(バイアス) と観測変動 (つまり、正しいモデルであっても観測結果にばらつきがある) が含まれます。

QSAR研究における必須ステップ

QSAR/QSPRの主なステップは以下の通りである[ 8 ]。

  1. データセットの選択と構造的/経験的記述子の抽出
  2. 変数選択
  3. モデル構築
  4. 検証評価

SARとSARパラドックス

分子に基づくあらゆる仮説の基本前提は、類似の分子は類似の活性を持つというものです。この原理は構造活性相関(SAR)とも呼ばれます。したがって、根本的な問題は、分子レベルでの小さな差異をどのように定義するかということです。なぜなら、反応能、生体内変換能、溶解性、標的活性など、それぞれの活性は別の差異に依存している可能性があるからです。Patanie /LaVoie [ 14 ]とBrown [ 15 ]による生物学的等価性に関するレビューには、その例が示されています。

一般的に、強い傾向を見つけることに関心が寄せられます。作成された仮説は通常、限られた数の化学物質に依存するため、過剰適合(トレーニングデータに非常によく適合する仮説が生成されるものの、新しいデータに適用するとパフォーマンスが低下すること)を避けるように注意する必要があります。

SARパラドックスとは、すべての類似した分子が類似した活性を示すわけではないという事実を指します。[ 16 ]

種類

フラグメントベース(グループ貢献)

同様に、「分配係数」(微分溶解度の指標であり、それ自体がQSAR予測の構成要素)は、原子法(「XLogP」または「ALogP」として知られる)または化学フラグメント法(「CLogP」やその他のバリエーションとして知られる)のいずれかによって予測できます。化合物のlogPは、そのフラグメントの合計によって決定できることが示されており、フラグメントベースの方法は、原子ベースの方法よりも優れた予測値として一般的に認められています。[ 17 ]フラグメント値は、既知のlogP値に関する経験的データに基づいて統計的に決定されています。この方法は、結果がまちまちであり、一般的に±0.1単位を超える精度は信頼できません。[ 18 ]

グループベースまたはフラグメントベースのQSARはGQSARとも呼ばれます。[ 19 ] GQSARは、生物学的応答の変動に関連して、さまざまな関心分子フラグメントを研究するための柔軟性を提供します。分子フラグメントは、同属分子セットのさまざまな置換部位の置換基である場合もあれば、非同属分子セットの場合は事前に定義された化学規則に基づく場合もあります。GQSARは、クロスタームフラグメント記述子も考慮します。これは、活性の変動を決定する際に重要なフラグメント相互作用を識別するのに役立ちます。[ 19 ] フラグノミクスを使用したリード発見は、新たなパラダイムです。この文脈において、FB-QSARは、フラグメントライブラリ設計およびフラグメントからリードへの同定の取り組みにおいて有望な戦略であることが証明されています。[ 20 ]

ファーマコフォア類似性の概念に基づくフラグメントベースまたはグループベースのQSARに関する先進的なアプローチが開発されている。[ 21 ]この手法、ファーマコフォア類似性に基づくQSAR(PS-QSAR)は、位相幾何学的ファーマコフォア記述子を用いてQSARモデルを構築する。この活性予測は、それぞれのフラグメントによってコードされる特定のファーマコフォア特性が、活性向上や有害作用に及ぼす影響を明らかにするのに役立つ可能性がある。[ 21 ]

3D-QSAR

3D-QSARまたは3D QSARという略語は、既知の活性を持つ一連の小分子の3次元構造を必要とする力場計算のアプリケーションを指します(トレーニングセット)。トレーニングセットは、実験データ(リガンド-タンパク質結晶構造解析に基づくものなど)または分子重ね合わせソフトウェアのいずれかで重ね合わせる(整列させる)必要があります。これは、実験定数ではなく、計算されたポテンシャル(レナード-ジョーンズポテンシャルなど)を使用し、単一の置換基ではなく分子全体に関係します。最初の3D QSARは、Cramerらによって比較分子場解析(CoMFA)と名付けられました。これは、部分最小二乗回帰(PLS)によって相関された立体場(分子の形状)と静電場[ 22 ]を調べました。

作成されたデータ空間は通常、以下の特徴抽出によって縮小されます(次元削減も参照)。この学習手法としては、既に述べた機械学習手法(例えば、サポートベクターマシン)のいずれかを使用できます。[ 23 ]別のアプローチとして、分子をデータインスタンスの集合としてエンコードするマルチインスタンス学習があります。各インスタンスは、分子の可能な立体配座を表します。各集合には、分子の活性に対応するラベルまたは応答が割り当てられます。活性は、集合内の少なくとも1つのインスタンス(つまり、分子の何らかの立体配座)によって決定されると想定されます。[ 24 ]

2011 年 6 月 18 日、比較分子場解析 (CoMFA) 特許により、GRID および部分最小二乗法 (PLS) テクノロジの使用に関する制限がすべて削除されました。

化学記述子に基づく

このアプローチでは、分子の様々な電子的、幾何学的、または立体的特性を定量化する記述子が計算され、QSARの開発に用いられる。[ 25 ]このアプローチは、記述子が個々のフラグメントの特性からではなく、システム全体に対して計算される点で、フラグメント(またはグループ寄与)アプローチと異なる。また、記述子が3D場からではなく、スカラー量(例えば、エネルギー、幾何学的パラメータ)から計算される点で、3D-QSARアプローチとも異なる。

このアプローチの一例としては、ハーフサンドイッチ化合物によるオレフィン重合のために開発されたQSARがある。[ 26 ] [ 27 ]

文字列ベース

SMILES文字列のみに基づいて活動予測が可能であることが示されている。[ 28 ] [ 29 ] [ 30 ]

グラフベース

文字列ベースの方法と同様に、分子グラフはQSARモデルの入力として直接使用することができますが[ 31 ] [ 32 ]、通常は記述子ベースのQSARモデルに比べてパフォーマンスが劣ります。[ 33 ] [ 34 ]

q-RASAR

QSARは類似性に基づくリードアクロス法と統合され、q-RASARという新たな分野を生み出しました。ジャダブプール大学DTC研究所はこのハイブリッド手法を開発しており、詳細は同研究所のウェブサイトでご覧いただけます。最近、q-RASARフレームワークはQSARのARKA記述子との統合により改良されました。

モデリング

文献では、特徴抽出誘導を1 つのステップで 適用するため、化学者は部分最小二乗法 (PLS)を好むことがよく見られます。

データマイニングアプローチ

コンピュータSARモデルは通常、比較的多くの特徴を計算します。これらのモデルは構造解釈能力に欠けているため、前処理段階では特徴選択問題(すなわち、構造活性相関を決定するためにどの構造特徴を解釈すべきか)に直面します。特徴選択は、視覚的検査(人間による定性的な選択)、データマイニング、または分子マイニングによって行うことができます。

典型的なデータマイニングに基づく予測では、予測学習モデル を誘導するために、サポートベクターマシン決定木人工ニューラルネットワークなどが使用されます。

構造化データマイニング手法の特殊なケースである分子マイニング手法では、類似度行列に基づく予測や自動フラグメンテーション手法を分子構造に適用します。さらに、最大共通サブグラフ探索やグラフカーネルを用いた手法も存在します。[ 35 ] [ 36 ]

QSARプロトコル

マッチド分子ペア分析

非線形機械学習から得られるQSARモデルは、一般的に「ブラックボックス」とみなされ、医薬品化学者にとって指針となるものではありません。最近では、マッチド・モレキュラー・ペア・アナリシス[ 37 ]や予測駆動型MMPAといった比較的新しい概念が登場し、QSARモデルと組み合わせることで活性クリフを特定しています[ 38 ] 。

QSARモデルの品質評価

QSARモデリングは、化学物質(薬物/毒物/環境汚染物質)のQSPRモデルにおける生物学的活性(望ましい治療効果と望ましくない副作用を含む)または物理化学的特性を、分子構造または特性を表す記述子と相関させる統計ツールの適用から導出される予測モデルを生成します。QSARは、リスク評価、毒性予測、規制上の決定など[ 39 ] 、創薬およびリード化合物の最適化[ 40 ]に加えて、多くの分野で応用されています。高品質のQSARモデルを得るには、入力データの品質、記述子の選択、モデリングおよび検証のための統計的手法など、多くの要因に左右されます。どのようなQSARモデリングも、最終的には、新しい化合物のモデル化された反応について正確かつ信頼性の高い予測を行うことができる、統計的に堅牢な予測モデルにつながるはずです。

QSARモデルの検証には、通常、様々な戦略が採用される。[ 41 ]

  1. 内部検証またはクロス検証(実際には、データを抽出する際のクロス検証はモデルの堅牢性を測る尺度であり、モデルの堅牢性が高いほど(q2が高いほど)、データ抽出によって元のモデルが乱される可能性は低くなります)。
  2. 利用可能なデータセットをモデル開発用のトレーニングセットとモデル予測性チェック用の予測セットに分割することによる外部検証。
  3. 新しい外部データにモデルを適用してブラインド外部検証を行い、
  4. 応答とモデリング記述子の間に偶然の相関関係がないことを確認するためのデータランダム化または Y スクランブル。

QSARモデルの成功は、入力データの精度、適切な記述子と統計ツールの選択、そして最も重要なのは開発されたモデルの検証にかかっています。検証とは、特定の目的に対する手順の信頼性と妥当性を確立するプロセスです。QSARモデルの場合、検証は主にモデルの堅牢性、予測性能、適用領域(AD)について行う必要があります。 [ 9 ] [ 10 ] [ 12 ] [ 42 ] [ 43 ]

一部の検証手法には問題が生じる可能性があります。例えば、Leave-One-Outクロスバリデーションは、一般的に予測能力を過大評価する傾向があります。外部検証を用いても、公開されるモデルの予測能力を最大化するために、トレーニングセットとテストセットの選択が操作されたかどうかを判断することは困難です。

QSARモデルの検証において注意が必要な様々な側面としては、トレーニングセット化合物の選択方法[ 44 ] 、トレーニングセットサイズの設定[ 45 ]、そして予測の質を決定するためのトレーニングセットモデルにおける変数選択の影響[ 46 ] などが挙げられる。QSARモデルの品質を判断するための新たな検証パラメータの開発も重要である。[ 12 ] [ 47 ] [ 48 ]

応用

化学薬品

歴史的に最初のQSAR応用の一つは沸点の予測であった。[ 49 ]

例えば、特定の化合物群、特に有機化学においては、構造と観測される特性の間に強い相関関係があることがよく知られています。簡単としてアルカン炭素数と沸点の関係が挙げられます。炭素数の増加に伴い沸点が上昇するという明確な傾向があり、これは高級アルカンの沸点を予測する手段となります。

さらに非常に興味深い応用としては、ハメット方程式タフト方程式pKa予測法がある。[ 50 ]

生物学的

分子の生物学的活性は通常、特定のシグナル伝達経路または代謝経路の阻害レベルを確立するためのアッセイで測定されます。創薬においては、特定の標的に対して優れた阻害効果を示し、かつ低毒性(非特異的活性)を有する化学構造を特定するために、QSARが用いられることがよくあります。特に興味深いのは、分配係数log Pの予測です。これは、リピンスキーの5つの法則に従って「薬物らしさ」を識別する際に用いられる重要な指標です。[ 51 ]

多くの定量的構造活性相関解析は、分子ファミリーと酵素または受容体結合部位との相互作用を解析対象としていますが、QSARはタンパク質の構造ドメイン間の相互作用を研究するためにも用いることができます。タンパク質間相互作用は、部位特異的変異誘発によって生じる構造変化についても定量的に解析することができます。[ 52 ]

これは機械学習手法の一部であり、特に利用可能なデータが有限であることを考慮して、SARパラドックスのリスクを軽減するものである(MVUEも参照)。一般的に、すべてのQSAR問題はコーディング[ 53 ]学習[ 54 ]に分けることができる。

アプリケーション

(Q)SARモデルはリスク管理に利用されてきました。QSARSは規制当局によって推奨されており、欧州連合ではREACH規則によってQSARが推奨されています。REACHは「化学物質の登録、評価、認可および制限(Registration, Evaluation, Authorisation and Restriction of Chemicals)」の略です。QSAR法の規制への応用には、遺伝毒性不純物のin silico毒性評価が含まれます。[ 55 ] DEREKやCASE Ultra(MultiCASE)などの一般的なQSAR評価ソフトウェアは、ICH M7に従った不純物の遺伝毒性評価に使用されます。[ 56 ]

特定の化学物質のトレーニングセットによって生成される凸包を持つ化学物質記述子空間は、トレーニングセットの適用領域と呼ばれます。適用領域外に位置する新規化学物質の特性予測には外挿が用いられるため、適用領域内での予測よりも(平均的に)信頼性が低くなります。QSAR予測の信頼性評価は、モデル作成者や規制当局による統一的な戦略がまだ採用されていないため、依然として研究課題となっています。[ 57 ]

QSAR 方程式は、新しい分子の合成前にその生物学的活性を予測するために使用できます。

QSARモデリングのための機械学習ツールの例としては以下が挙げられる[ 58 ]

S.No.名前アルゴリズム外部リンク
1.RRF、SVM、ナイーブベイジアン、ANN「R: 統計計算のためのRプロジェクト」
2.libSVMSVM「LIBSVM - サポート ベクター マシン用のライブラリ」
3.オレンジRF、SVM、ナイーブベイズ「オレンジデータマイニング」 。 2011年1月10日時点のオリジナルよりアーカイブ2016年3月24日閲覧。
4.ラピッドマイナーSVM、RF、ナイーブベイズ、DT、ANN、k-NN「RapidMiner | オープンソース予測分析プラットフォーム No.1」
5.ウェカRF、SVM、ナイーブベイズ「Weka 3 - Javaでオープンソースの機械学習ソフトウェアを使ったデータマイニング」 。 2011年10月28日時点のオリジナルよりアーカイブ。 2016年3月24日閲覧
6.クニメDT、ナイーブベイズ、SVM「KNIME | イノベーションのためにオープン」
7.アゾオレンジ[ 59 ]RT、SVM、ANN、RF「AZCompTox/AZOrange: AstraZenecaのOrangeへのアドオン」。GitHub 2018年9月19日。
8.タナグラSVM、RF、ナイーブベイズ、DT「TANAGRA - 教育と研究のための無料のデータマイニングソフトウェア」 。 2017年12月19日にオリジナルからアーカイブ2016年3月24日閲覧。
9.エルキk-NN「ELKIデータマイニングフレームワーク」 。2016年11月19日時点のオリジナルよりアーカイブ。
10.マレット「MALLETホームページ」
11.MOA「MOA Massive Online Analysis | データストリームのリアルタイム分析」 。2017年6月19日にオリジナルからアーカイブ。
12.ディープケムロジスティック回帰、ナイーブベイズ、RF、ANNなど「DeepChem」 . deepchem.io . 2017年10月20日閲覧
13.アルヴァモデル[ 60 ]回帰(OLSPLSk-NNSVMDTRF、コンセンサス)と分類(LDA/QDAPLS-DAk-NNSVMDTRF、コンセンサス)「alvaModel: QSAR/QSPR モデルを作成するためのソフトウェア ツール」alvascience.com
14.scikit-learn ( Python ) [ 61 ]ロジスティック回帰、ナイーブベイズ、kNN、RF、SVM、GP、ANNなど「SciKit-Learn」 . scikit-learn.org . 2023年8月13日閲覧
15. Scikit-Mol [ 62 ]Scikit-learnモデルとRDKit の特徴量化 の統合pypi.org の scikit-mol
16.scikit-fingerprints [ 63 ]分子指紋、 Scikit-learnモデルと互換性のあるAPI「scikit-fingerprints」 . GitHub . 2024年12月29日閲覧
17.DTCラボツール多重線形回帰、偏最小二乗法、適用領域、検証など「DTCLabツール」 。 2025年5月12日閲覧
18.DTCラボ補足ツール定量的リードアクロス、q-RASAR、ARKA、回帰および分類ベースのMLツールなど「DTCLab補足ツール」 。 2025年5月12日閲覧

参照

参考文献

  1. ^ a b Abdulhamza, Hayder M; Farhan, Muthanna S.; Hassan, Sara. S.; Aqeel Al-Hussainy, Hany; Oriabi, Amjad Ibrahim (2024). 「チクングニアウイルス感染症の治療における抗ウイルス化合物のin silico同定:QSARモデリングとMDシミュレーション分析」 . Medicine in Novel Technology and Devices . 22 100304. doi : 10.1016/j.medntd.2024.100304 .
  2. ^ Todeschini, Roberto; Consonni, Viviana (2009).ケモインフォマティクスのための分子記述子. 医薬化学における方法と原理. 第41巻. Wiley. doi : 10.1002/9783527628766 . ISBN 978-3-527-31852-0
  3. ^マウリ, アンドレア; コンソニ, ヴィヴィアナ; トデスキーニ, ロベルト (2017). 「分子記述子」 .計算化学ハンドブック. シュプリンガー・インターナショナル・パブリッシング. pp.  2065– 2093. doi : 10.1007/978-3-319-27282-5_51 . ISBN 978-3-319-27282-5
  4. ^ Roy K, Kar S, Das RN (2015). 「第1.2章 QSARとは何か? 定義と公式化」 . QSAR/QSPRモデリング入門:基本概念. ニューヨーク:Springer-Verlag Inc. pp.  2– 6. ISBN 978-3-319-17281-1
  5. ^ Ghasemi, Pérez-Sánchez; Mehri, Pérez-Garrido (2018). 「QSAR研究におけるニューラルネットワークとディープラーニングアルゴリズム:メリットとデメリット」Drug Discovery Today . 23 (10): 1784– 1790. doi : 10.1016/j.drudis.2018.06.016 . PMID 29936244 . S2CID 49418479 .  
  6. ^ナンタセナマット C、イサランクラ・ナ・アユディヤ C、ナエンナ T、プラチャヤシッティクル V (2009)。 「定量的な構造活性相関の実践的な概要」。ジャーナル以外8 : 74–88土井: 10.17877/DE290R-690
  7. ^ Nantasenamat C, Isarankura-Na-Ayudhya C, Prachayasittikul V (2010年7月). 「化合物の生物学的活性を予測するための計算手法の進歩」. Expert Opinion on Drug Discovery . 5 (7): 633–54 . doi : 10.1517/17460441.2010.492827 . PMID 22823204. S2CID 17622541 .  
  8. ^ a b Yousefinejad S, Hemmateenejad B (2015). 「QSAR/QSPR研究におけるケモメトリクスツール:歴史的展望」.ケモメトリクスとインテリジェントラボシステム. 149, パートB: 177– 204. doi : 10.1016/j.chemolab.2015.06.016 .
  9. ^ a b Tropsha A , Gramatica P, Gombar VJ (2003). 「真剣に取り組むことの重要性:QSPRモデルの適用と解釈を成功させるには検証が不可欠」. QSAR Comb. Sci . 22 : 69–77 . doi : 10.1002/qsar.200390007 .
  10. ^ a b Gramatica P (2007). 「QSARモデルの検証の原則:内部および外部」. QSAR Comb. Sci . 26 (5): 694– 701. doi : 10.1002/qsar.200610151 . hdl : 11383/1668881 .
  11. ^ Ruusmann, V.; Sild, S.; Maran, U. (2015). 「QSARデータバンクリポジトリ:オープンかつリンクされた定性的および定量的構造活性相関モデル」 . J ​​ournal of Cheminformatics . 7 32. doi : 10.1186/s13321-015-0082-6 . PMC 4479250. PMID 26110025 .  
  12. ^ a b c Chirico N, Gramatica P (2012年8月). 「QSARモデルの真の外部予測性。パート2. 異なる検証基準における新たな相互比較可能な閾値と散布図検査の必要性」. Journal of Chemical Information and Modeling . 52 (8): 2044–58 . doi : 10.1021/ci300084j . PMID 22721530 . 
  13. ^ Tropsha, Alexander (2010). 「QSARモデルの開発、検証、活用のためのベストプラクティス」. Molecular Informatics . 29 ( 6–7 ): 476–488 . doi : 10.1002/minf.201000061 . ISSN 1868-1743 . PMID 27463326. S2CID 23564249 .   
  14. ^ Patani GA, LaVoie EJ (1996年12月). 「バイオイソスター主義:医薬品設計における合理的アプローチ」. Chemical Reviews . 96 (8): 3147– 3176. doi : 10.1021/cr950066q . PMID 11848856 . 
  15. ^ブラウン N (2012).医薬品化学における生物学的等価体。ワインハイム: ワイリー-VCH。ISBN 978-3-527-33015-7
  16. ^ Ibezim, EC; Duchowicz, PR; Ibezim, NE; Mullen, LMA; Onyishi, IV; Brown, SA; Castro, EA (2009). 「創薬のためのQSARを用いたコンピュータ支援線形モデリング」. Scientific Research and Essays . 4 (13): 1559– 1564.
  17. ^ Thompson SJ, Hattotuwagama CK, Holliday JD, Flower DR (2006). 「ペプチドの疎水性について:ペプチドlog P値の経験的予測の比較」 . Bioinformation . 1 ( 7): 237–41 . doi : 10.6026/97320630001237 . PMC 1891704. PMID 17597897 .  
  18. ^ Wildman SA, Crippen GM (1999). 「原子寄与による物理化学的パラメータの予測」J. Chem. Inf. Comput. Sci . 39 (5​​): 868– 873. doi : 10.1021/ci990307l .
  19. ^ a b Ajmani S、Jadhav K、Kulkarni SA、グループベースの QSAR (G-QSAR)
  20. ^ Manoharan P, Vijayan RS, Ghoshal N (2010年10月). 「BACE1に対するフラグメントベース創薬の合理化:FB-QSAR、FB-QSSR、多目的(MO-QSPR)およびMIF研究からの洞察」. Journal of Computer-Aided Molecular Design . 24 (10): 843–64 . Bibcode : 2010JCAMD..24..843M . doi : 10.1007 / s10822-010-9378-9 . PMID 20740315. S2CID 1171860 .  
  21. ^ a b Prasanth Kumar S, Jasrai YT, Pandya HA, Rawal RM (2013年11月). 「グループ特異的な生物活性予測のためのファーマコフォア類似性に基づくQSAR(PS-QSAR)」 . Journal of Biomolecular Structure & Dynamics . 33 ( 1): 56– 69. doi : 10.1080/07391102.2013.849618 . PMID 24266725. S2CID 45364247 .  
  22. ^ Leach AR (2001).分子モデリング:原理と応用. エングルウッド・クリフス, ニュージャージー州: プレンティス・ホール. ISBN 978-0-582-38210-7
  23. ^ Vert JP、Schölkopf B、Tsuda K (2004).計算生物学におけるカーネル手法。マサチューセッツ州ケンブリッジ:MIT Press。ISBN 978-0-262-19509-6
  24. ^ Dietterich TG, Lathrop RH, Lozano-Pérez T (1997). 「軸平行長方形における複数インスタンス問題の解決」人工知能. 89 ( 1–2 ): 31–71 . doi : 10.1016/S0004-3702(96)00034-3 .
  25. ^ Caruthers JM, Lauterbach JA, Thomson KT, Venkatasubramanian V, Snively CM, Bhan A, Katare S, Oskarsdottir G (2003). 「触媒設計:ハイスループット実験からの知識抽出」. J. Catal . 216 ( 1–2 ): 3776– 3777. doi : 10.1016/S0021-9517(02)00036-2 .
  26. ^ Manz TA, Phomphrai K, Medvedev G, Krishnamurthy BB, Sharma S, Haq J, Novstrup KA, Thomson KT, Delgass WN, Caruthers JM, Abu-Omar MM (2007年4月). 「シクロペンタジエニル/アリールオキシド混合配位子を含むチタンシングルサイトオレフィン重合触媒の構造活性相関」. Journal of the American Chemical Society . 129 (13): 3776–7 . doi : 10.1021/ja0640849 . PMID 17348648 . 
  27. ^ Manz TA, Caruthers JM, Sharma S, Phomphrai K, Thomson KT, Delgass WN, Abu-Omar MM (2012). 「シングルサイトオレフィン重合触媒における相対的連鎖開始速度と成長速度の構造活性相関」.有機金属. 31 (2): 602– 618. doi : 10.1021/om200884x .
  28. ^ヤストジェンブスキ、スタニスワフ;ダミアン・レシニアック。チャルネツキ、ヴォイチェフ・マリアン(2018年3月8日)。 「SMILE(S)を学ぶ」。arXiv : 1602.06289 [ cs.CL ]。
  29. ^ Bjerrum, Esben Jannik (2017年5月17日). 「分子のニューラルネットワークモデリングにおけるデータ拡張としてのSMILES列挙」. arXiv : 1703.07076 [ cs.LG ].
  30. ^ Mayr, Andreas; Klambauer, Günter; Unterthiner, Thomas; Steijaert, Marvin; Wegner, Jörg K.; Ceulemans, Hugo; Clevert, Djork-Arné; Hochreiter, Sepp (2018年6月20日). 「ChEMBLにおける薬物標的予測ための機械学習手法の大規模比較」 . Chemical Science . 9 (24): 5441– 5451. doi : 10.1039/c8sc00148k . PMC 6011237. PMID 30155234 .  
  31. ^ Merkwirth, Christian; Lengauer, Thomas (2005年9月1日). 「分子グラフネットワークを用いた相補的記述子の自動生成」. Journal of Chemical Information and Modeling . 45 (5): 1159– 1168. doi : 10.1021/ci049613b . PMID 16180893 . 
  32. ^ Kearnes, Steven; McCloskey, Kevin; Berndl, Marc; Pande, Vijay; Riley, Patrick (2016年8月1日). 「分子グラフ畳み込み:指紋を超えて」 . Journal of Computer-Aided Molecular Design . 30 (8): 595– 608. arXiv : 1603.00856 . Bibcode : 2016JCAMD..30..595K . doi : 10.1007/ s10822-016-9938-8 . PMC 5028207. PMID 27558503 .  
  33. ^ Jiang, Dejun; Wu, Zhenxing; Hsieh, Chang-Yu; Chen, Guangyong; Liao, Ben; Wang, Zhe; Shen, Chao; Cao, Dongsheng; Wu, Jian; Hou, Tingjun (2021年2月17日). 「グラフニューラルネットワークは創薬のための分子表現をより良く学習できるか? 記述子ベースモデルとグラフベースモデルの比較研究」 . Journal of Cheminformatics . 13 (1): 12. doi : 10.1186/s13321-020-00479-8 . PMC 7888189. PMID 33597034 .  
  34. ^ van Tilborg, Derek; Alenicheva, Alisa; Grisoni, Francesca (2022年12月12日). 「アクティビティクリフ用いた分子機械学習の限界の解明」 . Journal of Chemical Information and Modeling . 62 (23): 5938– 5951. doi : 10.1021/acs.jcim.2c01073 . PMC 9749029. PMID 36456532 .  
  35. ^ Gusfield D (1997).文字列、木、シーケンス上のアルゴリズム:コンピュータサイエンスと計算生物学. ケンブリッジ大学出版局, イギリス. ISBN 978-0-521-58519-4
  36. ^ Helma C (2005).予測毒性学. ワシントンD.C.: Taylor & Francis. ISBN 978-0-8247-2397-2
  37. ^ Dossetter AG, Griffen EJ, Leach AG (2013). 「創薬におけるマッチド分子ペア解析」Drug Discovery Today . 18 ( 15–16 ): 724–31 . doi : 10.1016/j.drudis.2013.03.003 . PMID 23557664 . 
  38. ^ Sushko Y, Novotarskyi S, Körner R, Vogt J, Abdelaziz A, Tetko IV (2014). 「予測に基づくマッチング分子ペアによるQSARの解釈と分子最適化プロセスの支援」. Journal of Cheminformatics . 6 (1) 48. doi : 10.1186/s13321-014-0048-0 . PMC 4272757. PMID 25544551 .  
  39. ^ Tong W, Hong H, Xie Q, Shi L, Fang H, Perkins R (2005年4月). 「QSARの限界評価 - 規制の観点から」 . Current Computer-Aided Drug Design . 1 (2): 195– 205. doi : 10.2174/1573409053585663 .
  40. ^ Dearden JC (2003). 「薬物毒性のインシリコ予測」. Journal of Computer-Aided Molecular Design . 17 ( 2–4 ): 119–27 . Bibcode : 2003JCAMD..17..119D . doi : 10.1023/A:1025361621494 . PMID 13677480. S2CID 21518449 .  
  41. ^ Wold S, Eriksson L (1995). 「QSAR結果の統計的検証」Waterbeemd, Han van de (編).分子設計におけるケモメトリックス手法Weinheim: VCH. pp.  309– 318. ISBN 978-3-527-30044-0
  42. ^ Roy K (2007年12月). 「予測的定量的構造活性相関モデルの検証に関するいくつかの側面について」. Expert Opinion on Drug Discovery . 2 (12): 1567–77 . doi : 10.1517/17460441.2.12.1567 . PMID 23488901. S2CID 21305783 .  
  43. ^サヒガラ、ファイザン;マンスーリ、カメル。バラビオ、ダビデ。マウリ、アンドレア。コンソンニ、ヴィヴィアナ。トデスキーニ、ロベルト (2012)。「QSAR モデルの適用範囲を定義するためのさまざまなアプローチの比較」分子17 (5): 4791–4810土井: 10.3390/molecules17054791PMC 6268288PMID 22534664  
  44. ^ Leonard JT, Roy K (2006). 「予測QSARモデル開発のためのトレーニングセットとテストセットの選択について」. QSAR & Combinatorial Science . 25 (3): 235– 251. doi : 10.1002/qsar.200510161 .
  45. ^ Roy PP, Leonard JT, Roy K (2008). 「予測QSARモデル開発におけるトレーニングセットサイズの影響の検討」. ケモメトリクス・アンド・インテリジェント・ラボラトリー・システム. 90 (1): 31– 42. doi : 10.1016/j.chemolab.2007.07.004 .
  46. ^ Put R, Vander Heyden Y (2007年10月). 「逆相液体クロマトグラフィーにおける定量的構造-保持関係のモデリングに関するレビュー」. Analytica Chimica Acta . 602 (2): 164– 72. Bibcode : 2007AcAC..602..164P . doi : 10.1016/j.aca.2007.09.014 . PMID 17933600 . 
  47. ^ Pratim Roy P, Paul S, Mitra I, Roy K (2009). 「予測QSARモデルの検証のための2つの新規パラメータについて」 . Molecules . 14 ( 5): 1660–701 . doi : 10.3390/molecules14051660 . PMC 6254296. PMID 19471190 .  
  48. ^ Chirico N, Gramatica P (2011年9月). 「QSARモデルの真の外部予測性:どのように評価するか? 異なる検証基準の比較と一致相関係数の使用提案」. Journal of Chemical Information and Modeling . 51 (9): 2320–35 . doi : 10.1021/ci200211n . PMID 21800825 . 
  49. ^ Rouvray DH, Bonchev D (1991). 『化学グラフ理論:入門と基礎』 タンブリッジ・ウェルズ、ケント、イギリス: Abacus Press. ISBN 978-0-85626-454-2
  50. ^ Fraczkiewicz, R (2013). 「In Silico によるイオン化予測」. Reedijk, J (編). 『化学、分子科学、化学工学の参照モジュール』 . 『化学、分子科学、化学工学の参照モジュール』[オンライン] . 第5巻. アムステルダム、オランダ: Elsevier. doi : 10.1016/B978-0-12-409547-2.02610-X . ISBN 978-0-12-409547-2
  51. ^ Lipinski, Christopher A.; Lombardo, Franco; Dominy, Beryl W.; Feeney, Paul J. (1997年1月15日). 「創薬・開発現場における溶解度と透過性を推定するための実験的および計算的アプローチ」Advanced Drug Delivery Reviews . 23 (1): 3– 25. doi : 10.1016/S0169-409X(96)00423-1 .
  52. ^ Freyhult EK, Andersson K, Gustafsson MG (2003年4月). 「構造モデリングによる抗体-リゾチーム相互作用のQSAR解析の3D-QSARへの拡張」 . Biophysical Journal . 84 (4): 2264–72 . Bibcode : 2003BpJ....84.2264F . doi : 10.1016 / S0006-3495(03)75032-2 . PMC 1302793. PMID 12668435 .  
  53. ^ティマーマン H、トデスキーニ R、コンソンニ V、マンホールド R、クビニ H (2002)。分子記述子のハンドブック。ワインハイム: ワイリー-VCH。ISBN 978-3-527-29913-3
  54. ^ Duda RO, Hart PW, Stork DG (2001).パターン分類. チチェスター: John Wiley & Sons. ISBN 978-0-471-05669-0
  55. ^ Fioravanzo, E.; Bassan, A.; Pavan, M.; Mostrag-Szlichtyng, A.; Worth, AP (2012-04-01). 「医薬品不純物の規制評価におけるin silico遺伝毒性ツールの役割」.環境研究におけるSARとQSAR . 23 ( 3–4 ): 257– 277. Bibcode : 2012SQER...23..257F . doi : 10.1080 / 1062936X.2012.657236 . ISSN 1062-936X . PMID 22369620. S2CID 2714861 .   
  56. ^ ICH M7 医薬品中のDNA反応性(変異原性)不純物の潜在的な発がんリスクを制限するための評価と管理 - 科学ガイドライン[1]
  57. ^ Zhang, Zhizhen; Sangion, Alessandro; Wang, Shenghong; Gouin, Todd; Brown, Trevor; Arnot, Jon A.; Li, Li (2024年1月23日). 「化学評価における定量的構造–特性関係と半経験的関係適用領域によってカバーされる化学空間」 . Environmental Science & Technology . 58 (7): 3386– 3398. doi : 10.1021/acs.est.3c05643 . PMC 10882972. PMID 38263624 .  
  58. ^ Lavecchia A (2015年3月). 「創薬における機械学習アプローチ:方法と応用」. Drug Discovery Today . 20 (3): 318–31 . doi : 10.1016/j.drudis.2014.10.012 . PMID 25448759 . 
  59. ^ Stålring JC, Carlsson LA, Almeida P, Boyer S (2011). 「AZOrange - グラフィカルプログラミング環境におけるQSARモデリングのための高性能オープンソース機械学習」. Journal of Cheminformatics . 3 28. doi : 10.1186/1758-2946-3-28 . PMC 3158423. PMID 21798025 .  
  60. ^ Mauri, Andrea; Bertola, Matteo (2022). 「Alvascience: 血液脳関門透過性解析のためのQSARワークフロー向け新ソフトウェアスイート」 . International Journal of Molecular Sciences . 23 12882. doi : 10.3390/ijms232112882 . PMC 9655980. PMID 36361669 .  
  61. ^ファビアン・ペドレゴサ;ガエル・ヴァロックオー;アレクサンドル・グラムフォート。ヴァンサン・ミシェル。ベルトラン・ティリオン。オリヴィエ・グリセル。マチュー・ブロンデル。ピーター・プレッテンホーファー。ロン・ワイス。ヴァンサン・デュブール;ジェイク・ヴァンダープラス。アレクサンドル・パソス。デヴィッド・クルナポー;マチュー・ペロー;エドゥアール・デュシュネー (2011)。「scikit-learn: Python での機械学習」機械学習研究ジャーナル12 : 2825–2830。arXiv : 1201.0490Bibcode : 2011JMLR...12.2825P
  62. ^ビェラム、エスベン・ヤニック;バコルツ、ラファウ・アダム。ビットン、エイドリアン。チョン・オヒョン。チェン、ヤ。エスポジート、カルメン。はあ、ソン・ベト。 Poehlmann、Andreas (2023-12-06)、Scikit-Mol が Scikit-Learn にケモインフォマティクスをもたらしますdoi : 10.26434/chemrxiv-2023-fzqwd 2025-01-17取得
  63. ^ Adamczyk, J., & Ludynia, P. (2024). Scikit-fingerprints: Pythonで分子指紋を簡単かつ効率的に計算する. SoftwareX, 28, 101944. https://doi.org/https://doi.org/10.1016/j.softx.2024.101944

さらに読む