跳至內容

簡化分子線性輸入規範

維基百科,自由的百科全書

這是本頁的一個歷史版本,由124.205.120.130對話2015年2月10日 (二) 13:05 异构SMILES編輯。這可能和目前版本存在着巨大的差異。

SMILES
副檔名
.smi
網路媒體型式
chemical/x-daylight-smiles
格式類型chemical file format
SMILES的產生:中斷週期,然後寫為一條主幹枝.


簡化分子線性輸入規範英文:Simplified molecular input line entry specification,簡稱SMILES),是一種用ASCII字符串明確描述分子結構的規範。SMILES由Arthur Weininger和David Weininger於20世紀80年代晚期開發,並由其他人,尤其是日光化學信息系統有限公司(Daylight Chemical Information Systems Inc.),修改和擴展。

由於SMILES用一串字符來描述一個三維化學結構,它必然要將化學結構轉化成一個生成樹,此系統採用縱向優先遍歷樹算法。轉化時,先要去掉氫,還要把環打開。表示時,被拆掉的鍵端的原子要用數字標記,支鏈寫在小括號里。

SMILES字符串可以被大多數分子編輯軟件導入並轉換成二維圖形或分子的三維模型。轉換成二維圖形可以使用Helson的「結構圖生成算法」(Structure Diagram Generation algorithms)。

典範SMILES

典範SMILES保證每個化學分子只有一個SMILES表達式。典範SMILES常用於分子數據庫的索引。

記法

原子

  1. 原子用在方括號內的化學元素符號表示。
    • 例如[Au]表示「」。
    1. 有機物中的CNOPSBrClI等原子可以省略方括號,其他元素必須包括在方括號之內。
  2. 氫原子常被省略。
    1. 對於省略了方括號的原子,用原子補足價數。
    • 例如,的SMILES就是O乙醇CCO
  3. 離子用方括號括起,用元素符號和電荷表示,"+"表示正電荷、"-"表示負電荷,電荷數跟在正負號之後。如果該原子與氫原子相連,氫原子寫在元素符號後面。
    • 四價離子 (Ti4+) 寫作 [Ti+4][Ti++++] 。三價離子(Co3+) 寫作 [Co+3][Co+++]
    • 氫氧根 (OH-) 表示為 [OH-]水合氫離子 (H3O+) 表示為 [OH3+]

化學鍵

  1. 雙鍵用「=」表示;三鍵用「#」表示。
  2. 如果結構中有環,則要打開。斷開處的兩個原子用同一個數字標記,表示原子間有鍵相連。
    • 環己烷(C6H12)表示為C1CCCCC1。需要注意,標誌應該是數字(在此例中為1)而不是「C1」這個組合。擴展的表示是(C1)-(C)-(C)-(C)-(C)-(C)-1而不是(C1)-(C)-(C)-(C)-(C)-(C)-(C1)。

芳香環

  1. 芳環中的COSN原子分別用用小寫字母c,o,s,n表示。
    • 表示為 c1ccccc1

支鏈

  1. 碳鏈上的分支用圓括號表示。

異構SMILES

異構SMILES是指擴展的,可以表示同位素手性和雙鍵結構的SMILES版本。它的一個顯著特徵是可以精確地說明局部手性。

立體化學

雙鍵兩側的結構分別用符號/\表示,例如,F/C=C/F表示反二氟乙烯,它的兩個氟原子位於雙鍵的兩側。
F/C=C\F表示順二氟乙烯(順二氟乙烯),它的兩個氟原子位於雙鍵的同一側。

手性碳原子的情況用 @@@ 標明。例如,L-丙氨酸表示為 N[C@@H](C)C(=O)O,標示符 @@ 表明,從氮原子 (N) 處沿着連接氮原子和手性中心的碳原子的鍵看去, 取代基序列——氫原子 (H), 甲基 (C) 和羧基 (C(=O)O) ——按順時針出現。 D-丙氨酸則表示為 N[C@H](C)C(=O)O@ 即意為逆時針。取代基列出的順序在這種情況下顯得非常重要,D-丙氨酸還可以表示為 N[C@@H](C(=O)O)C

同位素

表示同位素時將質量數寫在元素符號前面。如氘代氯仿[2H]C(Cl)(Cl)Cl ,苯中一個碳原子是碳-14時表示為 [14c]1ccccc1

發展

SMARTS是SMILES基礎之上的改進版。SMARTS中增加的一點是,它允許使用通配符表示原子和化學鍵。因此,它在化合物數據庫中廣泛用於結構的計算機化搜索。這種搜索的機理是先通過輸入的SMILES式重構化學式,再搜索子圖的同形;而不是直接通過SMILES式的對比完成的。

USMILES(有時成為廣義SMILES),這種「Unique SMILES」是日光化學信息系統有限公司關於結構的規範表達。就是說不管內部原子的編碼順序如何,通過這種算法總可以得到關於化合物規範的、無歧義的、唯一的描述(化學結構表達的唯一性,可參見國際化合物標識)。

其他記法及比較

其他著名的線性記法包括Wiswesser Line Notation(WLN),ROSDAL和SLN。最近國際純粹與應用化學聯合會推薦國際化合物標識作為標準的分子式表達式。

然而普遍認為,SMILES與InChI相比更具有可讀性;而且很多軟件都支持SMILES,其中不少軟件都具有圖論等方面的理論基礎。

外部連結