http://pubchem.ncbi.nlm.nih.gov/
PubChem数据库于2004年正式对方开放使用,这是一个可以免费获取使用的数据库,其中包含了很多与有机小分子化学结构及其生物活性相关的信息。它包含了结构、命名和计算物理化学数据,并与NIH PubMed/ Entrez信息链接。
PubChem的数据信息被划分成三个相互关联的数据库,即PubChem Substance、PubChem Compound和PubChem BioAssay,这三个数据库都隶属于NCBI的Entrez信息检索系统。
截止到2016年1月28日,这三个数据库的基本增长情况如下:
化合物:八千二百六十万个化合物数据条目,包括纯化学化合物和具有化学性质的化合物;
物质:一亿九千八百万个条目,也包括了混合物、提取物、配合物以及未表征的物质;
生物测定:一百一十万高通量筛选项目中的数百万个数值中产生的生物活性结果。
另外,PubChem还提供化学结构相似性搜索工具。目前PubChem拥有九千万个独有的化学结构信息,还有80个数据分包商参与该数据库的数据信息扩展。
在PubChem数据库成立不久,美国化学会旗下的化学文摘社(Chemical Abstracts Service)发现自己面临对方带来的直接挑战。双方面对的是非常严峻的市场利益分割问题,而美国化学会随即讨好美国国会,限制PubChem的运营。
ChEBI
http://www.ebi.ac.uk/chebi/
ChEBI是“生物兴趣化学实体(Chemical Entities of Biological Interest)” 的简称,它是一个可以免费获取的以小分子化合物为主的分子条目字典。ChEBI中的化学物质不仅有天然产物(代谢产物),也含有用于介入生物体(药物或毒素)过程的合成物。
ChEBI中的结构和命名信息都可以链接到其他广受好评的数据库。本数据库使用本体论分类方式,在这种分类方式的帮助下,分子条目之间的关系或者条目的分类及其父类或者子类都可以精确的被划分。ChEBI数据库中现在有15,500多个化学成分信息。
ChEBI里面的数据来源于多个数据库,其中最主要的来源有四个:
IntEnz—为综合相关酶数据库(Integrated Relational Enzyme),它是酶系统命名法的大师级数据库,是国际生物化学与分子生物学联合会—命名委员会推荐的酶催化反应的命名与分类数据库。
KEGG COMPOUND—隶属于京都基因与基因组百科全书(Kyoto Encyclopedia of Genes and Genomes)配体数据库的一部分,COMPOUND是专门收集生物化合物结构的数据库。
PDBeChem—是提供化学成分字典(Chemical Component Dictionary)获取途径的网络服务器。
ChEMBL—为生物活性化合物及其定量特性和生物活性数据库,它们提取自一些基本的科学研究文献。
ChemSpider
http://www.chemspider.com/
ChemSpider是一个隶属于英国皇家化学会的汇总数据库,包含了来自不同资源提供的五千五百多个化合物信息。现在,该数据库含有的信息包括海洋天然产物数据、ACD实验室化学数据库、EPA的DSSTox数据库以及来自不同供应商的一系列化学物质信息。数据库拥有多种搜索工具,而且大多数化合物都有计算物理化学性质值。
在线数据库提供了诸多服务,包括化学名称转换为化学结构、SMILES和InChI字符串的生成,以及理化参数的预测,对允许核磁共振预测的Web服务的集成。数据库的合成页面是由英国皇家化学会提供的免费合成化学流程免费交互数据库。
ChemSpider数据库使用文本挖掘的方法对化学文档进行标记。ChemMantis作为化学标记与命名转换集成系统(Chemistry Markup And Nomenclature Transformation Integrated System),使用某些算法从文献和网页中定义并提取化学名称,然后使用化学名称-结构转换算法根据ChemSpider数据库的字典查找功能将这些化学名称转换成化学结构。
数据库提供以下查询方式:
标准查询方式包括系统名称、商业名称和同义词、登记号查询;
高级查询方式提供互动式搜索,通过化合物结构、化合物子结构,分子式以及分子量、CAS编号、供应商等进行高级搜索。还可以对搜索得到的结果进行进一进步的筛选以限定更小的搜寻范围;
ChemSpider还提供以iOS软件应用(iPhone/iPod/iPad)为平台的移动设备搜索。同时也支持安卓系统。
KEGG Glycan
http://www.genome.jp/kegg/glycan/
KEGG Glycan是一个专门汇总经实验确定的聚糖结构的数据库。数据库当中独有的结构来自CarbBank、近期发表的文献以及KEGG通路中存在的结构。KEGG Glycan拥有11,000多个来源于真核和原核源的糖链结构。
有关KEGG的更多信息这里不做赘述,朋友们可以点击《代谢通路数据库汇总》查看。
Explorer
http://exposome-explorer.iarc.fr/
Exposome-Explorer是全球第一个专门针对暴露于致病环境风险因素的生物标志物数据库。它包含了关于生物标志物属性、人口以及用于生物标志物分析的方法、测量、样本分析、样本浓度、外部暴露测量的相关性以及随着时间推移的生物重复性方面的详细信息。
Exposome-Explorer由加拿大艾伯塔大学与世界健康组织的国际癌症研究署(IARC)共同创建,由IARC和欧盟委员会提供资金支持。
Exposome(暴露组)包了括从概念开始的全人类环境(即非遗传性)暴露的补充基因组。这个概念首先由Christopher Wild博士在2005年的文章"Complementing the Genome with an “Exposome”: The Outstanding Challenge of Environmental Exposure Measurement in Molecular Epidemiology"(用“暴露组”对基因组进行补充:分子流行病学环境暴露测量的突出挑战)。
暴露组的概念以及评估方法已经带来了多种角度的讨论。虽然目前尚不可能对其进行测量或者建立完整的暴露组模型,但是最近一些欧洲的项目(HELIX、EXPOsOMICS、HEALS)和美国提倡的HERCULES项目已经开始进行尝试。
Toxin and Toxin-Target Database(T3DB)
http://tedb.ca/
T3DB是“有毒环境暴露数据库(Toxic Exposome Database)”的简称,业内也将其称之为Toxic Exposome Database。它和DrugBank一样包含了详细的靶点和化合物信息,比如化合物结构、属性、作用机制、基因/蛋白质序列及相关SNP。
该数据库目前含有3,673种毒素,这些毒素共有41,733种别名,涉及到污染物、农药、药物和食物毒素,其中有2087个对应的毒素目标记录。本数据库创建的目的是为每一种毒素提供毒性机制和靶点蛋白质。
T3DB的这种双重数据属性由毒素和毒素靶点记录,两种属性记录方式双向各自独立存在,但又相互形成信息链接,这种双重属性让这种数据库成为现存的一种独一无二的毒素研究资源。更牛的地方在于这个数据库也与HMDB和DrugBank链接。数据库的潜在用途就是可以预测毒素代谢、毒素/药物互作用预测以及公众一般毒素危害意识研究。
这些有毒物质与2,086个相应的蛋白质/DNA靶标记录相连接,共计有42,433个与有毒物质相关的物质。T3DB中的每一个有毒化合物记录包含近100个数据域,并持有类似化学属性和描述符、作用机制、毒性或致死剂量值、分子与细胞相互作用、医学(症状和治疗)信息、核磁共振、质谱和上下调节基因等相关信息。这些信息都是从18,000多个资源中提取,这些资源包括数据库、政府文件、书籍以及科学文献。
T3DB的基本作用就是提供毒性机制信息,并鉴定常见有毒物质的标靶蛋白。虽然还有其他相类似的毒性化合物数据库,而且他们更擅长收集化学试验室之外很少见到的大量化学物质,但是T3DB的独到之处在于捕捉那些大量或广泛使用的有毒物质的属性数据。
T3DB支持扩展文本、序列、化学结构、关系查询与谱检索等检索方式。本数据库与HMDB和DrugBank相链接。T3DB的潜在应用还可以用于代谢组学和环境暴露研究。
FooDB
http://foodb.ca/
FooDB是全球规模最大的,综合性最强的食品成分、化学与生物学资源库。它提供了宏量营养素与微量营养素信息,包括了产生食物味道、颜色、风味以及质地和香味方面的成分信息。FooDB中的每一个化学信息条目包含了详细的成分、生化和生理信息在内的100个独立数据。用户可以使用食物来源、名称、描述符、功能和浓度浏览或者搜索本数据库。
数据库包含了28,000种发现于1000多个生的或未加工的食品信息。FooDB数据提取于教科书、科学杂志、在线在线食物成分或营养数据库、香精香料数据库以及各种代谢组学数据库。
FooDB中的化合物的化学结构和分子量可以使用特殊的化学结构方式搜索。用户可以使用两种不同的浏览方式查看FooDB的内容:FoodView方式,食物是化合物的方式罗列,或者是ChemView方式,食物以来源的方式罗列出化学物质。
Phenol-Explorer
http://phenol-explorer.eu/
Phenol-Explorer是第一个专门为食品中多酚含量创建的综合数据库。数据库中含有400种食物中500个不同多酚类物质的35,000多个含量值。这些数据信息是从1,300多篇科学文献当中提及的60,000多种原始含量值中提取而来。在从论文提取数据之前,每一篇论文都经过了严格认真的审查和评估。用户可以查询经过各种分析方法鉴定得到的食品、多酚和代谢物。
IIMDB
http://metabolomics.pharm.uconn.edu/iimdb/
IIMDB是“有机体内/起始代谢物数据库(In Vivo/In Silico metabolites Database)”的简称,包含了已知的和通过计算生成的化合物。数据库有23,000多种已知化合物(哺乳动物的代谢产物、药物、植物次生代谢产物,和甘油),还有400,000种通过计算得到的已知化合物的人类第一阶段和第二阶段的代谢产物。