药物专利化学结构信息的表达和计算机处理.doc

上传人:wux****ua 文档编号:9121306 上传时间:2020-04-03 格式:DOC 页数:7 大小:123.50KB
返回 下载 相关 举报
药物专利化学结构信息的表达和计算机处理.doc_第1页
第1页 / 共7页
药物专利化学结构信息的表达和计算机处理.doc_第2页
第2页 / 共7页
药物专利化学结构信息的表达和计算机处理.doc_第3页
第3页 / 共7页
点击查看更多>>
资源描述
药物专利化学结构信息的表达和计算机处理陈维明孙传涛朱翠娣王源郑崇直(中国科学院上海有机化学研究所,中国科学院计算机化学开放实验室,上海 200032)摘要本文讨论了药物专利化学结构信息的表达和计算机处理问题。对药物专利化学 结构的自然语言描述,可变结构属性和化学结构表述上的歧义问题进行了较为深入的分析,并提出了一个切实可行的处理方法。自然语言描述的药物专利化学结构可以通过人工形式语言标引,语法和语义分析转换成完全的连接表表示,并进一步转换成树图表示。这一方法可以解决自然语言描述,可变结构属性和绝大多数歧义表述问题。关键词 药物专利化学结构,形式语言,结构表述歧义随着人类对生活环境和生活质量的日益关注,与人类健康密切相关的药物已经成为21世纪几个发展最迅速的高科技领域之一。另一方面新药研制所需资金投入不断增加,从90年代初平均每个新药8000万美元上升到目前的5亿美元,使得药物化学信息已经成 为一种重要的信息资源。新药研制所需的大量资金投入,以及衍生物大多具有类似生物活性的特点,使得发明人在申请专利保护的同时,希望专利保护的范围尽可能广,通常使用族性结构方法进行药物化学结构的描述。因此处理药物化学信息,特别是药物专利化学结构必须解决族性结构的处理问题。一种化学物质不论有多少不同名称和表达法,它只能有一个唯一的化学结构表达,而一个使用族性结构描述的药物专利化学结构可能包含上百,甚至成千上万个具体的化学结构。与特定化学结构信息处理技术相比,族性结构的处理是一种更为复杂的信息处理技术。直到90年代初,仍然有人认为用计算机处理族性结构信息是不可能的1-3。尽 管如此,对于族性结构处理方法的研究从未停止过。Lynch等人从80年代开始对族性结构问题进行了长期的深入研究4,美国化学文摘社于90年代中期推出了基于族性描述的专利结构检索系统MARPAT5,其后欧洲工业产权局推出了基于结构代码的药物专利检索系统MarhushDARC6。虽然这两个系统还存在这样那样的问题7,MARPAT和MarkushDARC已经获得广泛的应用。(1)药物专利化学结构的特点和计算机处理问题药物专利中的化学结构绝大多数使用族性结构方法进行描述,因此具有族性结构的所有特性。一个药物专利化学结构通常由两部分组成:一组带有取代基R的化学结构图形和数段关于取代基R及其他可变结构属性的自然语言描述。此种描述方法使得药物专利化学结构信息与确定化学结构信息具有本质的差别。首先,一个确定化学结构代表了一个且仅代表一个特定的化学物质,而一个药物专利化学结构往往代表了一组具有某种共性的具体化学物质,其数目常常是不可枚举的。如果将使用确定化学结构描述的药物专利化学结构看成一种特例,则每一个药物专利化学结构都有一组隐含的确定化学结构集。使用确定化学结构描述的药物专利化学结构的隐含确定化学结构集中只有一个确定化学结构,就是它自身。具有可变的结构属性是药物专利化学结构可以表示一组具有某种共性的确定化学物质的基础。带有可变取代基R的药物专利化学结构是最常见的情况,其他常见的可变结构属性包括取代位置、取代基数目和同系物(可变的原子数目)8。实际上,药物专利化学结构的任何一种结构属性都可能是可变的,以满足某类化学物质描述的需要。因此,药物专利化学结构的计算机表示方法必须考虑到所有结构属性的可变性。以族性结构为主要描述手段的药物专利化学结构在结构描述方面除了具有确定化学结构所具有的表述歧义,如互变异构、环双键的位置等以外,还存在族性结构描述特有的表述歧义。常见的族性结构表述歧义包括:同一种取代基可以用结构图形,也可以用自然语言描述;同一个药物专利化学结构可以使用不同的取代基划分;同一组取代基可以使用通式表示,在某些情况下也可以使用枚举方法表示。族性结构表述歧义给计算机处理药物专利化学结构信息带来极大的困难。尽管理论上可以规定在有歧义的场合只使用一种表述方式,实际上由于具体情况千差万别,无法制定详尽的规则而不能实现。另一方面,两个部分相同的药物专利化学结构不可能要求使用完全相同的表述,比如取代基的划分。因此,在进行药物专利化学结构信息的检索和比较时,必须考虑这类歧义表述问题。由于计算机在现阶段还不能识别和处理自然语言,对药物专利化学结构进行人工标引还是必不可少的。目前,人工标引可以分成两类,形式语言标引方法9和结构标引方法6,10。形式语言标引方法将自然语言通过相对简单的规则人工转换成计算机可以识别 的形式语言表述,可以基本保持自然语言描述的顺序和逻辑关系,最大限度地保持标引后的药物专利化学结构与原始自然语言描述的一致性。结构标引方法通过人工分析,将药物专利化学结构转换成一系列预先给定的结构模式。此种方法需要一套严密完善的规则和训练有素的标引人员,后继的检索和匹配相对比较容易。由于预定结构模式不可能符合所有情况,无法保证标引后药物专利化学结构与原始自然语言描述的一致性。在充分分析药物专利化学结构特点和有关描述问题的基础上,我们提出了药物专利化学结构处理方案。采用形式语言进行药物专利化学结构的标引11,发展可以兼容可 变结构属性的连接表用于药物专利结构的描述12,使用语义分析和全连接表表示解决 取代基结构图形和自然语言描述的歧义问题13, 14,使用特定的结构比较方法解决取代 基划分歧义,以及通式和枚举的歧义。(2)基于连接表的药物专利化学结构描述方法原始药物专利化学结构由带有取代基R的化学结构图形和自然语言描述两部分组成,其中自然语言描述部分将由人工转换成为形式语言描述,而化学结构图形部分将使用连接表描述。由于使用族性结构描述的药物专利化学结构可以看成确定化学结构的一种特例,即部分或全部结构属性可变的情况,因此在用于确定化学结构描述的连接表中引入可变结构属性,扩展后的连接表就可用于药物专利化学结构的描述。根据对确定化学结构连接表的分析,我们在连接表中引入了可变原子性质、可变键性质、可变连接位置、可变原子组性质,以及原子和键的可变计数。药物专利化学结构中的所有可变性质描述都是上述基本结构属性或部分基本结构属性的某种组合,因此化学结构图形中的可变性质描述可以与结构图形一起直接表示在连接表中。复杂的可变性质可以在标引时,或通过算法转换成为基本的可变结构属性记入连接表。(3)药物专利化学结构中自然语言描述转换成形式语言描述我们已经定义了一种称为DELAGES的基于形式语言的族性化学结构描述语言。使 用DELAGES标引的药物化学结构经过相应的语法分析和语义分析程序处理,可以得到药物专利化学结构的完全连接表表示。DELAGES的语法成份包括六种句型,三种表达式,两种节点和两种节点类型。DELAGES提供了比较充分的族性结构描述手段。在取代基描述方面提供了可变取 代基符(Ri)、可变键型符(Bi)、结构图形符(Gi)、超级描述符(SDi)和计数符 (Mi)。在取代关系描述方面提供了取代(SB)、可选取代(OSB)、全取代(ASD )和同时取代(ANDBY)描述。在结构片断描述方面提供了结构图形、结构名称和示 性式、同系物、结构组成、语义描述和任意基团的描述。在结构属性描述方面提供了位置、化学元素、键型、结构特征和环系描述。DELAGES的主要设计原则是尽可能 简便的标引规则,尽可能贴近原始描述的标引结果,支持目前已知的六种类型可变结构性质和条件描述(取代基可变、键性质可变、连接位置可变、计数可变、同系物和原子组性质可变)。根据对150多份 中等到较复杂药物专利的试标引结果分析,DELAGES族性结构标引方法基本符合 药物专利化学结构的标引需要,与美国化学文摘社使用的方法有一定的相似性,比欧洲工业产权局的MarkushDARC标引 方法更加简洁和易于掌握(见附录)。(4)药物专利化学结构表述方式的规范在药物专利化学结构描述中,可以使用图形和文字(结构名称或示性式等)描述同一个结构片断,此种处理在很多情况下简化了标引工作。由于计算机无法直接比较结构图形和文字描述的内涵,将对药物专利化学结构信息的检索和比较造成困难。由于结构图形与文字描述间的转换不是完全可逆的,我们决定用结构图形的连接表表示作为药物专利化学结构处理的逻辑平台。经DELAGES标引后的药物专利化学结构经过语法分析,识别出其中的文字描述结构片断和取代关系,再通过语义分析将文字描述结构片断转换成对应结构片断的连接表表示,加上相应的取代关系形成药物专利化学结构的完全连接表表述。这一处理方法解决了药物专利化学结构描述中结构图形描述和结构文字描述的歧义,提供了一个基于连接表的药物专利化学结构处理平台。如果使用的连接表可以表示结构的可变属性,药物专利化学结构的主要信息都可在连接表中得到体现。(5)药物专利化学结构表述形式的规范药物专利化学结构的表述存在取代基划分,以及通式和枚举两种歧义问题。取代基划分歧义使得相同的结构可以划分成为不同的结构片断,无法根据结构片断确定两个专利化学结构间的对应关系。这也是以结构代码为基础的药物专利结构表示方法难以实现精确的结构检索和比较的原因。我们设计了一种基于树图的结构表示方法,用于药物专利化学结构的比较。在树图表示中,药物专利化学结构已成为一个整体,与原来的取代基划分无关。在此基础上,可以比较容易地进行两个药物专利结构的环系定位和进一步的精细比较。通式和枚举的歧义可以使得两个相同的药物专利化学结构具有完全不同的表示却具有完全相同的隐含确定结构集,但是两者间的形式比较却因结构表示的不同难以进行。将通式表示转换成枚举表示再进行多对多的结构比较不仅费时,在具体比较和结果的确认方面都有很大困难,而且可能导致组合爆炸。通过算法将枚举表示转换成通式表示目前还很难实现。我们使用的包含可变结构属性的连接表可以通过通式表示和枚举表示间的结构属性比较,确认通式表示和枚举表示间的包容关系。但是通式表示和枚举表示间的相等关系确认需要将通式表示与枚举表示进行一对多的结构比较,尽管理论上可行,实现和结果的确认方面也有很大难度。为此我们在标引规则中规定通式表示优先于枚举表示,标引时应尽可能使用通式表示。(6)结果与讨论根据上述设想,我们完成了主要的方法和算法研究,通过人工标引和算法处理将原始药物专利化学结构转换成完全连接表表示,在需要进行结构比较时再进一步转换成树图表示。这一处理流程使得基于自然语言描述的药物专利化学结构可以转换成适合结构比较的树图表示,使药物专利化学结构的比较成为可能。药物专利化学结构的完全连接表表示转换成树图表示的算法与结构种类密切相关,需要分类进行研究,目前我们只完成了常见药物专利化学结构的转换算法。对于复杂药物专利化学结构的转换算法将分类进行研究。确定化学结构所具有的表述歧义问题,如互变异构、环双键的位置等在药物专利化学结构中同样存在,并且由于药物专利化学结构中可变属性的存在变得更加复杂。药物专利化学结构中此类表述歧义可能需要通过原子组性质可变来描述。药物专利化学结构信息的计算机处理包括药物专利化学结构的计算机表示、结构比较和快速索引(筛选)三部分。我们已经完成了第一部分的大多数工作,建立了结构比较的基础。基于上述设想的药物专利化学结构比较方法和算法已在研究之中。结构比较将包括环系色性初始定位和精细比较两步,前者确定匹配的可能性,后者确认两个专利化学结构的关系。本文讨论的药物专利化学结构处理方案不仅限于药物专利,其主要原理和方法可以同样适用于其他使用族性结构方法表述的化学结构。参考文献1 L. J. Brown. The Markush Challenge. J. Chem. Inf. Comput. Sci. 1991, 31, 2-4.2 J. F. Sibley. Too Broad Generic Disclosures: A Problem for All J. Chem. Inf. Comput. Sci. 1991, 31, 5-9.3 G. W. A. Milne. Very Broad Markush Claim; A Solution or a Problem? J. Chem. Inf. Comput. Sci. 1991, 31, 9-10.4 Lynch, M. F.; Branard, J. M.; Welford, S. M. Computer Storage and Retrieval of Generic Chemical Structures in Patents. 1. Introduction and General Strategy. J. Chem. Inf. Comput. Sci. 1981, 21, 148-150.5 Fisanick, W. The Chemical Abstracts Service Generic Chemical Structure Storage and Retrieval Capability. 1. Basic Concepts. J. Chem. Inf. Comput. Sci. 1990, 30, 145-154.6 Pierre Benichou, Philippe Borne. Handling Genericity in Chemical Structure Using the Markush DARC Software. J. Chem. Inf. Comp. Sci., 1997, 37, 43-53.7 Hajime Tokuno. Comparison of Markush Structure Databases. J. Chem. Inf. Comp. Sci., 1993, 33, 40-44.8 Dethlefsen, W.; Lynch, M. F.; Gillet, V. J.; Downs, G. M. Holliday, J. D.; Barnard, J. M. Computer Storage and Retrieval of Generic Chemical Structures in Patents. 11. Theretical Aspects of the Use of Structure Languages in a Retrieval System. J. Chem. Inf. Comput. Sci. 1991, 31, 233-253.9 Branard, J. M.; Lynch, M. F.; Welford, S. M. Computer Storage and Retrieval of Generic Chemical Structures in Patents. 2. GENSAL, a Formal Language for the Description of Generic Chemical Structures. J. Chem. Inf. Comput. Sci. 1981, 21, 151-156.10 俞飞白; 张莹; 王金凌. 族性结构新表达式GSCCT及其半自动生成. 科学数据库与 信息技术第三届学术研讨会.11 章元峰,陈维明,王源,郑崇直,陈燕,族性化学结构的计算机处理族性结构 的描述,情报学报 1993,12(4),250256.12 Weiming Chen, Chuantao Sun, Chongzhi Zheng, Connection table Representation of Generic Structure Variation. Proceeding of Symposium on Frontiers of Chemistry (in Conjunction with the Second Conference for Worldwide Chinese Young Chemists), 1997, Hongkong, 133-134.13 李航,陈维明,王源,郑崇直,族性化学结构的计算机处理族性结构文字描述 部分的分析与存储,计算机与应用化学,13(1996),257262.14 陈维明,孙传涛,郑崇直,基于连接表的族性结构表示和比较方案,计算机与应 用化学,13增刊(1997),159160.附录 本文标引方法与Markush-DARC方法的比较一个欧洲专利的标引实例A process for the production of epoxides of the formula (I) In which the benzene ring A is substituted with 1 to 3 halogen atoms, which are the same or different, and optionally carries other substituents, and R1 is which is the same as or different from the other group or C1-6 alkyl, .本文(DELAGES)方法的标引结果:R1 = Ph SB (X ANDBY R3 ) / Alkyl;R2 = Ph SB (X ANDBY R3 );R3 = H / ?.按 Markush-DARC方法的标引结果:G1: -Nbu; -CHK(1-6); G2: G3: -F; -Cl; -HALG4: -H; -F; -Cl; -HAL; -XXG5 = G4G6: -H; -XXG7 = G6G8 = G2G9 = G3G10 = G4G11 = G4G12 = G6G13 = G6G14: G15:G16 = G14G17=G15Representation and Computer Handling of Chemical Structure Information in Pharmaceutical PatentChen Weiming, Sun Chuantao, Zhu Cuidi, Wang Yuan, Zheng Chongzhi(Shanghai Institute of Organic Chemistry, Chinese Academy of Sciences, Laboratory of Computer Chemistry, Chinese Academy of Sciences, Shanghai, 200032)Abstract This paper discusses chemical structure information in pharmaceutical patent and the relevant problems in computer handling. After detailed analysis of natural language description, variable structure properties and various representations in pharmaceutical patent, a group of practicable methods including formal language indexing, syntax and semantic analysis, and tree graph representation are suggested.Keywords chemical structure pharmaceutical patent, formal language, various representations
展开阅读全文
相关资源
正为您匹配相似的精品文档
相关搜索

最新文档


当前位置:首页 > 压缩资料 > 基础医学


copyright@ 2023-2025  zhuangpeitu.com 装配图网版权所有   联系电话:18123376007

备案号:ICP2024067431-1 川公网安备51140202000466号


本站为文档C2C交易模式,即用户上传的文档直接被用户下载,本站只是中间服务平台,本站所有文档下载所得的收益归上传人(含作者)所有。装配图网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对上载内容本身不做任何修改或编辑。若文档所含内容侵犯了您的版权或隐私,请立即通知装配图网,我们立即给予删除!