知识图谱

医学知识库 SNOMED CT

2018-09-30  本文已影响0人  撸撸很乖张

SNOMED CT

Systematized Nomenclature of Medicine - Clinical Term的缩写,全称是医学系统化命名-临床术语

SNOMED CT(Systematized Nomenclature of Medicine -- Clinical Terms,医学系统命名法-临床术语,医学术语系统命名法-临床术语),是一部经过系统组织编排的,便于计算机处理的医学术语集,涵盖大多数方面的临床信息,如疾病、所见、操作、微生物、药物等。采用该术语集,可以协调一致地在不同的学科、专业和照护地点之间实现对于临床数据的标引、存储、检索和聚合。同时,它还有助于组织病历内容,减少临床照护和科学研究工作中数据采集、编码及使用方式的变异。

例如,对于心脏病学专科医师来说,心脏病发作、心肌梗死以及MI可能指的是同一含义,而对于计算机来说,三者之间则全然不同。因此,不同的医疗保健服务提供者、医疗服务设施、研究人员以及其他相关方之间需要协调一致地交换临床信息(语义互操作性);而且,不同的地方对于医学信息的记录方式也各不相同(如采用纸质记录或者采用电子记录),因而需要一种广泛全面而又协调统一的医学术语系统(medical terminology system),作为信息基础结构(information infrastructure)的组成部分。

SNOMED CT目前包括大约321 900条概念(Concept)、超过80万条临床概念相关的描述(Descriptions),和超过700万条进一步描述概念的关系(Relationships)。

概念 Concept
描述 Description
关系 Relationship

设计体系

概念和描述:每个唯一性数字型代码、唯一性名称(全称,即Fully Specified Name)和描述(包括一条首选术语和一条或多条同义词)所指定的基本含义单位。 SNOMED CT不再使用词条表的方式对术语进行表示,而是采用概念的形式。概念以理解为医学中标准的临床术语,每个概念都有唯一的概念码,但每一个概念都可能有多个描述,并且由993420条描述形成了庞大的描述表——我们可以理解成同义词表。如“Pain in throat”(咽喉痛),在SNOMED CT中是概念,而在实际应用中,它将会有多种不同的术语表达,如“Sore throat”、“Throat pain”、“Pain in pharynx”、“Throat discomfort”、“Pharyngeal pain”、“Throat soreness”,但它们并不是概念,而只作为描述被收集在描述表中。每一条概念有若干描述与之对应,描述表中的每一条描述也有与之相对应的概念存在。

SNOMED CT 中共有3种术语描述类型,即“指定全称”(Fully Specified Name,FSN)、“首选术语”(Preferred)及“同义术语”(Acceptable)。每个概念都有一个“指定全称”和一个“首选术语”,同义术语是除去首选术语外,其他能够描述FSN所描述概念的术语,如图2所示。

The FSN represents a unique, unambiguous description of a concept's meaning. The FSN is not intended to be displayed in clinical records, but is instead used to disambiguate the distinct meaning of each different concept.

image

概念描述实例:

概念 Myocardial infraction 22298006

规范化全称:Myocardial infraction(disorder) DescriptionID 751689013

首选术语:Myocardial infraction DescriptionID 37436014

同义词:Cardiac infarction DescriptionID 37442013

同义词:Heart attack DescriptionID 37443015

同义词:Infarction of heart DescriptionID 37441018

关系:用于在同一层级结构之内或不同层级结构之间将不同的概念联系起来。 SNOMED CT中的概念与概念间是有一定“关系”存在的。概念有36万条,但关系有近146万条。这种基于概念间的语义关系令数据的获取充分可靠。在SNOMED CT中,关系分为两种: IS-A关系与属性关系。

IS-A在同一个层面中,表示某些概念间的关系。如关节炎属于关节系统疾病,而关节系统疾病属于骨科疾病,这样关节炎→关节系统疾病→骨科疾病就形成了一种IS-A关系;

属性关系表示跨层面的概念间的关系,如“阑尾炎”是一种疾病,但从形态学上看,“阑尾炎”属于炎症的一种,在属性关联中,可由“阑尾炎”引导出“炎症”。

attribute(熟悉)关系

临床发现 手术/操作 事件 身体结构 药物/生物 制品、设备、标本等各类概念均有其特有的属性

临床发现:发现的部位、形态学表现、与其他(如原因)的关系、严重度、临床进程等

手术/操作:手术部位,手术目标部位,手术方法,手术路径,手术用药,优先度

临床发现实例.png is a.jpg image

由图我们可以看出,每一个独立的概念会有若干个文字化的描述用以表达。描述可以是同语种中的同义词,也可以不同语种。概念和概念之间会有不同的关系类型来将其链接起来。而这些关系会不断的延展下去,最后成为子子孙孙无穷尽也的模式

关系表记录了具有临床意义的全部语义关联组合,运用丰富的连接概念,将归属于同一概念轴和不同概念轴的概念连接起来。语义关联一方面可以用来组织概念,另一方面也可以构成灵活多样的复杂概念表达方式。关联分为两类:

image image

定义型:定义型关系是源于概念逻辑定义的一部分

appendicectomy: procedure site = appendix

阑尾切除术:手术部位 = 阑尾

限定型:限定型关系提供了一个可选限定词,可以应用于源概念

appendicectomy: approach = laparascopic

Relationships

SNOMED CT relationships link concepts to other concepts whose meaning is related in some way. These relationships provide formal definitions and other properties of the concept. One type of relationshipis the |is a| relationship which relates a conceptto more general concepts. These |is a| relationships define the hierarchyof SNOMED CT concepts.

Other types of relationships represent aspects of the meaning of a concept.

Every relationship has a unique numeric relationship identifier.

The set of concepts to which an attribute can be applied is called the 'domain' of the attribute. The permitted set of values for each attribute is called the 'range' of the attribute.

能用某属性的概念集合叫做domain 属性的取值集合叫做range

Domain

The domain is the hierarchy to which a specific attribute can be applied.

For example:

The domain of the attribute |associated morphology| is the |clinical finding| hierarchy. Therefore, a |procedure| cannot have an |associated morphology|. However, a |procedure| can have a |procedure morphology|.

Range

The range is the set of SNOMED CT concepts that are allowed as the value of a specified attribute.

For example:

The range for the attribute |associated morphology| is the concept |morphologically abnormal structure| and its subtype descendants.The range for the attribute |finding site| is |anatomical or acquired body structure| and its subtype descendants in the |body structure| hierarchy.

range.png

The first example below violates the domain constraint of |causative agent|, as descendants of |body structure| are not in the domain of |causative agent|. The second example below is valid with respect to the domain constraint of |causative agent|, because |disorder| is in the domain of |causative agent|. However, this example violates the range constraint of |causative agent|, as descendants of morphological abnormality are not in the range of |causative agent|.

exp.png

Expressions

Clinical expressions using SNOMED CT concepts can be of two types: precoordinated expressions, which use a single SNOMED CT concept identifier; and postcoordinated expressions, which contain more than one SNOMED CT identifier. 前组合 后组合

Infective pneumonia 312342009 前组合

病因:细菌 bacteria 41146007
病理过程:感染 infectious process 441862004 -> 后组合
部位:肺部 lung 39607008
形态学:炎症 Inflammation 257552002

Example: Postcoordinated representation of "Laparoscopic emergency appendectomy"
Although SNOMED CT contains the concept |laparoscopic emergency appendectomy|, it is also possible to represent this clinical phrase using the following postcoordinated expression.

上面例子说明,及时有单一概念可以用于表示,同时也可以用后组合。然而后组合的优势在于,及时SNOMED CT

中不存在精确概念,它也允许表示临床短语。

Example: Postcoordinated representation of "Laparoscopic removal of device from abdomen"
SNOMED CT does not contain a concept that represents this clinical idea. However, it is possible to represent it using the following postcoordinated expression.
68526006|removal of device from abdomen|:425391005|using access device|= 6174004|laparoscope|

The basics of SNOMED CT compositional grammar

编码

对于每一个系统,其编码都是有固定格式延续下来的。SNOMED CT的编码,我们简称为SCTID,为一组不超过18位的数字。由于历史原因SCTID存在两种格式。在SNOMED CT发布之初,也就是常说的发布格式1(RF1)或短码(short format SCTID),其编码格式为三段式,全部由SNOMED International发布的。

例子: 70153 00 2
最后一组,一位数,为校验码。本例为2
倒数第二组,两位数,为类别代码。本例为00
剩余为序列号。本例为70153

在2012年,SNOMED CT的第二个发布格式(RF2)开始启用。其编码格式变成了四段式,也就是相对而言的长码(long format SCTID)。这类代码既可以是SNOMED International发布的,也可能是由其它授权机构发布的扩展编码。

例子: 1227124 1000119 10 9
最后一组,一位数,为校验码。本例为9
倒数第二组,两位数,为类别代码。本例为10
倒数第三组,七位数,为机构码。本例为1000119
剩余为序列号。本例为1227124

校验码 Check Digit

SNOMED CT的校验码使用的是Verhoeff算法。该算法相较Modulus 11算法更适合超过10位数的计算。使用校验码有利于提高数据错误的检验。

类别码 Partition Identifier

目前使用中的类别码只有六个:

00 概念(短码)
01 描述(短码)
02 关系(短码)
10 概念(长码)
11 描述(长码)
12 关系(长码)

因此当SCTID的倒数第三位数字是1的话,这个编码就是一个四段式的长码。如果是0的话,这个编码就是一个三段式的短码。看码识类别是SNOMED CT编码有别于其它编码系统的一个特色。其实这样的编码在应用程序的设计时比较方便。

机构代码 Namespace Identifier

机构代码是由SNOMED International认可的机构代码,由七位数字组成。如果不足七位的话使用0从左边补齐。SNOMED International将最新的机构代码目录保存在谷歌服务器。在上面例子中的机构码1000119为Kaiser Permanente。

序列号 Extension Item Identifier

序列号就是按照顺序排列的数字,在短码中理论上可以最多为15位数字,在长码中最多为八位数字。其具体分配方式(顺序或随机)SNOMED International并没有书面上的规定,所以可以由编码机构自行定义。

现在我们再看一下上面给出的两个例子:

70153002 为由SNOMED International自身发布的第70153个概念。
12271241000119109 为由Kaiser Permanente发布的概念。

从数据类别方面来讲,SCTID的长度为18位,超出了32位整数格式,存储时适合使用64位长整数格式或字符串格式。

19大类目

身体结构(Body structure)
临床发现(Clinical finding)
环境和地理定位(Environment or geographical location)
事件(Event)
观察对象(Observable entity)
有机体(Organism)
药物/生物产品(Pharmaceutical/biologic product)
物理力(Physical force)
物理对象(Physical object)
操作(Procedure)
限定值(Qualifier value)
人为记录件(Record artifact)
具有明确语境的情况(Situation with explicit context)
SNOMED CT模型组件(SNOMED CT model component)
社会环境(Social context)
特殊概念(Special concept)
标本(Specimen)
分期与分度(Staging and scales)
物质(Substance)

每一个大类之下会包含不同的子类别和孙类别,譬如说疾病(disease)和药物作用(drug action)就是临床发现(clinical finding)的子类别。

上一篇下一篇

猜你喜欢

热点阅读