大众健康转化领域践行者

作为基因检测应用领域的先锋标杆企业,新标基因已经形成完整的数据解读、产品研发、
精准定制、健康咨询的全产业链服务格局

行业动态
在没有遗传数据的情况下计算疾病之间的遗传联系
发布时间:2019-12-11 10:50:34| 浏览次数:

医师根据症状或身体中的位置,
使用标准的疾病分类来帮助进行诊断。


这些分类称为疾病分类,

可以帮助医生了解哪些疾病密切相关,
因此可能是由相同的潜在问题或对相同的治疗方法造成的。

20191210033705564.jpg


理解疾病的一个重要部分是估计其遗传力,即个体中疾病遗传变异的百分比是由于遗传遗传变异与环境因素(如暴露于污染,感染或创伤)所致。

传统上,为了计算特定疾病的遗传力,研究人员需要昂贵的数据集,其中应包含各种医学和遗传数据以及详细的家庭关系知识。

在一项新的研究中,芝加哥大学的数据科学家估算了遗传力,并使用电子健康记录中的数据绘制了数千种疾病之间的关系。

该研究于2019年12月3日在《自然通讯》上发表,计算了每种疾病在平均寿命中的流行率的统计曲线,显示出这种趋势倾向于在生命的早期或晚期发生。

研究人员还创建了“疾病包埋”或疾病分组,这些疾病根据健康记录中的诊断代码和注释显示了彼此之间的密切关系。利用疾病嵌入揭示的这些曲线和模式的相似性,研究人员可以估算出疾病之间的遗传力和遗传相关性。

UChicago的数据科学家,论文的资深作者Andrey Rzhetsky博士说:“过去对疾病之间的遗传力或遗传与环境相关性的每一个新的估计都是一件大事。”“在这里,我们能够估计成千上万的遗传力值和成千上万的相关性,而这样做过去非常昂贵,而且规模很大。”

早发与晚发

为了建立团队的统计模型,该论文的第一作者,博士后研究员耿庚杰博士使用了Truven MarketScan的数据,该数据库是美国11年间1.51亿人的不明身份健康声称数据库。这些数据还包括丹麦国家患者注册中心(21年内有560万人)和瑞典国家卫生注册中心(44年间有940万人)的数据。然后,他们创建了疾病患病率曲线,绘制了各个年龄段患病人口的百分比。

曲线记录了整个平均寿命期间疾病患病率的统计显着变化。曲线的不同极端和形状显示了一种疾病在年轻(发病早)还是较大(发病晚)年龄时更普遍。研究人员还可以识别曲线上的下降或峰值,这可能是可能影响疾病的环境触发事件的信号,例如青春期,饮食变化,创伤或感染。

该团队还使用神经网络模型分析了疾病何时出现在病历中,建立了“疾病嵌入”或疾病之间的关系。此分析是在自然语言处理之后建模的,该自然语言处理通过分析周围的单词来定义单词的基本语义。在健康记录中,疾病就像一个单词,而它们在一生中发展起来的状况的历史记录就是一个句子。例如,随着医生缩小诊断范围,“头痛”之后可能会出现“偏头痛”。因此,当您在二维地图上绘制它们时,头痛似乎比胃痉挛更容易偏头痛。

Rzhetsky说:“该系统正在通过优化每种疾病的20个参数,从患者数据的真实序列中学习。”“在这种情况下,鉴于患者过去的健康史,该网络正在尝试预测接下来会发生什么。您可以像医生做出诊断时脑海中所发生的事情那样思考它。”

识别新模式

他们研究数据时,出现了几种模式。在美国的数据中,较早发作的疾病数量多于较晚发作的疾病,但在人群中的发病率较低。这可能是因为常规的新生儿筛查和对儿童的监测倾向于发现更多的疾病,或者因为遗传成分很强的疾病倾向于更早发作并导致更多的死亡。

当仅通过遗传学将两种疾病密切相关时,其流行曲线的形状可能会非常不同。如果仅通过环境因素将它们联系起来,则它们非常相似,但是当环境和遗传相关性都很高时,曲线最相似。

研究人员还发现,一些看起来密切相关的疾病(如精神病)会根据平均发病年龄分为不同的组。例如,注意力缺陷多动障碍和自闭症是较早发作的,而精神分裂症,躁郁症和抑郁症往往是较迟发作的。

贾说,这种具有如此大的健康数据集的初始运行验证了他们基于曲线形状的相似性对疾病进行分类的方法。在较高水平上,结果与疾病组之间公认的分类和关联相匹配,但确实发现了一些意外。例如,发现寄生虫感染与一系列非传染性疾病一致,例如神经纤维瘤病,耳鼓膜疾病,成骨不全症(脆性骨疾病)和先天性眼部异常。

以前从未像本研究一样系统地比较过按年龄和性别划分的疾病流行曲线(单击此处可查看500多种疾病的性别和国家分层流行曲线的可搜索数据库)。现在,该团队希望改进这些工具,并使用它们来弥补未充分研究的情况的空白。



© 2015-2020 AGI·新标基因医学检验版权所有. All Rights Reserved. 粤ICP备16056564号