易学3+分生信诊断标志物思路

大家好，今天豆沙包给大家分享一篇3分＋的学习笔记。这篇学习笔记中应用新开发的一种机器学习的方法，得到可作为诊断signatures的11对基因对，从而实现对肝细胞癌的早期诊断。

题目：机器学习方法对肝细胞癌的早期诊断

参考文献：https：／／doi．org／10．3389／fbioe．2020．00254

一、研究背景

肝癌是恶性肿瘤患者死亡的第四大原因。肝细胞癌（HCC）约占肝癌病例的90％，通常在晚期诊断，预后差。因此，早期HCC诊断对改善患者预后和生存具有重要意义。

REOs对同一肿瘤组织内的实验批次效应和平台差异、部分RNA降解和不确定取样位点具有很强的鲁棒性。在先前研究中，利用样本内REOs获得的19对基因对可改善早期肝癌诊断。但REOs识别HCC的规则简单，基因之间的某些内在关系没有被揭示，且HCC诊断的准确度仍有待提高，因此开发了一种基于机器学习的方法来诊断HCC的样本内REO。

二、研究思路

三、结果解读
1、诊断标志物的识别

从 GEO 和 TCGA 数据库中获得基因表达谱数据集。

首先，根据样本的类型和抽样方法从HCC（D1）活检样本、HCC（D2）手术样本、CwoHC（D3）活检样本和 CwoHC（D4）手术样本中提取数据集。为了客观评价这个模型，将以上每种类型分成两个数据子集：训练（80％）和测试数据集（20％）。

训练数据集包含1091个HCC样本（112个HCC活检样本和979个HCC手术样本）和 242个CwoHC样本（70个CwoHC活检样本和172个CwoHC手术样本）。

测试数据集包含73个活检样本（29个HCC样本和44个CwoHCC样本）和263个手术样本（245个HCC样本和18个CwoHCC样本）。

总共识别了在1091个HCC样本中有至少95％的样本具有相同的REO的13，586，043个稳定基因对。同样还确定了在242个CwoHCC样本中至少有95％的样本具有相同的REO14，475，509个稳定的基因对。

图1．开发和验证HCC诊断标志物的流程图

在训练数据中获得了HCC样本和CwoHCC样本之间的857个reversal基因对。随后获得训练数据集和验证数据集之间的共同基因及其相应的基因表达谱。基于基因表达谱和reversal基因对，使用 1、0 、－1 分别表示Ea＞Eb、Ea＜Eb 和其他情况（Ea或Eb不存在）生成了一个新的表达谱。（基因a的表达水平高于基因b，则两个基因的REOs以Ea＞Eb的形式表达）

根据新的谱，通过将mRMR与SVM结合使用，选出了表1中显示的11对基因对，并将其作为诊断signature。11对基因对可以在HCC识别的训练数据上产生100％的准确度。

表1．肝癌早期诊断的标志物——11对基因对

采用增量特征选择（IFS）方法从857mRMR基因对中选择最优基因对作为诊断signature。使用mRMR优化的前857个特征进行预测时，在五倍交叉验证中，总体成功率达到100％的IFS峰值。实线表示ROC曲线。虚线表示随机猜测的策略。

图2．显示识别HCC的IFS程序

2、独立数据集诊断标志物的检查

使用活检和手术切除样本来估计11对基因对的性能。

对检测数据集中的73例活检标本，准确度100％，灵敏度100％，特异度100％。

对检测数据集中的263例手术切除标本，其准确度100％，灵敏度100％，特异度100％。

在数据集中GSE121248 中，70 个HCC样本中100．0％都被正确地识别为HCC。

对于手术切除的样本，来自 3 个数据集（GSE109211、GSE112790和 GSE102079）的475个HCC样本中的 79．79％被正确分类。

基于11对基因对的模型可以正确地识别用RNA－seq测量的HCC（NwHCC）患者的371个HCC和50个正常组织，其中没有包含RNA－seq 信息。这些结果表明，11对基因对特征可以区分肝癌和非癌性肝组织，并且该特征对临床病理变化具有较强的鲁棒性。

表2．验证数据集中标志物的性能

图3对于活检样本，GSE54236中肝癌（CwHCC）患者的 80 例肝硬化组织和 2 个数据集（GSE64041和GSE121248）的97例NwHCC活检组织均为肝硬化组织。

图3．来自活检和手术切除的HCC和CwoHCC样本的公共数据库的验证数据的接收器操作特性曲线（AUC）下的区域

3、与现有方法比较

将此方法与现有的基于19对基因对的模型进行了比较，发现19对基因对可以被看作是区分肝癌和邻近的非癌组织（肝硬化或正常组织）与CwoHCC的诊断特征。它们的模型可以产生 99．69％的精确度，低于11对基因对模型。

对于活检样本，11对基因对模型可以正确地识别GSE121248中的70个HCC样本和来自2个数据集（GSE64041和 GSE121248）的97个NwHCC活检组织精度为 100％。此外，GSE54236 中的所有80 个CwHCC样本都可以预测为 HCC。与 19对基因对模型的精度（77．5％）相比，11对基因对模型的精度可提高到100％。

对于手术切除的样本，根据11对基因对的预测，来自 3 个数据集（GSE109211、GSE112790 和 GSE102079）的 475 个 HCC 样本中的79．8％和来自 5 个数据集（GSE6764、GSE17548、GSE25097、GSE17967和GSE63898）的254个CWHC样本中的93．7％可以被识别为HCC。

此外，HCC样品的敏感度提高到79．8％（19对基因对：79．3％），NwHCC样品对HCC的准确度提高到100％（19对基因对：96．6％）。

由此可以看出，在通过手术切除标本鉴定来自Cwohc的HCC和邻近非癌组织（CwoHCC和NwHCC）时，基于11对基因对的模型比基于19对基因对的模型表现出更好的性能，表明基于11对基因对的模型在为早期HCC诊断提供可靠的结果方面是相当有前途的。

表3．11对基因对与现有方法在独立数据集上的比较

小结

这篇学习笔记在收集数据之后便将其分为训练集和测试集，并从训练数据中获得了HCC样本和CwoHCC样本之间的857个reversal基因对。随后获得训练数据集和验证数据集之间的共同基因及其相应的基因表达谱。基于基因表达谱和reversal基因对，使用 1、0和－1分别表示Ea＞Eb、Ea＜Eb和其他情况生成了一个新的表达谱。根据新的谱，通过将mRMR与SVM结合使用，选出了显示的11对基因对，并将其作为诊断标记。11对基因对可以在HCC识别的训练数据上产生100％的准确度。可见使用样本内REO和SVM提出的基于11对基因对的模型在训练数据集和独立数据集上都是强大的。这18个基因组成的11对基因对形成一组诊断特征，可用于区分肝癌和邻近的非癌组织与CwHCC个体的早期HCC诊断。

利用KEGG通路和GO terms上的Metascape2对18个基因进行功能富集分析。分析表明，11对基因对的基因可能在HCC的发展和进展中起着至关重要的作用。在目前的研究中，发现的11对基因可以用于准确诊断肝脏中发现的肿瘤。此外，将尝试为所提出的“11对基因对”模型建立一个用户友好的Web 服务器。

易学3+分生信诊断标志物思路

相关阅读

科研菌

科研菌

举报文章问题

举报评论问题

用户登录×