• 发文
  • 评论
  • 微博
  • 空间
  • 微信

大模型在临床辅助诊疗场景下的问题与探讨|@攻城狮

CDSreport 2023-06-07 14:36 发文

编者按

本期 @攻城狮栏目邀请了惠每科技CTO王实,介绍医学领域大模型的生成规则,医疗垂直企业做大模型的优势,以及探讨在临床辅助诊疗场景下,大模型应用面临的挑战。

LLM 是Large Language Model 的缩写,中文翻译为大语言模型(以下简称“大模型”),是一种基于深度学习的自然语言处理技术。这些模型可以处理大量的文本数据,从而学习到自然语言的语法和语义规则。ChatGPT、LaMDA、PaLM等都是大模型的例子。

ChatGPT面世时,人们被它的数据生成、适应性和拓展性等能力所震惊。而现在,更智能、更准确、更前沿的GPT-4横空出世。在这种背景下,大模型将如何影响医疗行业?临床辅助诊疗场景中,大模型的开发又将面临哪些挑战呢?

挑战‍‍‍‍

私有化部署、可信度和速度

临床决策支持系统(以下简称CDSS)主要分为两个类别,一类是基于医疗文献和专家意见的医疗知识库,另一类是基于AI算法,综合患者信息后反馈决策。后者能够为医院带来的价值,除知识库功能外,还包括患者安全、医务管理、费用控制、自动化编码、辅助诊断、病案改写等方面。

CDSS在我国医院中智能化功能使用情况调查‍

在2022年南湖HIT论坛上,北京协和医院医疗保险管理处处长朱卫国公布了其对全院进行的一次智能化应用调研结果。调查结果显示,“合理用药检查”作为临床医生开局医嘱时规避禁忌冲突和重复用药的主要功能,以85.94%排在使用比例的首位;“临床辅助诊断”以46.51%排在第二位;后面依次为病案质量辅助审核、医疗保险辅助审核及临床方案自动推荐等应用。

除了满足上述功能外,基于惠每CDSS的VTE防治、病历质控和单病种质控功能也受到多家医院认可。

惠每VTE防治预警界面‍

VTE防治:患者住院过程中,存在因血栓脱落造成死亡的风险。用AI的方法代替人工对患者指标进行评估,可实时提醒医生对高危患者进行及时治疗。

惠每病历质控应用界面‍

病历质控:病历作为医院使用的典型半结构化文本数据,医务部门人员常外聘专家或退休医生对病历质量进行抽查,需耗费大量人工和财力成本。利用AI学习质控规则,可自动扫描病历并执行院内三级质控模式,实现管理关口前移和及时干预

惠每单病种质控提醒界面‍

单病种质控:通过AI实现准确识别病种、准确提醒医疗质量规则、准确识别医生“做了没”,让医生诊疗行为更有粘性,并以单病种的维度实现    整个诊疗路径和费用之间的平衡。

根据CDSS在医院临床的实际使用情况,我们发现,在临床辅助诊疗的场景下应用大模型,面临着三个挑战:私有化部署、可信度和速度。

1.私有化部署医院是一个十分重视数据安全的领域,由于不允许连接外网,因此无论是ChatGPT或其他国内厂商公开的API接口均无法在医院的电脑上使用。如何做好大模型在医院的私有化部署,成为挑战之一。

2.可信度由于目前大模型在医院内的使用属于生成的模型,其结果需要取得医生的信任,这是辅助诊疗产品研发过程中必须解决的问题。

3.速度大模型在临床辅助诊疗系统中的响应速度容易被忽视。一方面,大模型在公网的生成速度普遍较慢;另一方面,在医院资源有限的情况下,很难通过采购大量高性能GPU提升速度。因此,是否能够在不增加医院资源的前提下,迅速推广大模型应用,让医院尽早体验到大模型带来的收益,是值得探索和解决问题。

训练

依托临床非公开数据对大模型进行重训练

近些年,随着大语言模型的火热,在医疗领域内出现了许多号称使用了自研大语言模型的企业。那么应该如何分辨这种大模型的真实性和优劣呢?

首先,可以关注大模型的技术团队和企业基因;其次了解其算力、语料的堆砌情况;最后,观察其是否开放API接口或开源。

从0到1建立一个10B参数大小的大模型虽然可以实现,但要达到可用的效果或100B以上具备涌现能力的大模型所需的持续训练成本非常高,大多数中小企业难以负担成本。目前国能真正能够普遍使用的开源模型有两个:LLaMA 7B和ChatGLM 6B。

在医疗领域做好大模型,国内外是如何做的呢,有几个案例值得学习。

国外优秀大模型案例

基于第三方大模型API的开源大模型微调优化方案‍

美国斯坦福大学基于Meta模型训练出一个医疗大模型。开发人员提前设置了一系列Q&A任务,通过ChatGPT的API接口,在公网收集大量数据,然后重新训练Meta模型。最后,通过微调,生成了Alpaca 7B模型。

在整个过程中,最让人注意的是它的开发成本:其数据使用了8张A100(80G)卡,训练时间3小时,成本仅500美元。这是一个低成本,适合中小企业进行尝试的方案。

在实验结果对比中,经过微调产生的Alpaca 7B与通过GPT3.5扩充数据之后的模型对比,其效果相差不多,证明了该开源模型的能力可以达到领域内先进的模型水平。

值得注意的是,该方案仍存在问题,即生成模型过程中的普遍问题没有解决,最终可能会生成一个“看似正确的错误答案”。

Alpaca7B第三方API(gpt3.5)训练数据生成流程‍

在Alpaca7B的训练过程中,有两点值得注意:一是如何设计指令,二是生成大量新的训练数据时,如何挑选合适的数据纳入模型继续训练。很多关键技巧都隐藏在了这些步骤当中。

与常见的使用微调框架的做法不同,其训练过程中可以实现参数全部打开,进而在开源模型基础上继续训练,这也是比较成熟的框架做法(FSDP)。

国内优秀大模型案例

中文医学模型本草(原名华佗)评测效果对比‍

国内也有一个比较好的案例,就是哈工大的中文医学模型本草(原名华佗)。在斯坦福的Alpaca发布之后,持续关注医疗、语言处理的哈工大某实验室快速反应,通过类似思路开发了大模型。但与之不同的是,本草除了纳入GPT3.5 API生成数据外,还加入了国内知识图谱的数据,通过混合两部分数据对LLaMA7B进行微调。

实验结果对比显示,在输入测试中,本草的反馈效果较Alpaca7B和LLaMA7B更好。

从国内外这两个案例可以看出,医疗领域的大模型并不是简单的“从0到1”,其技术难度非常高,这也是国内外通过微调通用模型实现医疗领域模型的重要原因。

惠每科技独特的大模型训练方式

基于国内外医疗领域内的研究经验,惠每科技形成了独特的医疗领域大模型训练方式。

惠每大模型训练流程‍

首先,基于通用模型进行微调。惠每人工智能解决方案的系列产品目前已经在600多家医院中私有化部署。在实践过程中,这些数据均已被处理,形成优质结构化数据。这些数据加上惠每数据库图谱和第三方API生成的数据,再对通用模型进行微调,形成了惠每大模型。目前,惠每已实现7B级规模大模型训练、微调、私有化部署全链路关键技术和算力

通过惠每CDSS等产品的应用,可以快速收集到宝贵的医生反馈数据。这种RLHF(Reinforcement Learning with Human Feedback)方式,不仅能够让医院体验到大模型应用带来的收益,还能在累积数据的过程中,不断验证大模型在新场景处理新任务时的迁移能力,进而完善大模型的形成。

这种方式既是低成本路径,也是摸清训练和调试模型的最佳方式之一。

数据‍‍‍‍‍

医疗行业企业大模型研发有自己的优势

大模型的研发,无外乎模型、算力和数据。对比OpenAI、百度等大型企业,医疗垂直行业的企业在模型使用上相差不多,在算力上相差较大,但它们也有自己的优势——数据。

这些数据一方面包括半公开的数据,例如收集了大量的医学文献的医学知识库、知识图谱等,一方面则是不公开的数据,包括临床脱敏数据、电子病历、检测检验报告和RLHF临床医生反馈数据。其中的大量数据在公网是完全无法获得的。

目前很多医疗企业做的大模型应用场景仅局限在问诊,这是由于其基于Chat模式制作。对于临床医生,问诊相关应用确实可以成为提升效率的工具,但从临床诊疗建议角度,其使用频率相对较低。大模型是改变时代的产品,其应用场景也一定不仅仅是问诊。

相比之下,基于私有数据进行重新编辑组织的Copilot方式更适合临床诊疗场景,且更具指导意义。

根据国家政策,CDSS应满足如下基本要求:

1. 临床知识来源应该具有权威性,包括但不限于国家认可的临床诊疗规范、指南、标准、医学教材、专著、文献、临床经验等。

2. 临床知识库应及时更新,更新周期一般不长于半年。知识库内容应有退出机制,对不适用的知识应及时清除。

3. CDSS的决策结果应准确、可靠。

4. CDSS的使用应留存审计日志、可对使用情况进行溯源评价。

以上要求的实现,也奠定了CDSS必须实现私有化部署,也只有这样才能实现本地知识库融合,进而训练出可信赖的大模型。

速度‍‍

不能被忽视的大模型推理性能

大模型在医院落地的核心指标之一,是其推理性能。

在一项“生成一个300字病历”的任务测试中,国内3家开放的大模型应用分别用了19s、14s和24s。尽管该项测试没有排除网络因素等,但仍能得到大概20-30token/s的数据生成速度,该速度在临床诊疗场景下是远远无法满足使用。

不同输入Token长度下平均推理速度‍

目前,惠每科技已经与合作医院签署了相关协议,可以在院内进行训练和测试。测试结果显示,基于惠每6B模型,在使用型号为英特尔6148的CPU时,数据生成速度大约为6token/s(目前已提升至10token/s);而使用GPU服务器时,数据生成速度可达到47token/s。

为了提升大模型响应速度和数据生成速度,惠每科技投入了大量成本在制作向量化模型的蒸馏工作。此前,惠每科技与英特尔合作,尝试用OpenVINO模型框架在CPU上实现加速,使得模型推演速度得到显著提升。未来,双方将继续合作,尝试在CPU上实现性能提升,让整个推理大模型更快地在医院落地,从而带动生态环境,并产出更多的优质应用。同时通过获取更多的反馈数据,实现良性循环,未来或许有机会建造130B的通用医疗模型。

【责任编辑:王惠】

——本公众号所有图文,未经许可,严禁转载!如需转载,请提前与编辑联系取得转载许可。否则视为侵权!

声明:本文为OFweek维科号作者发布,不代表OFweek维科号立场。如有侵权或其他问题,请及时联系我们举报。
2
评论

评论

    相关阅读

    暂无数据

    CDSreport

    深挖临床大数据价值,专注于知识图...

    举报文章问题

    ×
    • 营销广告
    • 重复、旧闻
    • 格式问题
    • 低俗
    • 标题夸张
    • 与事实不符
    • 疑似抄袭
    • 我有话要说
    确定 取消

    举报评论问题

    ×
    • 淫秽色情
    • 营销广告
    • 恶意攻击谩骂
    • 我要吐槽
    确定 取消

    用户登录×

    请输入用户名/手机/邮箱

    请输入密码