2020年,新冠肺炎疫情使许多国家的公共卫生系统不堪重负,暴露出应急能力薄弱等问题。改革和加强突发公共卫生事件应急响应已成为全球关注的焦点。今年2月,Xi总书记来到北京市朝阳区疾控中心调研指导时指出:“这次疫情,是对我国各级疾控中心应急处置能力的一次大考。抗击疫情不仅展现了良好的精神状态和显著的制度优势,也暴露出许多不足。要把国家疾控体系建设作为根本建设,加强各级防控人才、科研力量和立法建设,推进疾控体系现代化。
现代疾控体系离不开大数据、人工智能等新兴技术的加持。对于公共卫生部门来说,通过覆盖全国的电子患者病例数据库,可以快速监测传染病,全面监测疫情,整合疾病监测和应对程序,快速应对。大数据可以在疫情常态化监测、预警处置、趋势预测判断、溯源传染源、资源配置、防治等方面发挥至关重要的作用。
如今,世界各国深刻认识到医疗大数据作为国家基础战略资源的重要性,努力建设国家医疗数据库,抢占医学研究、精准诊疗和前沿移动设备的前沿阵地。2016年,在原国家卫生计生委领导下,国家基因库逐步建成,实施了1个国家数据中心、5个区域数据中心、x个应用开发中心的医保大数据计划,催生了新的业务形态,推动了新经济。
一、大数据在我国疾病监测领域的应用现状
2003年非典疫情暴露出我国传染病监测报告信息严重滞后,畅通的疾病监测信息网络成为疾病预防控制信息化建设的重中之重。因此,我国从2003年开始启动应急管理体系建设,其核心是建立以国家统一领导、综合协调、分类管理、分级负责、属地管理为主要着力点的应急管理体系。其中,“一案三制”是指国家突发公共事件应急预案体系和国家应急管理体制、机制和法律制度。2004年初,以现代网络传输技术为基础,横向到边、纵向到底,以统一、高速、快速、准确的信息传输为目标的中国疾病预防控制信息系统初具规模。
2020年新冠肺炎疫情爆发时,很多人质疑2004年开始运行、当时耗资7.3亿元的全国传染病和突发公共卫生事件网络直报系统为何没有起到预警作用。事实上,专网直报疾控并非无效。据媒体报道,疾控直报专网的数据来源完全取决于报道的数据。由于各种因素,疾控直报专网无法与医院内部网络直接连接。由于无法收集数据,该系统无法正常运行。2月3日,卫生健康委发布《关于加强信息化支持新型冠状病毒肺炎疫情防控的通知》。根据通知,各地卫生健康委员会不断完善采集方式,大部分医院开始采用网络直报方式,最终逐渐发挥了专网的作用。因此,对于大数据来说,真正的数据源是极其重要的一步。
在医疗健康数据库方面,2006年我国开始建设国家医疗健康数据库,整合区域内医院、基层卫生机构、公共卫生机构的各类数据,形成以个人为中心的全生命周期电子健康档案数据库。2015年,原国家卫生计生委启动十省互联互通项目。全国约50%的附属医院、42%的省级医院、38%的市级医院已启动医院信息平台建设。2016年,原国家卫计委启动卫生健康“1+5+X”大数据发展规划,在江苏、贵州、福建、山东、安徽等省建设了5个数据中心。2017年,原国家卫生计生委牵头组建了中国医疗大数据产业发展有限公司、中国医疗大数据技术发展集团有限公司、中国医疗大数据股份有限公司三大医疗健康数据集团,承担国家医疗大数据中心、区域中心、应用开发中心、产业园建设任务。
生物数据库方面,国家基因库于2016年正式成立,集生物资源样本数据库、生物信息数据库、生物资源信息网络于一体。福建省和江苏省作为国家医保大数据中心的“先行者”,基于自身优势逐步建立政策保障体系和数据平台。
总的来说,要让AI+大数据技术在传染病防控中发挥作用,需要在行业内从上到下打通“部门-省-市-区县”的垂直领域数据,横向打通跨行业部门的“信息孤岛”。从顶层设计上,需要实时结构化的信息互联和业务联防联动。
今年防疫过程中,多家企业帮助疾控中心和医院建设疾病监测预警系统。
比如北京大树医科大学为南京市疾控中心建设的疾病监测预警系统,直接与当地医院的电子病历系统对接。该疾控监测预警系统应用了医科大学最先进的大数据和人工智能技术,构建医学知识图谱模型,然后直接提取EMR进行语义结构。人工智能匹配知识库,判断EMR是否包含新冠肺炎等传染病的关键词。一旦被人工智能判断为疑似或高度疑似,将上报疾控部门,避免医院以任何理由漏报或迟报。
该系统作为省市疾控中心的报告分析、数据汇总和预警分析系统,与医院的EMR直接相连。它的粒度非常细,除了40种法定传染病之外,它还支持每个地区补充当地确定的多种传染病。同时,该系统可以基于疾控历史数据和区域密度、人口流动性等大数据,预测传染病的发展速度和分布区域,从而为疾控决策提供参考数据。
大菊医科大学为江苏省建设的系统原本是为春季流感高峰期做准备的,但不想在这场更严重的新冠肺炎疫情中发挥作用。据统计,如果我们沿着与疫情爆发的中心城市武汉的高铁线路画一个半径约为2小时的圆,可以清楚地看到不同地区的疾控水平是不一样的。相对来说,新冠肺炎疫情在江苏省的控制要比周边地区好得多。
此外,一些企业试图解决当前传染病报告卡中医生的痛点。目前医院传染病监测报告卡系统不够智能化,针对医生的干预方案不够有效,医院传染病疫情管理部门费时费力。经过熟练实践,长沙双都科技认为这些痛点可以通过大数据解决。在长沙市传染病智能监测解决方案中,首先采集EMR、实验室信息管理系统、医学影像存档与通信系统和医院信息系统的诊疗数据,然后利用双传染病专家知识库和语义分析技术对诊疗数据进行提取和标注。然后,利用传染病分析模型对特征进行分析比较,从而识别传染病。一旦识别出传染病病例,系统立即推送或延迟推送至特定医生电脑前端,系统可强制锁定,要求医生完成重要传染病报告。
这一传染病智能监测解决方案也实现了关口前移,将疾控直报专网上报的验证逻辑全面移动到医生填写传染病报告的阶段。报告经核实无法完成,有效解决了报告单的完整性和准确性问题。医生完成传染病报告卡后,数据完整准确的传染病报告卡,经医院传染病报告工作人员审核后,会上报疾控直报专网,也解决了时效性问题。双数科技在解决医生传染病报告单的基础上,进一步实现了从医院内网到疾控专网的一键直报功能,实现了直报。2017年5月,中南大学湘雅医院利用该系统实现传染病报告卡医院内网一键直报功能,耗时不到3秒。当时能在内网实现直报的情况也很少见。目前,除湖南省中南大学湘雅医院外,重庆医科大学附属儿童医院、贵州遵义医科大学附属医院均采用内网一键直报的方案。据统计,利用大数据和人工智能的双数传染病监测方案,消除迟报、漏报的有效率可达95%以上;将医生报告传染病的平均时间从5-8分钟大幅缩短至40秒以内;花在直接报告疾病控制的特殊网络上的时间也从2-3分钟缩短到几秒钟。
事实上,武汉大学中南医院去年刚刚采用了双号传染病监测方案,在后续疫情报告效率上显示了其优势。但在突发未知传染病的预警方面,双都科技认为单个医院的数据分析结果说服力还相对不足。相对而言,偶数科技认为区域一体化传染病疫情预警监测方案是应对区域重大传染病的最佳建设方案。目前,双都科技已完成区域一体化传染病疫情预警监测方案的研发,并加快了在其他省市的部署计划,希望为我国整个传染病信息化进程探索出新的模式。
新冠肺炎疫情后,我国开始意识到建立国家突发公共卫生事件长效管理机制的重要性。许多省份出台了疾控体系改革措施,强调要充分利用大数据、人工智能等新兴技术。比如今年7月,湖北省卫生健康委牵头起草了《关于改革完善疾病预防控制体系的实施意见》等4个配套文件。文件称,湖北将建立以网上直报、舆情监测、医疗卫生人员报告、可疑病例讨论报告、科研发现报告、零售药店药品销售等信息为基础的多渠道监测预警机制。此外,下一步将自动捕捉健康相关数据,利用“大数据+网格化”等手段进行精准流量调整,实施精准防控。探索健康相关信息与医保、农业、生态环境等部门相关信息协同共享,运用人工智能、大数据、云计算等。要在监测预警、病毒溯源、趋势预测判断、资源配置等方面发挥支撑作用。
二、大数据在西方国家疾病监测领域的应用现状
系统的疾病监测始于20世纪40年代末的美国疾病控制中心。1968年,第21届世界卫生大会讨论了传染病的国家和国际监测。20世纪70年代以后,许多国家开展广泛的监测,观察传染病的流行情况,然后扩展到非传染病,评估预防措施和疾病预防效果,逐渐从单纯的生物医学视角发展到生物-心理-社会监测。
在医疗数据方面,美国和日本很早就开始了诊疗数字化的进程,帮助医护人员提高工作效率,降低工作强度,从而积累了大量高质量的数据。比如美国的电子健康档案系统,十年累计记录了1000万患者。它包括疾病诊断记录、患者用药效果、遗传数据、家族史等重要信息。2011年以后,日本的医疗数据也全面采用了电子报送系统,个人可以通过网络随时访问云端存储的各种医疗信息。
目前,发达国家已经构建了相对成熟的医疗大数据平台,在有效管理和技术升级方面展开了激烈的竞争。美国拥有完整的医疗卫生数据库,建成了覆盖全国的12个区域性电子病历数据中心、9个医学知识中心和8个医学影像与生物信息数据中心。英国投资55亿英镑建设国家综合医疗信息存储服务系统,累计收集存储医疗信息系统数据2.3万余条,覆盖居民医疗信息5000余万条,为130万医务人员提供服务。丹麦建立了国家生物库,集中管理了700多万份生物样本,这些样本可以得到伦理委员会的批准,供研究人员研究流行病学和疾病地图。日本在国立大学医院实施医疗信息远程传输网络系统计划。福山大学附属医院共收集病历1700多万份,处方1.43亿张,病名300万个,可实现处方自动分析匹配功能。
目前,发达国家利用大数据和人工智能实现疾病监测预警的成功案例很多。例如,在新冠肺炎疫情爆发前,12月30日,波士顿儿童医院的自动健康地图系统发布了中国境外首个关于这类新型冠状病毒的公众警报。该系统得益于人工智能技术自然语言处理的支持。通过扫描网上新闻、社交媒体报道、政府报道,发现传染病暴发苗头预警系统,将预警严重程度分为五个等级,可以帮助世卫组织等在可能出现语言障碍时率先洞察疫情。
放眼世界,2003年,英国伦敦帝国理工学院的研究人员基于SARS流行病学调查数据,构建了传播动力学模型;2004年,约翰·霍普金斯大学应用物理实验室的研究人员开发了ESSENCE,一个基于社区的疫情早期监测和报告系统。2009年,华盛顿大学基于美国H1N1疫情数据,建模构建了H1N1在家庭和学校传播的流行病学参数。现阶段,如世卫组织全球流感监测网、谷歌流感趋势等,都是值得研究学习的案例。
此外,机器学习在跟踪病原体轨迹方面也取得了许多成果。例如,美国卡里生态系统研究所为2000多只啮齿动物建立了庞大的数据库,并训练AI识别它们的生活史、生态环境、行为、生理特征和地理分布。通过这个模型,发现了150多种新的潜在啮齿动物和50多种新的活跃动物,它们可能携带许多病原体并感染人类。因此,我们可以绘制影响各种疾病的啮齿动物分布图,以及容易被新的寄生虫和病原体感染的热点,从而实现疾病的预警和监测。
在追踪人员行踪方面,与中国为应对新冠肺炎疫情通过大数据+AI追踪关键人员行踪的预警不同,其他国家的AI主要表现为算法防范。例如,英联邦科学和工业研究组织利用贝叶斯推断开发了数据61模型,以跟踪昆士兰登革热病毒如何传播到澳大利亚以及如何在人与人之间传播。借助昆士兰卫生局为培训提供的15年内匿名记录的登革热病例,Data61可以综合判断多种人员流动信息,如航空公司空公司旅客数据、地理标志、社交媒体、旅游情况等。,从而预测疫情可能发生的时间和地点,以便医疗机构能够及早做好准备。据说该模型还可以用来预测莱姆病、埃博拉和疟疾等疾病。
但欧美国家虽然长于算法,但由于隐私法的图像,欧美很多地区禁止收集公共信息,并对人脸识别等前沿技术的使用引入相关限制,在一定程度上保护了公共信息的安全。另一方面,由于社会智能的预防和延迟,在面对大规模公共卫生事件时,也表现出应对能力弱、救灾进程滞后、人员重复劳动受限等问题,大大提高了防疫/的效率。
第三,当前卫生大数据面临的挑战
跟随大数据在抗疫过程中的亮眼表现,现在很多省份和地区都将利用大数据和人工智能实现现代疾病控制作为发展规划。您可以看到,卫生大数据将迅速应用于公共卫生领域,但与此同时,它也面临许多挑战:
1.卫生大数据使用中的安全、保密、共享和公开等医学伦理问题
健康大数据不可避免地涉及到人的隐私信息,包括身体状况、健康史、个人信息,甚至基因和蛋白质数据。一旦发生泄漏,很可能会对个别患者的日常生活造成不可预测的干扰。2018年《信息安全技术个人信息安全规范》提出了保护个人信息安全应遵循的原则,但对医疗隐私保护缺乏详细的法律法规。当涉及到保密级别较高的患者数据时,对隐私保护和系统安全提出了更高的要求。
2.突破大数据关键技术
如今,半结构化和非结构化数据量呈几何级增长,传统的分析技术面临着巨大的冲击和挑战。数据的广泛存在使得数据越来越多的分布在不同的系统、不同的平台、不同的情况下。为了便于健康大数据的分析,需要解决多源异构和数据质量问题,需要对各方面产生的大数据进行有效整合。此外,数据和信息孤岛问题一直普遍存在,标准化实施困难等技术和非技术难题没有得到有效彻底解决。
3.识别卫生大数据的使用错误,提高准确性
大数据疾病预警也可能产生“大错误”,就像汽车报警器一样,很容易触发而被忽视。其中一个主要原因是来自不同机构和平台的数据可能会阻碍算法。哈佛大学流行病学家Andrew Beam表示,扫描在线报告中的关键词有助于揭示趋势,但准确性取决于数据质量。比如谷歌高估了AI对于流感的普及程度,偏差超过实际值50%。最后,该网站于2015年关闭,其技术被移交给了HealthMap等非营利组织。
4.健康大数据框架应该有一个顶层设计
长期以来,公共卫生与预防学科强调“三级预防”,但作为政府行为的“零级预防”,却至关重要。从星空罗云的大数据中快速获取有效信息,及时为公共卫生决策提供依据,是一项基础性、长期性的工作,需要政府层面的长期支持。健康大数据框架需要国家层面的顶层设计,并承担相应的责任。政府可以加强科学引导,开放平台邀请更多社会资本参与,整合力量建设国家卫生大数据研究中心。