主要特性
中华医学科研管束杂志2024年·37卷·06期杨照周煦然樊笑晗李贞冯孟贤刘久秀郑茜子杨超向宇
方针正在领悟和总结北京大学第一病院科研数据平台设立合系阅历的本原上,提出医疗机构壮健医疗大数据平台设立的有用处途,为进一步拓展壮健医疗大数据平台运用,推进伶俐医疗设立供应模仿。
手段通过编造化流程征求病院多域数据,分类管理并冲洗后,采用国际医学尺度与NLP手艺告终数据尺度化与构造化。同时,优化eCRF表单、数据源判别及数学估计,确保科研数据平台的数据质料与运用代价。
结果北京大学第一病院通过发展科研数据平台设立,开头告终了从临床数据向科研数据的有用转化,告终了数据的有用搜集、编造推送与整合、数据冲洗与执掌,并发展了壮健医疗大数据咨议。
斟酌后续应一连扩凑数据限造,推进将临床数据蜕化为科研数据;晋升临床专家加入度,实行项方针前瞻性打算和数据的前瞻性搜集;以集成平台为本原,实行数据的自愿推送与移用;以大讲话模子的运用为目标,发展手艺查究与储蓄。
我国的医疗音信化进展历经二十余年,时期积攒了海量壮健医疗数据。临床诊疗数据分离正在病院各编造(HIS、LlS和PACS)中,各编造的数据构造、尺度纷歧,数据非构造化、非尺度化、难以变成科研所需的咨议变量
。大数据正在科研管束中有紧急的运用代价,正在发展临床咨议、指点科学选题、丰饶临床试验咨议手段、督促成效转化及优化科研资源摆设等方面有着显然的旨趣
表洋已较早最先了壮健医疗大数据咨议,并发轫了大型专病库设立,其特色是收录病种多、收录患者多、加入单元多和涉及临床试验多。比如,美国心脏病学学会
注册咨议(ACC-NCDR)自1997年发动,通过搜集病种门诊住院数据,为临床执行、医疗支出和当局决议供应凭借,到目前变成多个专病注册库,征求急性冠状动脉归纳征、颈动脉血管重修术及内膜切除术等7种疾病,咨议结果用于世界疾病临床指南优化、医疗保障轨造打算等
。跟着云估计、大数据和人为智能等手艺的进展,我国伶俐医疗设立连接加快,近年来国内对壮健大数据的咨议以及运用有了长足的进展
。通过病院科研大数据平台对数据实行高效的搜集与冲洗、执掌与尺度化,晋升数据探索和科研统计领悟才具,有用加快了科研过程、推进了科研成效产出
北京大学第一病院于2020年起效力发展科研数据平台设立,推进临床数据向科研数据的有用转化,为依托于临床数据的新型临床科研运用发展打下坚实本原,也为进一步拓展壮健医疗大数据平台运用,推进伶俐医疗设立发展积攒了阅历。本咨议编造总结了北京大学第一病院壮健医疗大数据平台的设立执行,针对我国医疗音信化数据分离、非尺度化的近况,提出了更始的管理计划,通过构修一体化的科研数据平台,告终了多源异构临床数据的有用整合与尺度化管理。这一办法正在国内同类咨议中处于当先位子,明显晋升了大数据正在科研选题、临床试验、成效转化及科研资源摆设等方面的运用代价,为医疗机构壮健大数据平台的设立供应了可模仿的阅历。
1.科研数据征求与执掌1.1数据的泉源与采选病院依照临床与科研简直需求,决计数据抽取秩序和抽取限造,抽取数据域应征求患者相差转域、医嘱域、结算用度域、查抄结果域、医嘱发药域、看护体征域、病案域、电子病历域、医学影像域、手术麻醉域及体检域等。
据字段根据泉源和庞杂水平,分为Level 1、Level 2和Level 3三类[6]。L1是毋庸实行分表的加工管理可直接映照表示正在专病库的数据,如记载时刻、记载医师等;L2是通过大段文本中提取枢纽音信并实行构造化和尺度化的管理数据,如现病史中对症状的描写是否发烧是否咳嗽等,将文本管理成构造化数据之后提取出来。L3是正在L1和L2本原上归纳多种逻辑管理的庞杂字段,如BMI是原委身高和体重运算的变量。分歧泉源的数据被征求、拾掇和冲洗晚进入数据中台,集成为一个新的数据源,再按域别表示正在科研数据平台,告终共享。
数据从病院原始交易编造要原委两次跃迁,才调进入科研数据平台。最初,数据从病院原始交易编造进入数据中台,数据正在中台内被冲洗,征求患者主索引清算、乱码纰谬数据清算、术语比照清算和文本字段清算成构造化数据。其次,数据从数据中台进入科研数据平台,根据医疗数据域分类表示,或按患者视图表示,数据能够查阅、导出和统计领悟。