目前,许多病历已被转换为电子病历(EMR),传统纸质病历中的信息也可以通过光学字符识别(OCR)等图像字符识别技术来提取。
传统病历分析是基于医生的经验来人工理解和分析病历中的信息,在一些简单的情况下,病历的初步分析可以使用人工智能(AI)技术、自动化智能操作或由医生提供的输入来进行,这也是部分大医院正在实行的医疗自动化技术。
而在这其中,医疗病历的识别和分类也被作为实现医疗流程自动化的重要一环,但是一些病历中可能包括有手写错误、打字错误或者一些新出现的术语,这对于传统的OCR处理技术来说是难以识别以及处理的,也正是因为这样,民间也一直流传着医生手写病历形如“鬼画符”的比喻。
为此,阿里在2019年4月25日申请了一项名为“电子病历中实体的识别”的发明专利(申请号:201980003795.2),申请人为阿里巴巴集团控股有限公司。
根据该专利目前公开的资料,让我们一起来看看这项医疗病历的自动识别技术吧。
如上图,为该专利中发明的用于识别和分类术语的训练处理100的示例的框图,这种框架可以用于创建实体识别的训练以及识别电子病历。首先,训练文本从训练数据中被提取出来,训练数据包括电子病历,训练文本就是电子病历中的医疗诊断文本。
其次,需要对这些文本进行划分,文本的划分是为了将一些医学上的术语进行归类,这样当算法自动对文本进行归类时,就可以利用到不同词类之间的特征,从而可以让机器模拟人对于病历进行分析。当然,这个过程需要执行词语向量训练,在OCR领域,常用的训练方法有cw2vec算法以及BiLSTM-CFR训练模型。
倘若熟悉人工智能算法的话,必然对于LSTM算法不陌生,这是一种特殊的RNN网络,主要是为了解决长序列训练过程中的梯度消失和梯度爆炸问题,同时对于语句理解这样的文字解释工作具有良好的效果。因此,借助于这些算法,可以对词语注释信息以及训练词语向量进行学习,并将学习到的模型存储起来,用于下次进行医疗病历的自动识别。
上图展示了用于识别和分类术语的预测文本提取程序200,该程序在执行完上述的识别和分类术语训练后再开展,同时可以对于过程100进行改进。这种预测序首先需要提取文本,这些文本也来自于电子病历或者实体病历中。
与过程100不同的是,过程200中新增了新词语词汇的学习,也就是对于已经出现在训练数据中的词语,词语向量可以被直接使用,但是倘若出现了未曾出现过的新词语词汇,则新词语可以从新词语词汇208以及笔划向量210中计算,通过将新词语分解为笔划顺序,通过滑动窗口来获得新词语的笔划以及新的词语向量。
有了这样的机制保障,就可以确保系统不仅可以识别已经记录过的病历,同时对于新的病历而言,也可以做到自动的进行文字识别,从而将医生晦涩难懂的字体,自动转换成为易于理解的电子信息。
以上就是阿里发明的医疗病历的识别,该方法借助于人工智能算法BiLSTM-CFR进行模型的训练,从而可以对于病历中的文字进行识别,不管对于手写病历还是电子病历,都具有较好的识别效果。这样的技术不仅可以提高医院的自动化程度,而且也可以避免因为手写病历难以辨认而发生错误。
- 消息称苹果、三星超薄高密度电池均开发失败,iPhone 17 Air、Galaxy S25 Slim手机“变厚”
- 美光亮相2024年进博会,持续深耕中国市场,引领可持续发展
- Qorvo:创新技术引领下一代移动产业
- BOE独供努比亚和红魔旗舰新品 全新一代屏下显示技术引领行业迈入真全面屏时代
- OPPO与香港理工大学续约合作 升级创新研究中心,拓展AI影像新边界
- 古尔曼:Vision Pro 将升级芯片,苹果还考虑推出与 iPhone 连接的眼镜
- 汇顶助力,一加13新十年首款旗舰全方位实现“样样超Pro”
- 汇顶科技助力iQOO 13打造电竞性能旗舰新体验
- BOE(京东方)全新一代发光器件赋能iQOO 13 全面引领柔性显示行业性能新高度
- ADM7154CP-3.3EVALZ,用于评估 ADM7154 3.3V 线性稳压器的评估板
- PS5164EV,具有 PS501 四节电池管理器模块的评估板,带有用于锂化学的 LED SOC 显示
- PY32F030F1x TSSOP20 核心板
- SY58025U,用于 GB 以太网交换机的时钟多路复用器的评估板
- Hitex LPC4350评估板
- 2019电赛C题-电路负载及故障检测装置-设计报告(国一,东南大学)
- T12 6串锂电池保护板
- 使用 Infineon Technologies AG 的 IRU3039PBF 的参考设计
- RT7298A 6A、18V、同步降压转换器的典型应用
- AD8604ARQZ-RL 作为 DAC 输出缓冲器驱动重负载的典型应用