以NoSQL重構HIS資料庫(下)

最近醫療AI非常火熱，每家醫院紛紛的在研究醫療應用的人工智慧（Medical AI），而大部分的資料都是取擷於醫院的HIS資料，來進行資料訓練及研究分析。

但目前卻遇到一些瓶頸，因為HIS資料庫中有太多非結構化的資料、資料不齊全或者資料錯誤、醫療專用術語沒有編碼機制，同樣的病灶所描述方式各有不同，就算有些醫院有編碼機制，但各科卻有自己的編碼原則沒有統一，那就更不用說醫院與醫院之間的交換，在蒐集跨院區的病歷資料進行人工智慧資料訓練是一大挑戰，必須花費很多人力及時間去處理資料清洗（Data Cleaning）的前處理作業，導致人工智慧發展速度受到阻礙前進不了，更慘的是若是訓練的資料未能清洗乾淨，就會淪為「Garbage in, garbage out」的情況，而提供出錯誤的臨床決策建議。

[ 下載 2020-21 CIO大調查報告，掌握最新企業IT導入趨勢 ]

為了避免費時費力又徒勞無功，我們必須在第一時間做好資料結構化與標準格式化，以及訂定資料編碼原則，或者遵循一些國際編碼原則，才能讓HIS的資料變成資訊，進而變成有用知識，再昇華為智慧結晶。

內容目錄 隱藏

醫療資料交換格式標準

醫療術語國際化標準編碼

統整HIS與EMR為一個資料庫

醫療資料交換格式標準

談到醫療的標準格式不得不想起HL7健康資訊交換標準協會，最近幾年HL7協會發表了快速健康照護互通資源（FHIR）的國際標準。HL7在2.x的時候，強調的是區段（Segment），是透過不同意義的內容構成的消息（Message）來做傳遞，也就是說不同的系統可以透過HL7的消息互相來做溝通，這是2.x所表述的標準功能。

HL7到3.x的時候，它所強調的是文檔的概念，如台灣的電子病歷，就是遵循HL7的CDA R2架構，屬於文檔的架構。這個文檔是用XML來編排成CDA R2規範，再使用醫事人員卡（HCA）做電子簽章，形成不可否認的電子病歷。

但HL7版本3.x跟2.x都存在著一些問題，因為文檔架構太過於複雜，要形成文檔時，要規劃很多的資料。所以HL7才會發展FHIR新型醫療資訊標準。FHIR不再把資料單純用文檔來看待，裡面的資料可以分解很多的資料元素（Data Elements）與資料格式（Data Format），FHIR是一個定義跟整合資源的標準，同時也利用了很多新的網路標準，致力於整個系統建置應用，比起其他替代品更可以減少整個花費，所以是未來的醫療資訊交換標準的方向。

FHIR的資料格式則是採用NoSQL方式，它不是只有JSON，XML也都沒有問題，有這兩種資料格式的加持，等於是如虎添翼。再來就是FHIR也使用RESTful API，可以把2.x的消息交換功能，透過RESTful標準的API做資訊交換，所以可以更容易實作跟上手，可讀性還很高。

整個FHIR的初衷，本來是希望相容於不同的儀器設備，以JSON來說是首選，因為它是比較輕量級的交換格式。它可以用文字，也可以適用於各種程式語言，有高相容性，輕量化以及格式易於解讀的概念，整個維護跟傳輸優於XML格式。

衛福部目前也正在推廣FHIR標準來做API的核心架構，讓離島在地醫療機構、空中轉診審核中心、責任後送醫院，都能在資料透明且即時同步的前提下，讓三方醫師共享決策，也讓病人家屬能多方參與，進而提高醫病信任關係，建立更佳化的空中轉診後送機制。

[CIO都在讀： 醫療業關鍵基礎設施資安進入落實階段 ]

但FHIR資源的成熟度分六級，0是為草稿（Draft）最低，5是成熟度最高的規範（Normative）階段被視為最穩定的資源，根據HL7的官網所提供的資源，達到成熟度5的資源只占9%，如果日後要走FHIR，我的建議是，如果是FHIR有到成熟度5的，建議直接引用，就像病人的資源Patient，可以直接引用，但是對於尚未成熟，或者是它的資源型態（Resource Type）根本不符合台灣的習慣，建議不如我們自行定義資源型態，但是為了要確保可以與國際接軌，我們要遵循FHIR資源元素（Resource Elements）來制定。

資源元素的資料型態大概分成四類：

簡單/原始型態（Simple/Primitive Types），就有點像資料庫裡面有數字、字串、日期這種簡單的類型；
通用複合型態（General-purpose Types），就是說可能把一些常用的變成一個物件或者一個Element的概念；
元資料型態（Metadata Types），就是元資料的資源在一起組成一個類型；
特殊用途的資料型態（Special Purpose Data Types），可能在某一種特殊地方要用的一個特殊類別，我們可以透過這四種類型的資料型態，我們自己來定義，符合我們台灣本土化的一個資源型態。

如果以我們自己來設計，可能只會設計這個代碼的資料型態為string，這是非常不嚴謹，如果是以FHIR來講，會建議要去定義一個比較通用複雜類型，比如定義為Coding。這個Coding的資料型態，包括編訂代碼的系統機構（system）、版本（version）、代碼（code）以及顯示（display）等等。就以台灣的身份證號碼來說，其編碼規則為內政部發行的，則系統機構就會記錄為內政部機構代碼。這個代碼還有一個版次，這代碼是屬於哪一個版本的，這個才是真正記錄代碼的碼，如果說我們自己設計的，若只留一個string，所以這個是誰定的，什麼時候的版次，你都沒辦法知道。再來是顯示，就是指這個代碼秀出來的名稱是什麼，我們日後自己定的，我們就不要只定義string，而是遵循FHIR的資源元素來訂定。

一旦基本資料的型態是遵循資源元素的型態，假設FHIR的資源型態已經成熟了，比如說它的看診紀錄假設總共有50個欄位，一樣會透過資料類型定出很多的資源元素，台灣可能會制定自己的看診資源型態，要做國際交換時，只要把資源元素（Resource Elements）直接抓出來，就可以變成一個國際標準的資源型態（Resource Type）即可。如果剛開始沒有這樣做，只是定一個string，要轉成FHIR國際標準之前，就要做架構的轉換，這樣子就會很辛苦，因為要做二次工，所以應該是要遵循FHIR的資源元素基本型態，再自行去定義符合本土化資源型態。

不管在國際上還是台灣，FHIR都是未來發展的趨勢，只是整體FHIR仍未完全成熟，且與台灣就醫流程習慣不同，我們無法完全參照FHIR給予的資源，只能參考部分資源與遵循標準以訂定我們的資源模型，進而將FHIR的標準本土化，以建立適合台灣醫院資訊系統的資源模型。

醫療術語國際化標準編碼

在美國電子病歷系統發展的宗旨，是對臨床治療服務和計費支援外，更期望促進醫療服務品質和便利性、提升醫療診斷的精確性和醫療效果、增強醫療協作機制和病人的參與機制、降低醫療費用，最終提升民眾整體的健康狀況。

對於醫學專用術語的編碼標準化和電子化起著十分重要的作用。有些時侯在不同的醫師和衛生機構，指同一事務時，往往會採用不同的臨床術語。例如，對於心臟病學專科醫師來說，心臟病發作、心肌梗塞以及MI可能都是同一含義，但對電腦而言，三者之間則全然不同。因此，不同的醫院、健保機構、研究人員以及其他相關單位之間，需要有協調一致性的電子病歷交換機制。

[ 加入 CIO Taiwan 官方LINE，與全球CIO同步獲取精華見解 ]

因此，在推廣電子病歷與醫療資訊系統之間的交互操作性的提升，對於醫療術語標準的應用具有舉足輕重的作用。近年來歐美先進國家均投入鉅資發展。然而在臨床醫療辭彙標準中，最受各國青睞及普遍受台灣醫院採用的國際醫療術語編碼標準，有下列幾種：

ICD（International Classification of Diseases）為國際疾病分類是世界衛生組織依據疾病的某些徵兆、症狀、異常、不適、社會環境與外傷，按照規則將疾病分門別類，並用編碼的方法來分類。
DRG （Diagnosis Related Groups）是其主要的目的是降低醫療費用，改進醫療品質和降低醫療資源浪費，透過疾病診斷、手術或處置、年齡、性別、有無合併症或併發症及出院狀況等條件，將其分成不同的群組，同時考量各群組醫療資源使用之情形，於事前訂定各群組之給付價格。
ACT（ Anatomical Therapeutic Chemical）為藥品的解剖學、治療學及化學分類系統，是世界衛生組織對藥品的官方分類系統。ATC的首寫字母是A代表解剖，即藥品作用的機體器官系統；T代表治療，即藥品的治療作用；C代表化學品，即其化學類。
LOINC（Logical Observation Identifiers Names and Codes）是一個描述檢驗結果的標準，它提供了臨床檢驗結果的描述方式，定義了臨床檢驗結果的描述方式，並且提供一套獨一的唯一的編碼。
SNOMED CT （Systematic Nomenclature of Medicine-Clioical Term）為臨床醫學術語系統，提供了一套全面統一的醫學術語系統，涵蓋大多數方面的臨床信息，如疾病、所見、操作、微生物、藥物等，可以協調一致地在不同的學科、專業和照護地點之間實現對於臨床數據的標引、存儲、檢索和聚合，便於計算機處理。同時，它還有助於組織病歷內容，減少臨床照護和科學研究工作中資料採集、編碼及使用方式的變異。

有了標準化的醫療術語或詞彙可以讓醫護人員之間相互溝通易懂，且可以具體清楚地描述醫療照護過程的術語或詞句，且讓不同國家地區、機構或科別的醫護人員，易於瞭解及溝通病人照護過程中所描述的觀察、問題、處置及成效之外，也可以有助於未來智慧醫療的發展，讓電子病歷具有系統性、標準互通性，能與其他醫療機構交換電子病歷資料，以達到知識管理與實證研究分析之目的。

統整HIS與EMR為一個資料庫

為何HIS與EMR的資料要個自儲存？因為目前HIS大部分是關聯式資料庫，以表格（Table）的方式儲存，就是把原本使用者所撰打的資料，再透過正規化方式，將資料打散到各個表格中儲存到HIS資料庫，已經失去原來使用者所撰打的樣貌。另外，若要在關聯式資料庫中，再做到電子簽章，以達到電子病歷不可否認性那就更難，更不用說日後還要JOIN好幾個表格，才可以找當初簽章的病歷資料，再行電子驗章是否與當初電子簽章的病歷吻合，所以關聯式資料庫的正規化，反而會讓資料不夠真實且複雜。也因此台灣在實施電子病歷時，並未考慮以表格方式儲存，而是採用較符合真實情境的文件（Document）的方式來儲存。而醫院大部分都是先有HIS資料庫，才有EMR資料庫，所以不得已，在HIS資料庫儲存完後，還要將HIS資料組成EMR文件化格式後電子簽章，再儲存到EMR資料庫，不但浪費資料庫資源，且無達到最後整體的一致性，若是兩個資料庫不同步時，就會造成不知HIS資料庫是對？還是EMR資料庫是對的？

我們希望未來的資料庫，不再是HIS有HIS的資料庫，EMR有EMR的資料庫，只要透過文件式的NoSQL資料庫，就可以把HIS的資料跟EMR的資料整合成一個資料庫，也就是說以前在儲存資料時，要存HIS也要存EMR，但日後只要存在NoSQL資料庫，確保HIS及EMR資料的一致性。以前HIS的表格有作索引，未來NoSQL的文檔一樣可以作索引，所以就不會因為沒有索引，查詢資料變得更慢，保有HIS與EMR的特性及優點，並且透過NoSQL的分散式架構，避免資料庫在服務量爆發時，導致資料庫產生瓶頸。

最後，透過醫療資料交換格式標準及醫療術語國際標準編碼的結合，再加上讓HIS與EMR的資料庫，兩者合而為一的儲存在同一個NoSQL資料庫上，那就是完完全全達到了「車同軌，書同文」資料統一最的高境界。這對於日後做大數據及人工智慧有非常大的助益，因為很多臨床病歷資料都已經變成結構化、標準化及國際化，讓資料更容易交換流通、更多元化、一致性及更有品質，能夠加速人工智慧的深度機器學習及分析，實際應用於精準醫療、預防保健、個人化醫療、風險預測等，促進整體智慧醫療及精準醫療產業發展。

（口述／孫培然彙整／CIO編輯室）