随著(zhe)網絡和信息技術的不斷普及,人類産生的數據量正在呈指數級增長(cháng)。大量新數據源的出現則導緻了非結構化、半結構化數據爆發(fā)式的增長(cháng)。信息數據的單位由TB-PB-EB-ZB的級别暴增。 如何管理和使用這(zhè)些數據,逐漸成(chéng)爲一個新的領域,于是大數據的概念應運而生。
2.1數據治理要素
圖3 數據治理要素分析圖
2.2數據治理策略
第一步:落實合适的人員負責治理。
任何成(chéng)功的數據治理計劃的第一個步驟就是,要在本企業找到CEO可以授權的人,然後(hòu)讓該人負責項目的具體實施。沒(méi)有什麼(me)能(néng)取代強有力的領導人。
數據治理是涉及人事(shì)的一個難題,這(zhè)需要在許多不同的利益相關者之間達成(chéng)共識。因而,在本企業裡(lǐ)面(miàn)選定這(zhè)樣(yàng)的領導人是一項重要工作。 治理官員一旦選定下來,就要成(chéng)立由企業的利益相關者組成(chéng)的治理委員會(huì),制訂監管政策、向(xiàng)CEO及董事(shì)會(huì)報告進(jìn)度。
第二步:調查清楚所處環境。
一旦選定了領導小組,就要調查當前情形,并清查不同部門在不同領域的當前實踐。領導小組需要越過(guò)獨立系統看待問題, 而企業數據治理評估方法對(duì)這(zhè)項工作來說必不可少。這(zhè)有助于比較本企業的數據治理計劃目前處于什麼(me)狀态,并且提供了一份路線圖以便确定以後(hòu)的目标。
第三步:制訂數據治理策略。
數據治理評估之後(hòu),治理委員會(huì)就應當考慮制訂遠景,希望公司的數據治理實踐在接下來的幾年達到何種(zhǒng)目标,根據這(zhè)種(zhǒng)需求爲未來制訂遠景。 委員會(huì)應當向(xiàng)後(hòu)規 劃,并且制訂切合實際的裡(lǐ)程碑和項目計劃來填補相關的缺口。具體辦法就是制訂關鍵績效指标來跟蹤進(jìn)度,并且向(xiàng)CEO和董事(shì)會(huì)提交年度報告來證實成(chéng)果。
第四步:算出數據價值。
估算數據價值。要是公司不知道(dào)數據的價值,它們就無法提高、保護或者評估數據對(duì)賬本底線的價值。 數據不是一種(zhǒng)普通商品,而是像水龍頭裡(lǐ)出來的水--對(duì)生命至關重要,又往往被(bèi)人們認爲是理所當然的。你要是不知道(dào)某物的價格,就無法算出它的價值。
如果你想算出數據的價值,就要根據用戶權限和IT服務的效用,爲數據建立内部市場。當本企業的每個人都(dōu)在直接付費獲取IT服務和數據時, 數據的價值就成(chéng)了公司價目表上的一部分。
第五步:算出風險概率。
知道(dào)數據在過(guò)去是如何使用和濫用的,這(zhè)有助于了解數據在將(jiāng)來會(huì)如何被(bèi)危及和披露。每家企業都(dōu)有一些原因, 如一些事(shì)件和損失在獨立系統、層次體系和商業報 告中消失。這(zhè)些數據已經(jīng)可供使用,卻沒(méi)有被(bèi)大多數企業所使用。 收集這(zhè)些數據,與其意義聯系起(qǐ)來,并研究長(cháng)期的損失趨勢,這(zhè)可以幫助任何企業把風險管理轉變 成(chéng)基于事(shì)實的商業智能(néng)方法, 從而可分析過(guò)去事(shì)件,預測未來損失,改變當前的政策要求,成(chéng)爲未來改善風險緩解策略。
第六步:密切關注控制措施的效果。
數據治理在很大程度上涉及企業的組織行爲。企業每天在變化,因而它們的數據、價值及風險也在迅速變化。 遺憾的是,大多數企業每年對(duì)自己隻評估一次。要是公司無法改變組織控制措施來滿足每天或者每周出現的需求,也就談不上變化治理。
圖4 數據治理實施建議圖
3.1元數據的定義
技術元數據是存儲關于數據倉庫系統技術細節的數據,是用于開(kāi)發(fā)和管理數據倉庫使用的數據,它主要包括以下信息:數據倉庫結構的描述, 包括倉庫模式、視圖、維、層次結構和導出數據的定義,以及數據集市的位置和内容;業務系統、數據倉庫和數據集市的體系結構和模式。
業務元數據從業務角度描述了數據倉庫中的數據,它提供了介于使用者和實際系統之間的語義層, 使得不懂計算機技術的業務人員也能(néng)夠“讀懂”數據倉庫中的數 據。業務元數據主要包括以下信息:使用者的業務術語所表達的數據模型、對(duì)象名和屬性名; 訪問數據的原則和數據的來源;系統所提供的分析方法以及公式和報表 的信息;具體包括以下信息:企業概念模型:這(zhè)是業務元數據所應提供的重要的信息, 它表示企業數據模型的高層信息、整個企業的業務概念和相互關系。
3.2爲什麼(me)要進(jìn)行元數據管理
圖5 數據管理分析圖
3.3數據模型标準化
圖6 數據模型示意圖
3.4标準化體系(數據定義&模型設計)
标準化體系:一定範圍内的标準按其内在聯系形成(chéng)的科學(xué)的有機整體。标準化體系它規定了質量方針、目标、職責和程序, 并通過(guò)建立相關體系進(jìn)行過(guò)程管理、質量策劃、質量控制、質量保證和質量改進(jìn)。
圖7 标準化體系示意圖
4.1主數據的定義
企業主數據分散存儲在企業各系統内,是對(duì)企業至關重要的核心業務實體的數據,比如客戶、合作夥伴、員工等。
4.2爲什麼(me)要作主數據管理
主數據管理(MDM Master Data Management)描述了一組規程、技術和解決方案,這(zhè)些規程、技術和解決方案用于爲所有利益相關方 (如用戶、應用程序、數據倉庫、流程以及貿易夥伴)創建并維護業務數據的一緻性、完整性、相關性和精确性。
主數據管理的關鍵就是“管理”。主數據管理不會(huì)創建新的數據或新的數據縱向(xiàng)結構。 相反,它提供了一種(zhǒng)方法,使企業能(néng)夠有效地管理存儲在分布系統中的數 據。主數據管理使用現有的系統,它從這(zhè)些系統中獲取信息,并提供了先進(jìn)的技術和流程, 用于自動、準确、及時地分發(fā)和分析整個企業中的數據,并對(duì)數據進(jìn) 行驗證。
圖8 數據管理原因分析圖
4.3如何做好(hǎo)主數據管理
通過(guò)單一平台上成(chéng)熟的多領域MDM集中主數據的管理,從而消除點對(duì)點集成(chéng),簡化您的結構,降低維護成(chéng)本,改進(jìn)數據治理。 Informatica MDM(主數據管理)能(néng)夠通過(guò)以下步驟幫助企業成(chéng)功進(jìn)行多領域主數據管理:
1. 建模:用靈活的數據模型定義任意類型的主數據
2. 識别:快速匹配和準确識别重複項目
3. 解決:合并以創建可靠、唯一的真實來源
4. 聯系:揭示各類主數據之間的關系
5. 治理:創建、使用、管理和監控主數據
4.4主數據實施流程
圖9 數據管理實施流程圖
4.5主數據管理體系
圖10 主數據管理體系流程圖
5.1數據質量問題
·數據的值域
·數據的定義
·數據的完整性
·數據的有效性
·業務規則
·結構完整性
·數據轉換
·數據流
5.2組織架構設計
圖11 架構分析圖
5.3數據質量治理流程
圖12 數據質量治理流程圖
5.4數據治理管理方法
建立合理的數據管理機構、制定數據質量管理機制、落實人員執行責任、保障組織間高效的溝通、持續監控數據應用過(guò)程和領導強有力的督促是保障企業數據質量的關鍵。
圖13 策略與方法分析圖