<object id="6kxyh"><form id="6kxyh"></form></object>

    1. <u id="6kxyh"></u>

        <output id="6kxyh"></output>
          <video id="6kxyh"></video>

        1. 東華軟件
          頁面主體部分上邊框
          • 網管
          主要內容部分容器上邊框

                      東華業務交易性能檢測平臺介紹

           

          第1章 引言

          1.1 風險案件分析

          2014年7月1日,寧夏銀行核心系統數據庫出現故障,導致該行(含異地分支機構)存取款、轉賬支付、借記卡、網上銀行、ATM和POS業務全部中斷。 經初步分析,在此次事故中的原因如下:

            1)在季末結算業務量較大的情況下出現。

            2)CPU使用率長期處于70%-80%。 

            3)備份系統異常導致系統讀寫處理嚴重延時。

          由于以上原因造成生產數據庫損壞并宕機。同時寧夏銀行應急恢復處置機制嚴重缺失,導致系統恢復工作進展緩慢,直至7月3日5點40分核心系統才恢復服務,業務系統中斷長達37小時40分鐘,其間完全依靠手工辦理業務。

          如果銀行建設了業務交易性能監測平臺,平臺則可以在業務故障大規模發生前提示IT系統存在何種隱患,將隱患解決在萌芽狀態,從而避免生產事故的擴大。

          平臺可從以下幾點及時提示銀行管理部門有針對性的處理此次事故:

            1)及時提示業務量激增。

            2)CPU使用率超高預警。

            3)數據讀寫延遲預警。系統進行分析,有可能是數據整體讀寫延遲,也有可能是某條數據讀寫延遲。
          1.2 國內銀行運維風險及解決方案
          傳統上,銀行的風險指信貸風險、市場風險和操作風險,在運維風險管理上較為落后。當前對運維風險的預防主要放在信息科技部,當運維系統發生故障時不能及時準確的找到故障原因,只能根據使用者反應的故障現象或日志進行故障分析,甚至需要廠商進行配合查找故障原因。
          現階段,部分銀行還存在以下問題:
           運維風險遭忽視。傳統上,銀行的對風險防范都集中在信貸風險、市場風險和操作風險上,并且都有對應的風險防范產品進行監督。而對運維風險的防范上沒有相應有效的防范產品對各業務系統進行監督。
           銀行的系統是由很多不同軟硬件廠商的產品拼在一起運作,復雜程度遠超過單獨系統,因此需要各廠家進行共同維護。在運維過程中系統出現問題,需要各廠商共同查找問題,各廠商之間可能存在推脫,致使問題不能及時發現、及時處理,甚至導致問題放大。
           現代IT系統非常復雜,當系統大到一定的程度,總會有失控的狀況。運維人員也無法對系統間的依賴關系、網絡架構等問題進行掌握。當運維人員更換時,可能會導致這種問題更嚴重。
           系統問題不能及時發現。系統運行緩慢、CPU使用率過高無法及時發現,一般由系統使用者報告。
           運維風險的響應不及時。從發現問題上報到IT信息中心(或者在監控系統發現問題),IT中心的人開始查系統,定位故障原因,如果定位不清還要找相關的軟硬件人員到場或者遠程網絡支持(基于安全原因,銀行大部分都不能遠程網絡查看系統,維護人員到數據中心也需要時間,如果還堵車…..),找出問題的根源,一小時算超快的了 。解決問題就更不好說了,其實和大家的電腦一樣,往往重啟是最有效的方法,但很多業務系統部分出現問題是不能重啟的(可能會影響別的業務系統)。
           運維監管手段落后。目前,國內銀行對系統運維監督手段尚未完善,基本處于人工定時對系統運行參數進行查看,判斷系統健康狀態。隨著系統不斷增多、復雜度增加,如果處于人工監督的狀態下,將很難滿足銀行對運維風險的要求。
           系統應急預案缺乏制度化的整套管理制度。大的變更一定會有預案,甚至換個硬盤,改個IP這種做過幾百次的操作都會有預案。但預案與真實一般都有相當差距。上面已經提到系統非常復雜,可能出現的問題如果真全部寫下來,可能有幾百幾千分支。而且,系統的故障并不會根據你的應急預案來發生。 人工很難根據系統運行情況分析出相應的應急預案。
          為了解決銀行面臨的以上問題,東華軟件股份公司提供的業務交易性能監測平臺引入了國際領先的網絡數據采集還原技術,集物理主機監測、網絡環境監測、應用監測、業務監測、數據庫監控、中間件監控、操作系統監測于一體的計算機輔助監測管理系統,實現了對接入系統的實時監測分析與統計,替代銀行原有的運維模式,逐步實現了運維風險防控的自動化。
          第2章 系統綜述
          2.1 系統概述
          交易性能監測系統基于網絡報文俘獲還原技術或實時轉發技術,實時、非耦合的實現網絡數據流的獲取,在專用設備完成網絡傳輸包的時間標記等工作,實現業務交易數據業務信息及運維信息的實時監聽及數據還原。通過獲取到的業務數據及網絡傳輸數據來進行全交易的端到端的可視化、交易故障定位、以及對交易數據的統計分析,對業務交易應用的完全仿真與可視化,可以讓運維工作者站在業務運營的角度,提前發現交易或系統瓶頸,定位故障發生根源,指導設備與系統的運維。
          2.2 建設目標
          (1)改進運維模式      實施業務交易性能監測平臺后,將改變系統運維模式:      a)從事后查找問題向事前風險控制遷移。      b)從可用性管理向性能管理遷移。      c)從故障被動式處理向主動式監控遷移。
          (2)實現運維決策分析      實施業務交易性能監測平臺后,對被監測系統進行集中監控管理,實現自動化分析風險。根據監控情況進行分析,生成決策報告。協助運維人員改進或生成應急預案。     (3)信息科技風險動態監管      實現信息科技部對運維風險的動態監管。其中包括物理主機監測、網絡環境監測、應用監測、業務監測、數據庫監控、中間件監控、操作系統監測等要素。
          第3章  系統功能示意圖
           
          HAPM是一種高速網絡數據專用綜合處理平臺,整套系統包括應用性能與交易數據分析平臺、服務業務管理平臺和經營決策數據分析平臺,其中應用性能與交易數據分析平臺包括三大處理系統(應用還原數據處理系統、應用組件深度探查數據處理系統、性能與交易數據指標存儲與分析系統)。各處理模塊間采用先進、標準的松耦合架構整合,確保了整套系統具備先進的數據處理能力、可伸縮性和可整合性。
          第4章 解決方案比較
          4.1 方案比較
          目前國內相關產品一般有兩種解決方案:監測平臺運維和傳統運維。
          監測平臺運維是以網絡報文俘獲還原技術或實時轉發技術為軸心實現的,系統數據實時獲取分析統計,提供給運維部門使用。
          傳統運維一般是在系統發生故障之后后,由使用者向運維人員提供故障現象,運維人員進行故障分析或請相關廠商進行故障分析,對故障處理。
          兩種方案主要區別如下:
          項目 性能監測平臺 傳統運維
          響應時效性 過程導向。能夠實時回去業務系統運行的現狀,進行健康性評估,系統單筆或連續交互出現異常時,系統可以對運維部門及時進行預警和提示,達到問題早發現、早介入的目的 結果導向。傳統運維一般都是業務人員發現系統問題后,科技部門,運維部門再去尋找問題根源。
          故障定位準確性 通過對業務交易實時跟蹤,能夠快速定位故障發生環節,定位高效準確。 業務交易涉及相關業務系統復雜時,需要對層層系統逐步進行分析診斷,故障定位效率低下。
          業務系統可視化 對業務系統的運行狀態做到全局可視化,能直觀掌握所有業務系統的運行狀態。 運維人員對于業務系統的運行情況無法確切了解,業務系統對外處于黑盒模式下。
          數據多維分析 能夠對交易量、交易類型、返回碼、響應時間、響應率等進行多層次多維度的分析統計 無法進行多維分析
          交易場景重現 對業務交易場景會話數據進行記錄,當出現性能問題時進行場景重現,幫助問題分析。 無法場景重現分析
          異常交易歸檔管理 自動保存原始數據,管理員可隨時檢索并調出所需數據; 人工記錄異常交易,無法進行歸檔管理
          應用服務優化 通過對多維分析數據進行分析,找出性能低下的服務,并可以對其進行優化。 系統上線后,當問題比較嚴重時由業務人員進行反映。開發人員優化周期長。
          決策支撐性 精細化運維可以用長期運維數據勾畫出系統性能曲線,如服務器響應速度、處理速度變化等,此曲線可以作為技術部門產品硬件升級或擴展的決策依據,利于前瞻化設計。 無
          4.2 我們的優勢
          1、 國際領先的網絡數據采集還原技術
          a)采用本技術獲取被監測業務系統的交易數據,不需要被監測系統提供接口,不需要在被監測系統安裝轉發代理程序,系統完全在不影響被監測業務系統安全、性能及系統資源的基礎上,通過網絡數據采集還原等自有核心技術獲取交易信息,然后由處理引擎結合預警模型進行處理,實現事中監督目的。
          b)公司采用的網絡數據采集還原技術在國內外達到領先水平且完全自主可控,為行業內多家合作伙伴公司產品提供底層數據支撐,在銀行也有眾多使用案例。
          c)支持所有常見應用協議與報文格式,如:HTTP、FTP、TELNET、SMTP、POP3、JSON、XML、ISO8583、TUXEDO、ORACLE、MYSQL、MQ、SOAP等。
          2、 提升自動化監測能力
          業務交易性能監測平臺根據不同的監測模型對被監測系統進行自動監控。存在異常情況后,會以異常等級以應用視圖、郵件、短信等不同方式進行預警。
          3、 監測覆蓋范圍廣、要素全
          對數據中心基礎環境、服務器、網絡、操作系統、數據庫、中間件、應用、業務交易等提供全面監測手段。 a)物理主機監測: CPU、內存、進程、文件系統、網絡接口、磁盤IO、系統日志、交換空間、進程、硬件錯誤信息。 b)網絡環境監測:網絡拓撲自動發現、網路故障監控、網絡性能監控、網絡狀態監控。 c)應用監測:對LDAP、FTP、HTTP、DNS、SMTP等各類應用層服務進行監控。 d)業務監測:以旁路監聽獲取交易報文并解析進行交易追蹤、業務分析、性能監測、服務架構自動學習等業務分析監控。 e)數據庫監控:監控Oracle、Sybase、Microsoft SQL Server等運行參數,如共識內存、SQL響應時間、表空間使用率等。 f)中間件監控:監控WebSphere、Weblogic、Tuxedo、MQ等指標,如連接數、服務數、并發數等。 g)操作系統監測:用戶、IP、系統版本、工作狀態日志、進程、AIX、Solaris、HP/UX、Linux、Windows監控管理
          4、 自動分析網絡架構、依賴關系
          系統具備數據流向自學習功能,自動通過系統數據流向梳理出系統網絡架構和系統間的依賴關系。并形成網絡架構圖和系統依賴圖。
          5、 業務流程自梳理
          系統具備交易路徑自學習功能,自動識別交易路徑,防控偽造交易提高風險管理水平。并形成業務流程圖。
          6、 變事后控制為事前預警
          性能監測平臺對系統通過分析交易流程各環節的處理時間,發現性能低下環節,進行實時預警,及時提醒運維人員。
          7、 實時掌握業務交易運營狀態
          以應用視圖為導向,基于服務路徑規劃功能,實時在應用架構圖上展示業務運營狀態數據。包括對交易類型、交易量、交易金額、交易渠道、交易機構的動態統計與分析。
          8、 快速定位系統異常
          從服務路徑圖查看交付組件狀態、再到應用性能指標統計、再到交易追蹤/單筆交易追蹤,自動鎖定異常節點,發出告警信息,并通過應用組件深度探查系統實現交易異常與異常組件之間的關聯分析,快速定位底層故障原因。
          9、 多維矩陣分析
          針對交易要素(交易類型、交易渠道、交易地域、交易量、交易路徑、應用節點、性能數據、成功/失敗等),圍繞金融業務的諸多組件與因素,動態構建多維矩陣與影響因子。多角度、全面、動態分析業務運營與應用性能的關系。
          10、 協助運維人員生成應急預案
          經過長時間運行后,系統會對異常信息進行數據分析,為運維人員生成分析報告,其中分析報告包含日后可能會出現什么故障及故障點等信息,幫助運維人員及早做好應急方案,甚至提前解決風險隱患。
          11、 交易歷史數據的再利用展望
          歷史數據構建成一個交易矩陣,可以將歷史數據抽象出生產環境交易基線,用來評估開發/測試環境下的數據與性能一致性問題;蛘咧苯訉v史數據打入開發/測試環境,用來驗證系統的性能。
          12、 其它
          運維優勢:數據采集設備、數據解析還原、上層應用均可通過系統可視化界面進行配置。 經濟優勢:無需人工干預,自動監測各系統,節省大量人力成本。 可擴展性:支持集群及負載均衡,處理效率高,支持數據完整采集,支持大業務量應用場景。

          主要內容部分容器下邊框
          頁面主體部分底邊框
          超碰caoporen97人人