快捷联系

电力设计院大数据解决方案

一、 系统功能需求

随着设计院业务的增长,各个业务系统数据猛增,众多的信息系统形成了一个个彼此独立的信息孤岛,它们虽然管理着企业特定的职能部门的工作,但相互之间缺乏有效的通信,无法实现提供跨部门、跨系统的综合性的信息资源共享,这就导致各种企业应用集成技术的出现。其主要目的就是通过建立底层结构,来联系横贯整个企业的异构系统、应用、数据源等资源。

大数据平台能提供完整的海量数据管理平台,实现项目信息、卷册信息以及附件(图纸、office文档)等结构化数据和非结构化的整理、清洗、整合、共享、检索等功能,可实现生产系统和经营系统的数据的整合及权限设置,与其它应用系统之间的数据集成等功能。采用统一的规则和口径实现协同管控一体化,保证数据的完整性及准确性。大数据平台提供统一数据总线接口,规范权限的设置,保证系统的方便性、完整性、有效性、正确性、适应性、可扩展性。

大数据平台采用基于企业服务总线的数据集成方法,提供强大的数据分析功能,以项目、卷册和文档进行统计分析,包括数据集成、业务集成、界面集成等多个方面,其中数据集成是具有基础性意义的一环,其主要目标便是能够实现各个异构数据源之间的数据交换及共享,并且为上层用户提供统一的数据访问接口,有效地提高企业数据资源的利用效率。

 

二、方案概述

大数据平台是企业级的数据集成服务产品,为分析型数据应用(如基于数据仓库的多维分析、决策支持等)和操作型数据应用(如清单报表、数据评估等)提供数据集成服务、数据集成平台和集成策略,满足数据应用项目中各种数据集成需求。  

方案以企业IT长远战略发展进行规划企业信息整合、数据集成架构;全面评估企业数据基础,建立组织级数据规范和沟通标准;建立集中模式下统一管理、稳定高效且灵活扩展的数据集成平台,引入先进集成工具或方法,综合系统发展规划和企业应用逐个扩展实施。  

通过创建数据的逻辑视图,平台可以实现企业多个业务系统之间的数据共享、数据交换。一个数据视图相当于一个数据抽取层,隐藏了数据的复杂性和它们之间的关系,提出了一个更易于理解的数据模型,从而减少了访问应用程序数据的复杂性。

大数据平台的整体框架如下图所示:

 

 

三、平台组成

大数据平台由数据源、适配器、数据服务总线、数据存储、统一数据访问接口、查询引擎展现六个部分组成。

 

3.1 数据源

这里的数据源是指所有要集成的数据结构,可以是文本文件、XML、关系数据库、应用系统、Web Services等。包括企业的生产管理系统和经营管理系统等。

3.2 适配器

适配器是用来提供数据集成服务引擎和后端数据源之间的连接,通过数据视图构造器,用户可以快速的为集成应用和Web Services配置适配器。平台包括大量的适配器,并提供工具供用户建立自己的适配器。

3.3 数据服务总线

数据服务总线基于元数据将各种数据视作一个简单的、虚拟的数据源,并且能够通过联邦查询的方式来查询和分析来自不同数据源的信息,确保迅速地响应上层软件对数据的查询请求。同时,通过Cache缓存管理优化数据查询。

  1. 集成/转换引擎

    集成/转换引擎连接底层数据源,集中所有的数据和内容,形成一个通用的信息模型。

    集成/转换引擎集成并标准化数据,允许用户在所有的信息集合上执行联合查询和建立相应的视图。这种强大的信息收集能力使各孤立的数据源之间相互联系起来,从而充分地利用信息。

    统一数据视图用来对各种数据源的数据创建一个虚拟实时的快照。标准、通用的视图使应用系统访问数据源更加简化。一个视图包含了用户获取数据的多个测井数据源以及一些访问这些数据源所必须的信息。当一个视图建立好之后,只要基于这个视图的查询请求被提交,信息就会从底层的数据源中提取出来。视图的属性是在设计时被创建,存储在视图的定义中,以后可以随时修改视图的属性定义。

    开发人员不需要编程,仅仅通过简单、直观的图形界面就可以定义视图。视图是从不同的数据源获取信息的,在之上可以执行基于视图的联合查询。为了减轻后端系统的负载和提高应用系统的性能,可以采用缓存视图方式。通过合适的缓存策略,优化查询效率。

  2. 规则引擎

    平台提供全面的商业规则检查能力,完全按照用户自定义的标准来筛选信息和验证信息。规则检查实时地检查导入数据的内容,主要包括语法结构检查和基于内容的语义检查。?

    规则检查引擎是基于大量可靠、重复的事实做出决策的。不同的规则可以帮助客户满足自己的个性化需求。规则着重于一些应用逻辑,帮助开发者更快速地部署自己的应用,以满足快速变化的市场需要。

  3. Cache管理

    缓存管理器使用结果缓存技术把那些经常用到的信息保存在内存中,供应用程序快速、高效率地访问。当用户定义一个视图时,可以根据需要选择是否缓存视图,如果选择缓存,系统会创建一个时间表,表示在进行查询操作后进行缓存,其时间间隔可以是分钟、小时、天、周或月。 

    数据集成平台允许用户缓存由视图收集的集成数据信息。缓存技术加速了应用的性能,并减少了对经常需要存储的后端系统的负载。利用在缓存数据上的索引还可以进一步加强查询的性能。管理员可以对任何数据源进行缓存。 

    作为缓存机制的一部分,数据集成平台包含可配置的自动验证机制,当选择一个缓存时,系统不仅可以根据事先定义的时间表刷新也可以在用户进行查询数据后进行刷新。如果源信息已经不在了,用户可以选择回滚到自己定义的缓存里进行再一次数据抽取以保持更新。这种动态的更新意味着信息随时都是最新的,用户就可以根据应用需要做出决策。

  4. 事务管理

    事务管理用来保证数据的完整性和一致性,支持JTA事务。数据服务引擎提供了一个数据视图级别的分布式事务处理模型,它把发生在多个数据源上的一组逻辑事务当作一个分布式事务,这组事务在数据视图中被定义,因此所有通过这个视图进行的数据更新都被当作一个逻辑事务。在视图被处理的过程中,如果发生了致命错误,那么所有的事务都会被回滚,如果成功处理,那么所有的事务都会被提交。这样可以保证多个数据源数据的一致性。

  5. 安全管理

    平台包含一个基于角色的安全管理框架,提供认证和授权功能。使用JAAS模型,安全管理可以通过配置与LDAP和单点登录框架集成起来。

    在安全框架内,每一个元数据视图都可以指定一个特定的角色和组,角色通过访问控制列表来管理,该列表指定哪些用户属于这个角色。这些角色通常有应用服务器来管理,并通过统一接口暴露给平台。

    平台支持基于资源的访问控制,并围绕.Net安全模型来进行设计。这种基于资源的机制允许系统管理员对平台管理的任何资源建立访问控制列表,包括结构化数据,文档,数据视图,适配器等。

  6. 查询引擎 

    查询引擎是查询并集合数据源里的数据。对于关系型或非关系型的数据源,它都保存有一个XML格式的数据字典,来记录各数据源的位置和数据格式,使用户可以以基于时间或事件驱动的方式访问数据。

    查询引擎提供了很多查询函数,以类似SQL查询的方式查询所有数据。它生成高效的SQL语句并把他们代理给底层的关系型数据库或可查询的数据源。使用一个查询语句,应用程序就可以查询覆盖所有数据源的信息,并以单个结果集的形式返回,从而无缝连接多个异构数据源。

    为了高效执行各个异构数据源的联合查询,查询引擎从每个关系型数据库里收集和分析元数据,综合考虑数据库各个表大小、已出现和未出现的索引、选择的索引、表的主键、外键关系。当处理查询时,根据远端开销状况和数据通过网络的开销来得到一个最优的执行计划,从而优化联邦查询效率。

    3.4数据存储

    从数据源抓取数据,经过数据适配器转换的结构化数据和非结构化数据采用分布式存储,集中统一管理。结构化数据主要采用关系数据库存储;非结构化数据采用NoSqlNoSQL支持强大的水平扩展能力和高性能,与关系数据库不同的是,NoSQL可以采用松弛一致性(relax consistant),但是供给最终一致性保证数据的完整性。

     

    3.5 统一数据访问接口

    建设数据中心的目的在于数据的标准化与实现数据共享,数据的共享是通过统一数据访问接口来完成。

    统一数据访问接口的用户角色可以分为接口开发人员、运行维护人员和应用系统开发人员三类。其中接口开发人员根据上层应用对业务数据格式的不同需求进行访问接口的封装、格式化,并注册接口描述;数据运行维护人员对新增访问接口进行统一的配置,包括:访问权限、接口描述标准化及接口验证;应用系统的开发人员根据给定的接口进行测井应用系统的开发。

    统一数据访问接口以XMLJson为数据交流格式,因为所有的编程语言都对XMLJson提供了很好的处理支持,所以用不同程序语言开发的客户端都可以访问所有的数据接口,从而实现真正意义上的数据统一访问。

    3.7 查询引擎展现

    查询引擎展现为终端用户提供一个统一的查询界面,并将查询结果展现出来。

    查询引擎展现的用户角色可以分为系统终端使用人员三类。用户可以查询经过处理后的数据。

    3.8 对接其它业务系统

    平台提供支持各种协议的应用接口,支持的协议包括SOAPHTTPRemoting,因此用户可以在其它业务系统中访问调取该系统的数据。例如我们可以在门户系统上使用数据集成平台等。

    四、功能介绍

    企业经过多年的运营产生了大量的数据,这些数据可能存在已有的业务系统中、也可能存在数据库中、也可能存在于文件中,可能以结构化的格式保存,也可能以非结构化的格式保存,这些数据对企业来讲非常有价值,希望能重用,大数据平台就能满足这种需要,通过该平台可以完成数据的集成服务,主要包括数据迁移、数据转换、数据聚合、数据交换、数据同步、数据链等服务。

    (1) 数据迁移

    在一个企业内部,可能存在大量的历史数据,对于这些数据可能需要把它们迁移到新的系统中,平台的数据迁移功能符合这个需求。通过平台我们可以在多个数据源之间移动数据。

  7. 数据转换

    平台的一大特色是有一个高性能的数据转换引擎,该引擎由在设计环境中列出的基于元数据的指令驱动。由于数据在各种异类应用软件和数据源之间集成,因此需要解析这些系统之间的数据语义、关系和层次。平台采用统一标准语言xml作为转换的中间格式,能够处理非结构化、半结构化和结构化数据的转换。

  8. 数据聚合

    平台提供虚拟数据聚合即企业信息集成(EII)功能。通过将传统的物理和虚拟数据集成方法结合到一个平台中,大数据平台可以帮助机构快速方便且经济高效地传递整体数据。使用这一功能,机构可以联合访问多个异构数据源,因此,无需实际移动数据就可以创建虚拟数据视图。利用该功能可帮助IT机构缩短数据集成项目的周期,更快地适应不断变化的业务需求。

  9. 数据交换

    通过可视化视图创建工具创建数据交换的视图,可以完成数据库之间、数据库与应用系统之间、应用系统之间的数据交换。整个平台有一个虚拟的数据中心,里面存放着数据交换的视图,通过这个数据中心来完成不同数据源之间的数据交换。

     

  10. 数据同步

    当企业一个系统的业务活动会影响其它多个系统的进程时,数据的实时性、准确性就尤显重要。大数据平台提供数据同步功能,以确保数据在大量应用程序之间保持一致。

  11. 数据链

    通常情况下,企业各系统组织内含有关联的数据。数据链是一种技术用来利用这种联系,使相关的信息检索来自多个数据源。数据链操作通常是对这些关联系统的一系列的请求,第二次的请求取决于第一次的请求的结果。换一种方式说,数据链操作第一次从一个系统检索出数据集,然后利用这些数据信息发送请求到第二系统来检索相关信息。数据链实际上是一个专门形式的数据汇总。通过数据链功能可以将企业多个系统关联的数据联系起来。

    五、平台特点

  1. 符合国际规范

    平台严格遵循技术发展主流的国际标准,以.Net体系为骨架,采用国际上先进的应用平台技术标准,如Web serviceXmlSOAP等。便于和国际接轨,易于系统扩展及升级。

  2. 开放性和可扩展性

    可根据业务需要进行扩展,平台运用目前最先进的XMLJSON语言技术,实现异构环境多数据源的集成以及系统之间的数据交换,保证多种应用软件能在同一操作平台上兼容,从技术和体系结构上保证今后系统升级或者数据库更换时能够使平台平滑的移植到新的环境,并可继续正常运行。平台广泛采用了业界主流和开放的技术标准和设计模式,提供开放的应用编程接口和管理工具,使得系统在集成新的应用和采用新的运行平台时,具有良好的可扩展性。

  3. 安全性

    集中式安全数据访问,在访问数据抽取层时,提供认证、授权和信息加密功能,可以在现有安全策略之上对数据访问进行管理,把信息提供给授权的用户或应用。

  4. 统一性

    整个平台的数据传输统一采用XML格式,便于数据转换和异构数据源的集成。同时提供统一的数据访问接口,使得不同环境的应用都可以使用平台。

  5. 实时性

    平台可以实时的反应底层数据源数据的变化,以便给用户提供及时、准确的信息,做出正确的决策。

Copyright ? 2008-2018 北京安客科技有限公司. All rights reserved

京ICP备14016743号