中国移动总部—并行运算在大数据平台应用研究 - 易鲸捷

通过对中国移动各省公司既往在大数据平台领域的已有解决方案、应用场景、关键技术和实际效果进行调研,发觉随着业务不断发展,数据摘集、留存、集合技术不断完善,各业务系统及大数据平台中数据量快速增长,应用复杂度的增大,以及应用需求日益增长,原有数据库技术、大数据平台及串行运算等,已不能很好的满足数据处理与治理各方面的使用需求。如在大数据处理的功能和性能优化方面,进行相关专题的技术研究,特别是执行效率、资源利用率和构建融合式分布数据库这几个方面进行深入设计和研究,可以解决集团以及各省公司面临的痛点场景。

解决方案

移动数据实时处理

移动数据实时处理,通过设计研发KafkaCDC工具,提升数据从传统业务库向分析库迁移过程的实时能力,由传统的离线、批量、T+1方式转化为在线、实时、T+0的处理,同时优化实时处理的效率,提供线性扩展的能力。

方案架构

多维实时查询

MDAM多维实时查询是一种可以高效访问数据的创新方法,避免了不必要的全量数据扫描,高效地支持分析报表类查询场景。在处理缺失前导列、部分主键查询条件为IN列表、查询主键列为范畴的场景中可以跳过大量的不符合条件的行,从而提高性能。

分布式事务

江苏快3分布式事务治理器(DTM)解决了大数据平台中的分布式事务问题,易鲸捷分布式事务支持两阶段提交,支持WAL日志和复原技术,支持MVCC多版本并发控制,支持混合乐观锁、悲观锁,提供ACID事务强一致性保证,同时整体扁平化的结构设计可以保证事务处理能力的扩展性。

冷热数据分离

通过判定数据在一段时间内被访问的频率,进而判定该数据的冷热属性,系统会从底层储备(通常是HDFS)中获取元数据信息,并通过数据读写访问信息分析获取数据热度情况。如果在这段时间中,某个数据文件被访问的频率超过了某个阈值,系统会自动将该数据文件转移来内存或者固态硬盘上。同样,如果这段时间之内,数据文件被访问的次数少于某阈值,就会被自动转移来机械硬盘或者回档,从而有效提高储备的资源利用率。

云数据库共享技术

云数据库共享技术的核心关键就是合理有效的在分布式数据库集群上根据不同租户所需划分匹配的配额资源,且在资源的使用过程中确保租户资源之间的隔离性,让多个租户灵活且安全的共享使用一套分布式数据库集群资源。

多租户技术答应多个租户(或用户)在一个集群上运行他们自己的应用并且治理他们自己的资源,实现租户之间相互隔离,并为资源提供均衡分布和灵活的扩展性。

构建融合式分布数据库

融合式分布数据库可将所有数据储备在统一平台,免去数据库复制、落地、转换、加载来数据仓库的复杂流程,极大的降低了数据储备成本。满足所有数据模型的需求,提升效率可T+0处理所有业务需要(事务、运营和分析),以及未来新型的业务服务需要。

EsgynDB的价值

有效支撑中国移动“大连接”战略,落实IT领域改革部署,建立“架构先进、运营高效、内外兼顾”的IT核心体系,为中国移动IT系统的发展提供可用、可行、可靠的业务支撑能力,为中国移动IT系统和产品选型提供优良的参考标杆。

架构先进:融合架构体系,一套数据平台同时支撑OLTP和OLAP业务,极大减少当前企业面临的混搭架构中大量数据的移动和复制,降低因此产生的延迟、故障和运营成本,同时还能满足结构化、半结构化、非结构化数据的处理

内外兼顾:数据集中处理,突破传统数据库技术单一性的瓶颈,所有数据统一储备在一套库中集中治理,技术人员通过把握并使用一套数据库技术就能解决所有数据应用问题,从而简化了技术流程、降低了技术门槛和减少了使用和保护成本。

运营高效:实时数据处理,满足所有数据模型的需求,提升效率可T+0处理事务、运营和分析等所有业务需要,以及未来新型的业务服务需要。