本篇文章3578字,读完约9分钟
近年来,公司为了在市场上获得特征,需要从日益增长的数据量中发掘更深入有用的拷贝,大规模的数据云平台作为连接许多元数据和应用程序的重要环节,受到各公司的关注。 12月21日,在第11届中国数据库技术大会大数据结构设计论坛上,金山云大数据平台基础设施技术负责人关海南共享了“金山云大数据结构与容器化实践”。
从诉求看金山云构建大数据云平台的途径
金山云大数据云平台最初为企业内部提供大规模的数据相关服务,然后衍生出包括公共云大数据平台、领域云大数据平台及公司云大数据平台在内的多种产品,在很多领域广泛应用
关海南表示,构建之初,平台从越来越多企业的实际业务诉求和痛点出发。
一是从完善dataops的思路着手,提供完美易用的大规模数据开发平台,业务方根据平台完成离线、实时、发掘等全过程的开发、测试和部署,完成各种引擎的
二是以赋能数据前台为目标,根据数据开发平台提供高效、优质、标准化的数据资产管理系统、数据共享系统,直接面向业务服务,符合当前数据中台的建设思路
三是从有效管理数据的技术维度出发,提供统一元数据引擎、统一查询引擎、存储计算分离、大数据容器化等技术、hadoop/mpp混合数仓、多云的引进等,成为现在湖仓一体的
经过6年多的打磨,金山云推出的航母级大数据云平台涵盖了数据湖和数据中台的设计理念。 另一方面为用户提供一站式大数据平台,提供客户业务开发、大规模资产管理、运维保障的大数据基础能力。 另一方面,以云计算平台为核心,形成数据湖运营管理、数据中台基础设施部门的核心能力支持工具。
金山云大数据云平台汇集了8个组件、2个主要支持系统和1个公共服务。 所有组件都符合航母级别的标准。 其中,标准化组件涵盖数据收集、数据集成、数据开发、数据观察、数据服务、智能调度、数据管理和存储计算八大功能,包括大数据传输和大数据运营两个 公共服务包括平台门户、项目管理、资源管理、客户管理等,为客户提供有效的数据管理功能。
海南表示,数据开发平台包括收集、集成、离线计算、实时计算、挖掘分解及调度系统,是从dataops构想出发,为提供方便的数据开发、数据采用而提供的开发平台。 数据资产管理、数据服务、服务总线等用于有效地分配前端,直接为业务提供服务,实现数据的中台价值。 基础数据存储符合计算、高效数据管理、元数据统一、存储计算分离、hadoop、mpp大数据容器化等高效数据管理的建设思路。
数据湖+中台金山云大数据云平台的体系结构基础
大型数据库平台首先不需要hadoop开源系统,在稳定性、资源利用率和规模方面得到了增强,包括存储计算分离的mpp和时间序列数据库。 关海南表示,金山云大数据云平台与hadoop裸体平台不同,提高了大数据解决效率,支持大数据加工全过程可视化接口操作,向导式配置、在线代码制作、拖动式业务流程
目前,金山云大数据云平台打破了hadoop、mpp等重要系统的规模瓶颈,基础引擎具备高度的可扩展性,万台规模、百万级工作调度、百万qps实时解决、10万以上的节点 金山云大数据云平台支持多云异构环境,不仅金山云的iaas平台,其他主要iaas平台也支持部署大数据云平台。
事实上,金山云大数据云平台从设计一开始就体现了数据湖的属性,统一元数据,统一查询引擎,在后续的基础世代,架构逐渐明确,遵循计算、记忆、元数据分离架构模型。 现在,某股份制银行采用的公司云版,被用于行内的数据湖建设,已经在线了。
海南表示,一方面统一元数据,另一方面不冗余地存储数据,容易统一管理,另一方面不独立采用不同的引擎会导致数据不匹配,而且更好地满足性能、权限、数据资产等方面的考虑 金山云大数据云平台mpp也支持存储计算分离战略,spark和mpp可以通过统一数据湖元数据引擎相互访问。
金山云数据湖计算引擎以spark/presto/flink计算引擎、yarn/k8s资源引擎、hdfs/ks3存储引擎为主的数据湖元数据引擎与hive-metastore语义兼容
spark可以读取mpp存储在对象中的内置数据,mpp也可以用外部表的方法读取hdfs的hive架构数据。 支持数据湖样式(如hudi/iceberg )保存在hdfs中和保存在对象存储中,便于高效灵活的数据管理。 为了提高存储计算分离的特点,金山云大数据云平台引入了数据湖加速服务,避免了存储计算分离带来的性能问题,引入了alluxio系统。 因此,整个数据湖出现,向湖仓一体、流批一体、统一元数据、统一权限、数据acid、存储计算的分离正在进行。
关海南其次,lms(lake meta service )是数据湖的核心,与metastore协议兼容,使spark/presto/flink/mpp等计算引擎能够以sdk方式透明对接 此外,还可以添加层次、namespace,方便部署不同的源和不同的存储,通过不同的存储样式/存储目录文件的抽象,为引擎提供统一元数据服务,多引擎提供元数据服务器 存储层支持mysql和dragonbase分布式数据库,支持联邦模式,方便lms横向扩展。大型数据云平台的元数据引擎可以升级到lms,通过级联连接, 関海南表示。
与以前传来的大数据系统分割、功能散射、运输和采用不便等不同,金山云大数据云平台遵循统一思想,通过大数据解决的全过程,统一门户、统一调度、统一元数据管理、。 为了消除部门间的数据壁垒,降低人员准入门槛,构筑数据中台的基础平台能力。 它还降低了混合体系结构运营运输的维多利亚和复杂度,提供了资源灵活的伸缩,支持资源灵活的伸缩、多租户管理、服务高可用性等完全云化的特征。
90%集装箱化部署帮助建设新一代大数据paas平台
目前金山云大数据平台支持90%的大数据服务,在容器内运行。 我们想的是统一在线和离线的资源时间表,比起yarn,用k8s管理资源。 例如,越来越多维的资源隔离,更灵活的资源超销售和扩展战略。 另一方面,由于大规模的数据云平台支持私人部署很多,不仅可以部署到金山云,还可以部署到其他云的供应商,所以使用k8s作为资源的灵活扩展容量比调用iaas接口更统一。 据关海南报道,某国有银行采用的领域的云版,80%的组件被容器化配置,现在内部采用了数十个大型项目。
大数据容器开放平台通过结合大数据组件和容器引擎的深度,拖动组件、技术要素等方法形成服务和大数据平台层,遮蔽容器化的基础技术,应用商店的莫
面向研发人员,拖动方法形成新的服务,屏蔽容器化技术,迅速收纳在容器开放平台上,面向通过微服务技术减少重构车轮的测试人员,提供测试沙盒,自动驾驶用例 通过开放平台,可以看到大规模数据云平台整体的运行实例的状态,异常监视可以迅速评价影响范围和上下游,面向运维操作方便的导入者,通过大规模的数据应用商店 针对产品负责人,通过拖动大数据服务的不同组合,形成不同领域、不同版本和不同演示环境的平台组合。
海南表示,大数据容器开放平台的逻辑体系结构分为组件定义、应用程序定义、集群管理、集成和部署、大数据存储等,如何将大数据组件和服务 其中alluxio存储代理层提供了通用的分布式存储缓存,减少了源回退次数,提高了存储访问效率。 作为存储代理层,与k8s组合,包括越来越多的存储介质、公共云存储,可以提高存储的可扩展性。与k8s组合,对k8s应用大数据的存储短板进行补充,存储。 istio网格。 用于多群集互联网通信和集装箱管理的精细化。
最后,关海南作为公司级新一代大数据paas平台,构建了金山云大数据云平台为云产生的大数据生态,实现了云数据收集、数据整合、数据管理、数据开发、作业调度等一体
平台提供了各方面、多数据类型、可视化数据收集能力,其中数据传输层是金山云整个大数据平台的基础,经过企业内部万台节点传输的打磨,支持多种传输模式。 数据集成支持多个引擎之间的合理同步,提供丰富的数据验证和加工操作员,在提供mpp和hadoop计算和集成能力的开发过程中,许多金融企业完全隔离了开发、测试和生产,因此金山云引入了三态
数据资产管理和数据服务是直接能源赋予业务,是中台属性比较突出的两点。 数据资产管理平台是当前投入的比较多的部分,包括集成元数据、数据标准建模、数据血缘、数据目录和数据安全。 数据服务包括提供集成查询引擎、提供服务总线和api管理,大大减少了数据重建。 関海南表示。
目前,金山云大数据云平台面向金融、公共服务、医疗等行业,通过构建ai主导的大数据云平台,为智慧金融、智能城市、智能医疗等行业提供了强大的智能化决策支持 面向未来,金山云大数据云平台将继续完善技术产品服务系统制度,优化数据解决方案性能,帮助顾客迅速构建新的大数据落地能力,更有效地挖掘万亿级大数据服务市场。
标题:【科讯】从公司实际诉求出发 看金山云大数据架构及容器化实践之路
地址:http://www.miutrip.net.cn/news/216.html