本篇文章2554字,读完约6分钟
12月19日至20日,腾讯主办的techo park开发者大会在北京召开,世界200多位顶级技术专家和数千名参加者在大会现场谈论云计算、大数据、人工智能等尖端技术的话题
业务支援基础设施部的结构方向负责人吕亚霖应邀参加这次大会的公司it结构云原生的必经之路容器分论坛,在现场发表了“业务支援容器化探索和落地实践”的主题演讲,分享了业务支援容器化的背景、目标、落地、收益和将来的计划,
云原生技术框架是比较有效的手段,k8s及其生态是重要的把手
随着云本机技术的成熟和普及,各行各业更多企业(包括金融、教育、游戏等)的it体系结构正在迁移到云本机体系结构。 在这种背景下,工作帮助在技术和实践中取得的一系列进展和成绩,成为教育行业公司云原始上云变革的巨大代表,为领域提供了借鉴的成功例子。
吕亚霖在演讲中首先分享了作业支持技术体系的现状,作业支持自成立以来一直在迅速增长,特别是今年实现了规模的倍增,迅速发展到现在有数千个业务应用、数万个应用例子、数十万个计算核数,今后暂时还在增长
规模化加快发展迅速,作业多和复杂度也急剧增加。 吕亚霖认为,作业支持从最初的照片搜索问题工具类型开始应用,教研、工具一体进化,涵盖整个教育行业,涵盖低龄、从k12到成人教育的全阶段,技术栈从php、c+到现在的主要语言。 涵盖了高并发性的一系列问题,他说可用性和性能要求比大部分网络业务要求更严格。
在业务的迅速扩大中,其框架多、抑制复杂性、保证业务服务的稳定性、价格、效率成为作业支援容器化的中心问题。 对此吕亚霖指出,在云原生技术框架下,基础设施继承业务中的许多非功能逻辑,实现弹性、可观测性、韧性、自动化、可持续发展等特征是比较有效的手段,k8s及其生态是重要的线索
吕亚霖进一步阐述了业务支持容器化水平及其背后的技术思考。 在虚拟机时代,由于应用是直接在资源上运行的,所以基础资源的变更被上层应用感知到,通过服务管理手段保证业务的高可用性、性能和扩展性,但是建立和运输维这个系统是昂贵的。 另一方面,在集装箱化系统下的云原生架构中,k8s通过抽象下游资源,抵消资源差异和变更,资源对上层服务是透明的,上层服务与下层资源的细节和变化无关。 然后,服务上层应用,按照应用框架的落地规范和标准,降低访问价格。
cpu的峰值计划必须根据将来的招聘量获取日志搜索比较元数据
吕亚霖强调,在容器化落地过程中,首先业务服务确定容器基本上非常重要,一是不陷入重大问题的缺陷,二是有助于容器生态的迅速访问。
集装箱化落地内核主要集中在ipvs和cgroups,内核存在经典的ipvsreuse mode问题,以及高同时下的网络毛刺问题,在腾讯tlinux内核团队合作处理了这些问题。 吕亚霖在大会现场共享了容器化落地的核心和原生k8s的优化等复印件。
k8s的默认调度程序存在很多不足,如峰值调度不平衡。 我们在进行平衡调度。 我在做实际的调度。 优化后,业务deployment实际上是平衡的,但到了高峰时间段,就会变得不均衡。 在大多数业务场景中,cpu的峰值增量不是线性的,所以建议进行峰值预测调度。 不是根据现在的招聘量来安排,而是将来的招聘量。
其次,吕亚霖从集装箱化落地服务发现登记的控制方面和数据方面进一步详细证明了。 他在容器化过渡期间,虚拟机和容器并行很长时间,因此需要处理旧虚拟机和容器化的互操作问题,从控制方面来看,用一个控制组件拦截虚拟机的名称服务,将服务分为k8s类 另一方面,在数据平面中,容器通过服务直接访问虚拟机,服务进行负载均衡,虚拟机访问容器化后,通过面向物品的ingress服务,访问容器内的服务单元。
另外,service mesh对采用作业辅助等多语言的企业来说非常有特点。 吕亚霖指出,其特点之一是低入侵,几乎感觉不到业务,二是多语言支持,三是与服务感觉结合良好。
灵活地安排资源+离线混合部署将导致某些业务价格下降43%
作为资源弹性调度的重要参考背景,业务支持容器化落地过程中的时间周期特征非常明显,高峰时间段是平高峰时间段的20倍,是低峰时间段的100倍,流量上升曲线急剧,到上午5点的流量少 另外,即使遇到寒暑的高峰、中间、期末考试,也有很大的资源招聘量。
基于这个特点,吕亚霖和团队主要用两种hpa扩大pod,一种是定时hpa,适合当时确定的业务。 另一个是autohpa,紧急扩大,防止服务容量问题。 而且,基础资源水平有两个池塘。 一个是固定池,其中是裸露的金属服务,长期采用。 另一个是动态池,根据需要由虚拟机组成。 平时处于关闭状态,资源紧张时打开集群电源,应对意想不到的高峰。
除此之外,离线业务容器化混合部署是优化成本的一大工具。 吕亚霖说,通常的在线业务有大量的低负荷时间段,业务支援是将大规模的数据离线和视频语音的解码服务全部集装箱化,用k8s时间表统一,导入在线的k8s集群,利润非常大。
在异构计算中,在gpu服务的集装箱化方面,工作支持的第一战略是gpu-share方案,通过基于显存储器和计算能力的pod调度,从上游流量入口侧隔离计算能力,保证gpu服务的稳定性, 在我们的方案中,大规模采用gpu数千卡,比较常见的情况是卡故障,这时需要故障转移和资源下线操作。 吕亚霖说。
另外,作为可用性保证的重要一环,在阴天k8s建设中,工作支持在多个云制造商配置独立的k8s集群,统一k8s的管理调度层、云内流量闭环、数据存储专线同步、源DNS
通过多项举措的合作,业务支持容器化的收益变得显着,在同样的业务转移前后采用hpa,离线混合导入后,价格下降了43%,稳定性提高了99.995%,接口响应提高了10%。 由此,比较有效地支持了业务支援业务的迅速反复、秒级的迅速扩展容量、服务运行状态规范的落地和统一的运输维环境、阴天环境的统一、服务的可用性的提高。 这还可以简化云之间的相互移动,实现单一云故障应急方案,优化资源碎片化,从而实现离线混合部署、自动扩展和总体价格进一步下降。
演讲的最后,论述了容器化未来的计划展望,吕亚霖提出了更大规模且全时间段离线的混合部署、k8s和serverless的组合未来的趋势、中间件的容器化、大规模数据服务的容器化四个方向
标题:【科讯】2020 Techo Park开发者大会召开,作业帮加速平台架构容器化探索
地址:http://www.miutrip.net.cn/news/743.html