本篇文章2338字,读完约6分钟

系统行业领先的双星之一OSDI ( USENIX SyMPOSIU mono Perating systemsdesignandimplementation )是美国加利福尼亚州carlsbad的omni la costa resort spa酒店 当地时间今年10月8日~10日召开的这次大会参加人数达到创纪录的650多人,投递论文收录了257篇,47篇,记录率不到20%。 还有83个poster和6个demo。 这次osdi篇的best paper分别来自Understanding Failures ( RPT:Reversedebuggingoffailuresindeployedsoftware,weidong cui et al )。 operating system(legoos: a disseminated, distributed os for hardware resource disaggregation, yizhou shan, et al )和调试( ORCA ) ( ORCA:differential Buglocalization Inlarge-scale services,ranjita bhagwan )三个操作系统以前就传到了业界,组委会初心不忘,

【科讯】直击系统行业顶会OSDI

三篇best paper中有两篇最初的作者是中国学生,也是令人高兴的现象。 值得注意的是operating system的best paper:legoos: a disseminated,distributedosforhardwareresourcedisaggregation,yizhou shan,et。 引用了我们之前发表的alibaba cluster trace佐证下一代resource disaggregation的设计,证明了阿里巴巴的基础技术能力和场景在顶级学术会议上开始受到重视。

【科讯】直击系统行业顶会OSDI

阿里巴巴在这次会议上进行了最高级别的金牌赞助,举办了研讨会( bof ),(1)阿里巴巴os开发优化和创新方面的最新进展,(2) AlibabaCloud (阿里巴巴云)存储系统的盘古2.0,(3) 研讨会聚集了世界上数十位专家学者,在系统软件事业部系统性能研究员kingsum的主持下,以演讲介绍加上自由讨论的形式,对这三个话题进行了活跃的讨论。

【科讯】直击系统行业顶会OSDI

上:这次研讨会的三个主题和讲师介绍

上图:会场附近没有空位

阿里巴巴操作系统的开发与探索

alikernel是阿里巴巴为更好地支持业务的快速发展和应对各种技术挑战而开发和优化的操作系统的内核。 随着阿里巴巴集团的服务器数量、业务多样化、应用程序混合部规模的提高,操作系统和核心面临的课题越来越多,除了上述规模的问题外,还包括serverless等迅速迭代、成本削减、创新

【科讯】直击系统行业顶会OSDI

比较这些主张,操作系统高级技术人员绍康介绍了内核开发的快速迭代、资源分离、性能优化和unikernel方向的创新探索( aliuk )。

上图: aliuk架构

新一代分布式存储系统盘古2.0

盘古2.0是已经广泛部署在阿里巴巴的新一代分布式存储系统,具有低延迟、高iops的特点。 盘古2.0的多级设计不同的应用可以满足多种场景中的诉求,通过引入纯顾客状态的存储引擎ussos和软件硬件的协同设计等机制,盘古2.0比较有效地创新存储介质和rdma互联网

【科讯】直击系统行业顶会OSDI

AlibabaCloud (阿里巴巴云)分布式存储的资深技术专家从现状、诉求、设计、架构、新特征、性能等多个方面,列举了盘古2.0的许多值得注意的特征。

上图:新一代存储系统在价格管理、性能和qos保证方面的要求

阿里巴巴超大规模资源管理系统sigma

sigma是阿里巴巴集团内部的资源管理系统,是阿里巴巴集团云化战术的重要系统,也是阿里巴巴集团最重要的基础设施之一。 为阿里巴巴集团的许多经济提供服务,包括天猫、淘宝、广告和物流。 也负责双11等EC促销场景中的资源管理,从年开始从容量计划、稳定性、价格控制等多个方面应对双11的极端技术课题。

【科讯】直击系统行业顶会OSDI

在这次的共享中,来自系统软件事业部调度系统sigma的技术专家临石,在sigma的日常资源管理、双十一销售节的资源准备和稳定性、集群整体的cost efficiency几个方面,sigma有几个

上图: sigma-fuxi混合部的结构图

在sigma的日常管理混合部,阿里巴巴通过资源隔离、优先级控制、多调度协调等方法,将混合部的平均cpu利用率提高了45%以上,相对于以往的10%的在线服务平均资源利用率实现了大幅度的成本削减。 在优良的决定中,sigma引入了强化学习机制,克服了传统的启发式调度算法容易实现、难以优化的问题,大大提高了资源配置率(在线调度场景)。 。 另外,sigma引入了动态限额机制,通过分解业务负荷和应用程序容器的能力,实现了更激进的动态资源限额控制,比较有效地提高了整体资源利用率。

【科讯】直击系统行业顶会OSDI

双11销售节的资源准备方面。 sigma通过大量的创新手段,大幅提高临时负载应对能力(超过100倍的日平均压力),保证业务的稳定性,为集团的大幅削减成本和业务模式的创新提供有效的技术支持。

后记。

研讨会于下午20点30分开始,房间很快就满了,参加者对阿里巴巴的系统软件工作感兴趣。 斯坦福大学platform lab的faculty director john ousterhout也参加了这个研讨会。 有趣的是,阿里系统软件事业部不仅与斯坦福大学合作,还与其他许多高水平学校的老师合作。 这次研讨会大大提高了这些高水平的研究者对阿里巴巴基础设施的理解,我们欢迎所有有志者加入我们,共同建立最稳定、高效的系统软件。

标题:【科讯】直击系统行业顶会OSDI'18现场,探秘阿里集团基础设施团队

地址:http://www.miutrip.net.cn/news/2528.html