本篇文章4478字,读完约11分钟

10月16日,mobvista推出了一站式全链路机器学习平台mindalpha。 mobvista是世界领先的技术平台,为世界应用开发者提供移动广告和移动数据观察服务,目前在海外建立了涵盖fb/google以外3万多个独立媒体的流量矩阵, 涵盖了从移动应用程序安装前到安装后整个生命周期内客户行为的大量数据。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

mindalpha平台功能包括大规模实时数据流和高效的特征工程框架、百亿个特征、千亿个样本的大规模复杂的模型培训框架,以及大量要求的高性能低延迟的在线

mindalpha平台建立在超大规模的分布式计算平台上,包括与开源生态兼容的云部署分布式集群,通过自主开发的多种计算、服务框架。 整体计算平台体系结构如下图所示。。

其中,mindalpha提供的一站式机器学习服务是整个计算平台最核心的功能,mindalpha的具体架构如下图所示。

mindalpha平台提供的一站式机器学习服务完善了数据流访问、特征生成、模型训练、在线预测、在线判断、在线学习的全周期过程。 mindalpha集成了多个大规模离散特征在线学习算法,每天经过100亿pv、10亿uv级的实际业务测试,很快就可以使用了。 另外,还可以支持高速算法原型的开发验证和模型生产引进的无缝对接。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

mindalpha平台采用cloud native设计,具有强大的资源灵活扩展功能,可确保大规模计算能力和成本之间的平衡,便于企业快速灵活地部署公共、私有云,AI AA 分别介绍mindalpha一站式机器学习平台的核心要点模块。

大规模、高效的数据流和特色工程框架

数据流和特征工程是算法训练的基础。 高效的数据回流能力保证了模型训练样本的生成时间长短,百亿规模的特征工程生成能力保证了样本对实际问题空间的匹配程度,进一步保证了模型的正确性。

mindalpha平台的数据流特性工程主要有以下技术优势:

1 )在线回流特征和离线特征相结合。 mindalpha平台支持多种类型的在线特性,包括客户的实时行为统计特性。 该特征的一部分在离线时没有对应的数据,通过排序服务将这些特征返回到离线平台。 另一方面,一部分是离线特征表,包括dmp平台提供的大量器件维度特征等。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

2 )高维表提取优化。 在线数据回流后进行多个维表的特征提取时,经常产生离线维表大、回流数据只能取得很少的部分的问题。 但是,以前传输的mapreduce方法仍然需要扫描大的维表,shuffle和join过程非常耗时。 我们通过革新综合运用in memory hash和小表broadcast等方法,可以大幅度加快特征提取的流程,在10分钟内完成10亿位日志表和100亿位特征表的join操作。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

3 )原始特征被收纳成列状。 算法模型的调谐一般需要频繁地实验不同(原始)的特征,但不同的实验往往只有极小部分的特征不同。 如果为每个实验组重新生成样本,则会浪费很大的空间,如果生成多个样本,则会产生很大的资源开销。 我们设计了新的列存储方案,将原始特征分成不同的列进行保存,以便在训练时指定必要的特征列。 这样所有不同的实验都可以共享相同的样本存储,只需选择不同的特征列即可。 通过这样的优化,时间级的样本生成只需1份,追溯了多天的历史数据补充特征也只需要增加关联列即可。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

二、超大规模分布式培训框架

经过数据流和特色工程,接下来进入模型培训的一环。 在网络广告行业中,特征规模、样本规模是提高算法效果的重要基础,相对于最近的entire space multitask model (esmm )学习模式等,模型空间大幅膨胀。 因此,能够支持超大规模特征和样本的分布式机器学习训练框架是ai平台的核心组成部分。 我们的分布式机器学习训练框架使用了基础分布式框架和上层算法框架分离的框架,主要原因是不同的算法在优化迭代的模型上有很多不同,算法与业务、特征等有一定的差异 即使单纯引进tensorflow等dl框架也无法应对多样性的算法开发要求。 具体来说,整体架构可以分为两层。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

1 )第一层是大规模的parameter server框架。 从架构来看类似于经典的ps架构。 不同之处在于,它提供了通用的批量kv访问功能,可以灵活地在上层定制服务器端的存储对象样式。 ps体系结构的横向可扩展性可以有效地支持100亿的特征规模和千亿的样本规模。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

2 )第二层是算法框架和算法组件。 在这一层,有比较专门为广告行业业务设计的几个大规模稀疏特征的在线算法,也可以无缝应对mxnet、pytorch等深度学习框架。 通过这样的分层分割,不同的算法实验也可以共享特征的组合、离散化等共同模块,另外可以深入定制自身的算法逻辑,提高了算法开发的更新换代效率。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

三、高效的在线预测平台

在线预测平台提供基于大规模复杂模型的实时预测服务.。 在线预测服务对响应延迟、稳定性、模型加载时间长度等要求非常高。 在在线广告、检索推荐等场景中,通常要求将各请求的预测时间控制在10~100毫秒之间。 除了非常低的延迟要求外,在线预测服务还必须能动态加载模型,并根据实验流量的自动识别调整不同模型的负载能力。 总体模式图如下图所示。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

预测框架封装了通信、预测请求序列化、线程调度等基础细节,并与离线特征表现、模型描述无缝对接。 应用算法的同学集中于算法开发,避免重复代码在线、离线引起不一致的问题。 预测框架和算法是分层独立的,便于两个独立的迭代进化。 以下是mindalpha在线预测平台的重要特征之一。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

1 )协和式异步编程api。 通过采用sharded stackless coroutine的设计,预测服务完全可以利用多cpu核心进行线性扩展。 预测过程需要从实时模型服务、实时特征服务等多个数据源检索数据,通过支持异步调用,可以同时提出请求,减少等待。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

2 )横向、纵向自动扩展的模型服务。 模型服务是预测平台的组件,也是参数服务器,将每个模型分割成多个片,以确保模型的规模不受独立内存容量的限制。 预测算法根据输入样本从模型服务中提取必要的参数取值。 通过卸下独立的模型服务,可以减少独立的内存消耗,通过增加机器数量支持更大的模型规模。 由于预测框架具有独立的通信和计算线程,支持异步调用,因此即使卸下独立的模型服务,预测请求的解决效率也不会降低。 另外,各模型还提供多个replica,通过增加资源可以线性地增加服务能力。 模型预测服务完全利用云资源的动态扩展功能,通过对每个模型调用频率负荷的动态感知并实时扩展,保证在线预测的高性能化、低延迟化,比较有效地控制价格。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

3 )创新的模型文件风格。 模型服务的参数服务器是只读的,设计高效的模型磁盘数据文件的样式,支持矩阵、矢量和更多散列表的编码,用内存映射文件的方法有效加载模型 时,在线上预先解析表格和复制样式的模型,并将其编码为自定义的磁盘数据文件格式。 在此过程中,散列表中的字符串key转换为uint64散列表代码,数字也从复制样式转换为二进制,减少了磁盘空间的诉求。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

4 )基于磁盘映射文件的模型加载机制。 加载模型时,我们采用了磁盘映射文件,模型可以瞬间切换,即使不一次重复执行所有的磁盘io,也没有数据样式的转换过程,模型的切换延迟极短。 模型中实际使用的部分将根据需要实时重新加载需要操作系统的内存页.。 负载均衡,模型的低频部分系统可以自动更换物理内存。 通过该技术,实现了模型的在线预解决、在线一键加载切换,缩短了模型的加载时间,降低了内存和磁盘容量的消耗。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

四、算法模型组件

mindalpha平台提供了成熟的算法组件,包括经典的ftrl、xnn和rl算法模型。 它还比较优化了搜索、推荐、广告行业的超大规模离散特征和数据优势,开箱后立即直接为在线业务提供服务。 在广告行业,mindalpha可以支持cpm、cpc、cpe、cpi等各种广告线业务的个性化排序。 以常用的ftrl模型为例,mindalpha平台提供了直接支持和训练特征组合后的样本的功能,对ctr、cvr、ivr等指标进行建模,无缝贯穿在线预测服务和,

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

mindalpha平台在为集团快速发展提供服务的过程中,结合了各种业务场景的好处,独特的强大数据解决能力、大规模分布式培训框架和高性能的在线预测平台 下面的图表显示了整个平台的算法模型组件框架.。

介绍了一些有特点的算法组件。

1)esmm

即,entire space multi-taskmodel对广告线业务的cvr估计模型中存在的采样偏差和数据的稀疏性进行比较,解决ctr和cvr的共同建模训练,基于以往的ivr估计

2)df-esmm

online learning的求解框架首先假设label分布在特征空间内随着时间平滑地变化,但在移动展示广告的场景中,存在很多转换数据的滞后,引起label的特征空间分布的急剧变动, 为了解决这个问题,引入了延迟转换( df )模型。

3)df-esmm-dnn

在ctr和cvr模型中没有考虑延迟反馈的部分,分别采用dnn建模,共享embedding层参数。

4)drl

除了以前传来的深度学习和在线学习系统外,我们还试图采用最新的深度强化学习系统来建模已编程的广告发布引擎。 具体来说,如果把广告发布引擎看作代理,把设备顾客看作环境,那么广告的发布问题可以看作是典型的顺序决定问题。 agent一次排序策略的选择可以看作一次尝试错误,以客户的反馈:点击/安装等作为来自环境的奖项。 在这样的反复试验过程中,代理会阶段性地学习最佳的排序策略,使累积奖最大化。 在与这种环境的交互过程中进行反复试验的学习是加强学习( rl )的基本思想。 这样,我们的广告发布引擎就可以逐步进化,实现平台广告收益的累积最大化。 也可以用类似的方法无缝地优化连接到其他网络业务(如个性化推荐和搜索)的建模。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

五、总结与展望

mindalpha平台构建了面向大规模网络核心业务的人工智能一站式服务平台,为企业级ai应用奠定了基础。 通过多个云部署方案快速构建,开箱后立即有效地为在线业务提供服务。 目前,基于mindalpha平台的一站式服务体系制度支持mobvista的多种在线业务服务体系制度。 这包括大量中部媒体的程序投入、头部大媒体的智能投入、以前传递给网络联合业务的反欺诈算法体系等。

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

事实上,可以清楚地看到,所有领域的所有维度对ai的需求都非常大。 mindalpha随后将考虑提供对外直接ai服务,除科技巨头外,还将为领域中小企业提供新的ai服务选择。 mobvista集团算法科学家陈绪(前蚂蚁xps机器学习平台负责人)认为,mindalpha是为大规模网络业务而诞生的全流程一站式公司级人工智能平台,其技术阿姨

【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

迅速发展的汇技术将来面临着越来越多的挑战性商业问题,mindalpha平台也随着上层商业的迅速发展不断推进和进化。 ai as aservice是平台持续快速发展中的坚定理念。

标题:【科讯】Mobvista发布一站式全链路机器学习平台MindAlpha

地址:http://www.miutrip.net.cn/news/2447.html