本篇文章1708字,读完约4分钟

年10月18日至19日,第二届中国国际大数据大会在北京隆重召开,百度大数据部应邀在会上发言。 许多高级产品经理赵乔在会议上介绍了百度大数据开发基础套件鲁班,深入讨论了参加者和鲁班在智能工业大数据中的应用。

鲁班是百度大数据部门开发的大数据开发基础工具包,包括数据收集传输minos、数据工厂pingo、数据仓库palo、搜索拆除elasticsearch、数据科学平台jarvis、数据可视化sugar

鲁班的各子系统为百度内部的各业务线服务多年,一天的解决数据量可以达到pb级,其功能、性能、稳定性经过充分的考验和验证,在业界具有领先性。 例如:

数据传输minos

传输介质的多样化

能够容易地进行多个介质间数据传输,能够降低数据中继的开发、维护价格,提高传输效率

传输模式的丰富性

除了支持批量传输和流传输外,客户还可以直接订阅源数据,以满足实时计算的要求。

伝送管理性

提供集成管理平台,创建和管理日志,并监视多个数据传输的状态

数据工厂pingo

集群管理功能的自动化

在秒级创建新的计算群集,支持动态扩展和缩减,比较有效地降低价值成本,提供快速、简单、可扩展的实时数据仓库。

统一的数据解决系统

支持流程、量产作业,降低了开发和维护的价格。 它还支持交互式和例行查询,使您可以在交互式数据调试后一键完成工作。

出色的易用性和兼容性

支持java、python和scala创建的第三方或本地代码的spark解决方案引擎。 etl很容易创建,支持对多个数据源的外部数据访问

数据科学平台jarvis

交互式可视化。

提供诱惑性数据挖掘过程的操作,提供notebook交互和表单交互方法,帮助开发人员提高建模效率

特征和模型仓库

支持多级命名空间、分组和版本控制,提供了用如表所示的方法管理特征和模型的简单多语言api

模型算法与扩展服务。

综合了paddlepaddle、tensorflow等优秀的深度学习算法框架,内置了时间序列解决预测、时间序列异常检测、知识图像等丰富的算法库,使开发者能够解决各种类型的数据

数据仓库palo

性能出众。

pb级数据查询、毫秒级快速响应、高稳定性,在业界属于领先水平。

相容性强

符合mysql协议( odbc/jdbc ),可与qlik、tableau、saiku等bi工具无缝对接

灵活的配置

根据需要配置实例数,在线进行高自动扩展缩小,灵活调整,比较有效地降低价值成本

安全性高

顾客有很高的控制性,很高的隐私。 在拥有独立环境的同时,对环境高度自主

l検索分解elasticsearch

简单容易使用

提供可从任意http客户端访问群集的http rest风格的接口,兼容性好,使用方便。

高可用性

数据、元数据的多拷贝存储、停机期间不会影响查询服务,计算机的故障拷贝会自动迁移。

超高性能

百度大数据专家团队根据内部应用经验深入优化集群的性能,在行业中处于领先地位

可视化报告sugar

数据搜索

支持公式、文字模板等展示数据的计算和转换,支持图表数据的导出,便于脱机分解

丰富的图表表现

图表可视化,拖动多个图表组件,选择多个格式主题,支持复制,插入图像资源

多种类型的数据放置

多种类型的数据源,如直接连接的mysql、sql server、greenplum和palo

数据隔离

支持角色、客户权限管理和基于空间的数据分离,确保数据安全

数据治理dayu

连邦式数仓管理

数据资产全面统一视点,各业务数仓的数据不需要集中导入中心数仓,只需在元数据级别统一,就可以应对数据集中管理、集中访问、数据管理降低、数据完整性问题。

支持元数据查询。

支持访问搜索引擎( spark、hive等),提供高可用性和高吞吐量的性能支持。

数据安全保护

通过权限、审计、加密、脱敏、隔离等方案,严格执行数据安全流通标准,在公司内部满足数据安全4a认证标准,对外满足三级等保护的技术要求。

在会上,百度高级产品经理赵乔以工业智能场景为中心,根据鲁班套件实施数据收集、监视模型训练、预测模型配置、可视化实施监视现场员工健康状态的整个过程,详细说明数据智能对工业效率的影响

标题:【科讯】百度大数据开发套件

地址:http://www.miutrip.net.cn/news/1229.html