多层次构建企业级大数据平台, 成就全能型大数据开发

课程介绍

多层次构建企业级大数据平台, 成就全能型大数据开发

岗位越细分,职业上升通道局限性越大。本课程通过构建多层次企业级大数据平台,带你开拓架构思维,掌握“全能型”技能体系,综合提升集群管理+平台能力层建设+数仓建设+数据应用实战能力,助力你尽早成为驾驭“多赛道” 的 “全能型” 大数据技术人才,获得岗位自由切换和晋升的 “优先权” 。

第1章 你好,大数据平台!

大数据平台不是一个单一的项目,而是多个大数据组件融合而成的一个平台,是海量数据处理的全流程工厂。本章我们会站在大数据工程师的角度认识大数据平台,了解大数据平台的核心内容,逐步构建大数据平台的认知体系。

第2章 大数据平台的地基:快速搞定Hadoop集群安装部署

大数据平台一般都基于Hadoop集群进行搭建,所以对于大数据集群的部署是搭建大数据平台的第一步。本章通过对大数据组件安装逻辑进行抽象、设计,实战开发Hadoop集群自动部署的项目,支持Hadoop集群的自动部署,并可以扩展其他大数据组件。…

第3章 平台基础模块之监控和预警

监控系统是大数据平台的标配,监控的目的在于能够捕获异常指标预防大数据集群出现问题,以及发现问题后及时处理,保障集群稳定。

第4章 平台底层引擎之HDFS存储治理

分析HDFS元数据,结合多种策略推进HDFS数据治理,提高HDFS存储服务的稳定性和空间利用率。

第5章 平台底层引擎之YARN计算治理

计算资源总是有限的,既要利用Yarn队列划分能力进行资源划分,又需要对用户的任务进行分析优化,提高集群资源的利用率。

第6章 企业数据平台建设第一步:打造集群管理平台

对于企业侧而言,完成Hadoop集群创建之后,还需要将数据管理好、将集群治理好。本章会对前面课程HDFS数据治理及YARN计算治理的内容进行工具化,实现Hadoop集群的概览、治理和任务分析,解决企业侧大数据集群管理的痛点。

第7章 扩展:Hadoop如何开发和测试

平台底层引擎的运维管理人员需要具备对于Hadoop代码优化、二次开发的能力,提高核心竞争力。

第8章 扩展:面试题和分布式系统延伸

Hadoop的架构、读写流程是面试所重点关注的方向,Hadoop作为我们接触到的有代表性的分布式系统,可以帮助我们更好的认识分布式原理。

第9章 企业数据平台建设第二步: 实现统一数据视图

找数难、取数难、用数难一直是困扰企业大数据平台发展的问题,本章我们通过建设统一数据视图项目帮助数据平台解决“有哪些数据”、“数据长什么样子”、“如何找到我需要的数据”、“如何使用数据”和“谁在用这些数据”问题。…

第10章 平台能力建设之计算引擎

工欲善其事必先利其器,大数据领域的计算引擎就是我们处理海量数据的“利器”,也是我们必备的技能之一。

第11章 平台能力建设之数据采集服务

数据管道(数据采集服务)是业务数据库和大数据平台之间的桥梁,通过数据管道可以将业务数据快速的同步到大数据集群。如何支持多类业务数据源、支持多种同步方式和同步场景是数据管道系统设计的核心。

第12章 平台能力建设之任务调度服务

调度系统是大数据平台的“大脑”,一个功能完备的调度系统支持每天数十万的任务调度执行。支持多种触发模式、支持多种任务类型、灵活配置多类参数、稳定且低延时是任务调度系统必备的核心能力。

第13章 平台能力建设之数据开发平台

大数据开发平台是用户使用大数据平台的入口,集文件管理、数据查询、任务开发、任务测试等能力于一体。一个好的数据开发平台应该与大数据平台能力层各个组件进行打通。

第14章 扩展:深入了解SQL的解析和优化

SQL 是编程领域最流行的语言,Apache CalcITe为各类常用大数据引擎提供SQL解析或优化的能力,比如HiveQL的优化,Flink SQL的解析和优化等等,本章通过学习Calcite,深入了解SQL的解析和优化过程。

第15章 企业数据平台建设第三步: 统一数据查询入口

正是由于大数据计算引擎种类繁多,导致各类引擎语法差异大,用户门槛高。在企业侧一般都会通过构建统一查询服务中间件来统一数据查询入口,支持多集群、多引擎的数据查询路由分发。本章会从0到1实战统一数据查询分发中间件项目,解决企业侧真实大数据平台需求。…

第16章 平台能力建设之数据仓库

数据仓库是大数据平台建设过程中的核心内容,作为平台开发人员,我们对于数据仓库的一些核心概念、架构、建模方式等内容也需要了解,扩充知识面,丰富技术广度。

第17章 企业数据平台应用第一步:数据分析与可视化

工作最终还是要面向Boss的,数据最终还是要产生价值的。企业侧大数据平台典型的应用场景就是通过数据分析来帮助用户分析数据、挖掘数据的价值,并将数据描绘成可视化图表,辅助你的Boss进行对比验证和决策。本章会基于我们搭建的大数据平台,实现淘宝母婴数据的录入、检索、分析和可视化的全流程。…

第18章 扩展:标签系统技术选型之ClickHouse

ClickHouse是近年来备受关注的开源列式数据库,是标签系统建设的主流方案。作为我们构建标签平台的存储引擎,需要我们了解ClickHouse的基础使用和核心原理。

第19章 企业数据平台应用第二步:数据标签体系与用户标签实战

数据标签平台是也是大数据的典型应用,要实现用户画像、推荐系统等能力最基础的就是建设一个优秀的标签体系。本章基于ClickHouse方案实战一个较为通用的大数据标签项目,并结合我们搭建的大数据平台能力,实现用户数据的录入、标签生成、标签检索的全流程。…

私信站长,免费获取该资源
声明:本站所有资源收集于互联网,该资源作者与Binge办公不享有任何版权,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
个人中心
购物车
优惠劵
有新私信 私信列表
搜索