轻松入门大数据:一站式完成核心能力构建

课程介绍

轻松入门大数据:一站式完成核心能力构建

大数据在互联网与工业领域的价值不用赘言,随着人工智能、区块链等技术越来越火热,许多企业也加入了大数据的“抢人大战”。大数据技术栈众多,学习曲线陡峭,为了更好地帮你入门,我们将从大数据基石——Hadoop讲起,过渡到Hive,一步步掌握数仓、数据处理、离线开发等关键技能点,并最终通过一个大型项目的实战,带你进入大数据的世界!

第1章 高薪择业:为什么大数据行业更有前途?

本章将从什么是大数据说起,让大家明白大数据是与我们的生活息息相关的,并不是遥不可及的。课程中,将介绍大数据的特性、大数据对我们带来的技术变革、大数据处理过程中涉及到的技术以及大数据典型应用。在这里,希望大家掌握学习的方法,得以真正不变应万变。…

第2章 零基础:急速入门大数据基石框架Hadoop

本章中,将带领大家一起认识Hadoop:Hadoop生态系统、Hadoop的发展史、Hadoop的优势、Hadoop的三个核心组件(HDFS、YARN、MapReduce);探讨Hadoop生态圈的常用框架及职责,以及在工作中如何选择更适合的Hadoop的发行版,为后续深入学习打下坚实的基础。…

第3章 入门到进阶:系统玩转分布式文件系统HDFS

本章中,将从Hadoop的设计目标、架构及文件系统命令空间出发,带领大家快速搭建单节点伪分布式HDFS的环境。通过讲解使用hdfs shell以及Java API的方式操作HDFS文件系统,详细分析HDFS文件的读写流程以及安全模式在Hadoop中的使用,并结合HDFS API来实现词频统计案例,帮助大家对Hadoop分布式文件系统HDFS有深刻的认识并…

第4章 入门到进阶:系统玩转分布式计算框架MapReduce

本章将从架构、编程模型等角度带大家认识Hadoop的分布式计算框架MapReduce,掌握MapReduce整体执行流程以及各个核心组件编程,并通过N个实战案例让大家深入掌握,如何结合各种不同场景的应用基于MapReduce进行开发。本章中会详细剖析如何在MapReduce中实现JOIN,这也是面试中经常被考察到的点,考察你的MapReduce功底以及优…

第5章 入门到进阶:玩转资源管理系统YARN

本章将从YARN的产生背景、YARN的架构及执行流程的角度,带大家认知Hadoop的资源调度框架YARN,能够快速搭建单节点伪分布式YARN的实验环境,掌握如何提交MapReduce作业提交到YARN上运行,以及资源调度器的配置、使用及区别。

第6章 入门到进阶:系统玩转分布式协调服务ZooKeeper

ZooKeeper是一个分布式的,开放源码的分布式应用程序协调服务,在后续Hadoop高可用部署时,需要使用ZK来进行主备切换。在本章中,将带领同学们学习ZooKeeper在企业级应用中的使用,掌握ZooKeeper的部署以及命令行使用。

第7章 进阶实战:轻松搞定Hadoop分布式集群环境

本章将带领大家搭建一个三个节点的分布式Hadoop集群环境,帮助大家掌握Hadoop集群的规划,掌握Hadoop HA的架构&原理 以及Hadoop集群的部署及测试,并能将项目实战案例轻松运行在分布式集群环境中。

第8章 零基础:急速入门数据仓库工具Hive

本章将从Hive的产生背景、体系架构、Hive部署出发,帮助大家快速入门Hive,轻松掌握Hive的使用以及部署。

第9章 入门到进阶:如何快速掌握Hive DDL&DML

本章将带领大家,学习Hive中核心的DDL、DML操作、HiveQL的写法;掌握Hive表(内部表、外部表、分区表)的使用、Hive中多种不同数据的加载方式;在掌握JOIN MR的写法基础上通过执行计划,重点掌握Hive Join的底层的执行原理;并结合多案例实战,帮助大家轻松掌握Hive中窗口分析函数的用法。…

第10章 入门到进阶:如何快速掌握Hive核心函数

本章将带领大家掌握,针对复杂数据时如何使用复杂数据类型(如:array、map、struct)对数据进行处理;学习Hive中内置函数的使用,能够轻松应对当内置函数不满足我们的生产需求时,如何自定义开发UDF函数来完成需求。

第11章 入门到进阶:如何快速学会Hive调优

生产上业务对应的Hive作业如何能高效的运行,这是作为一枚合格的大数据工程师的必备技能。本章节中,将带领大家一起针对Hive方方面面的调优进行探讨和学习,帮助大家认识Hive在生产上的必备的各种调优手段。

第12章 零基础:急速入门日志收集系统Flume

本章将带领大家学习Flume框架是什么、能做什么、核心组件的功能以及如何高效部署,帮助大家快速入门。

第13章 进阶实战:如何基于Flume实战日志数据收集

本章节将讲解,如何采用Flume来完成日志数据(文件&文件夹)的收集工作、Flume在生产上不同的场景的经典部署方案、Flume Agent的不同选型及配置、以及在生产环境Flume高可用的使用方式。

第14章 零基础:为什么大数据编程首选Scala语言

本章将介绍,Scala是什么、能为我们带来什么、Scala与Java开发方式的对比、帮助大家快速入门。

第15章 零基础:急速入门大数据编程首选语言Scala

本章将带领大家,掌握Scala编程的基础语法、运算符&流程控制语句的使用、函数的定义以及默认参数、命名参数、可变参数的使用,为后续Scala进阶的学习打下基础。

第16章 入门到进阶:如何熟练掌握Scala面向对象编程

在本章中,将带领大家系统学习基于Scala的面向对象编程;类、构造器、继承、重写、抽象类的使用;伴生类、伴生对象的使用;case class的使用;Trait的使用等Scala面向对象开发的重中之重的核心知识,每个知识点请大家【务必都要掌握】!…

第17章 入门到进阶:如何熟练掌握Scala集合

本章中将带领大家,掌握Scala中数组、List、Set、Map、Tuple、Option等各种不同数据结构的集合在开发过程中的使用。

第18章 入门到进阶:如何熟练掌握Scala模式匹配

本章将带领大家,学习Scala中的模式匹配:基本、Array、类型、case class、Option等不同的模式匹配在Scala中的使用,以及Scala中异常处理方式。

第19章 入门到进阶:如何熟练掌握Scala函数式编程

本章节是Scala基于函数式编程的核心所在!!!将带领大家,掌握Scala中字符串的高级操作、匿名函数、偏函数以及高阶函数的使用和自定义实现【此处是重点呦】,为后续学习Spark、Flink等打下坚实的基础(Spark、Flink开发过程中的很多算子都是和Scala的非常类似)!…

第20章 入门到进阶:如何熟练掌握Scala隐式转换

隐式转换是Scala中的亮点所在,也是最难理解的部分!通过本章节,希望带领大家理解隐式转换的意义,掌握Scala中隐式转换、隐式类、隐式参数的使用(后续的Spark、Flink源码及开发中涉及到非常多的隐式转换)。

第21章 入门到进阶:如何熟练掌握Scala泛型

本章将结合对比Java泛型的使用,系统学习泛型在Scala中的使用。带领大家轻松掌握在Scala中如何使用泛型来为框架的开发提供更强的通用性;如何使用逆变和协变来对已有类型来进行增强和变化【这部分是面试过程中的常考点!!!】 …

第22章 进阶实战:基于Akka编程模型实战通信项目

Akka基于Actor模型,提供了一个用于构建可扩展的(Scalable)、弹性的(Resilient)、快速响应的(Responsive)应用程序的平台。本章节将带领大家,掌握基于Akka的编程模型,掌握基于Akka来完成实现Hadoop NameNode和DataNode的通信方式,并能实战模拟Hadoop中NN和DN的通信机制。…

第23章 高手养成:Hadoop源码研读,高薪秘笈

本章重点介绍RPC通信机制及编程。将带大家通过阅读Hadoop的核心源码,彻底掌握Hadoop底层的工作机制及原理;掌握Hadoop中RPC的编程模型及开发、Hadoop源码中核心节点的启动流程、MapReduce作业的执行流程及数据分片原理,以及Hadoop源码中数据的读写流程。本章节是面试中的常考点,更是我们必须要拿下的得分项。 …

第24章 高手养成:Hive源码研读,高薪秘笈

Hive是一个将Hive QL翻译成底层分布式作业执行的框架,那么从Hive QL发起后,中间经历了哪些过程?是如何将Hive QL翻译成分布式作业并执行的呢?我们将在本章节中带领大家阅读Hive的源码来体会整个过程,本章节能快速提升对Hive的认知,掌握如何进行Debug Hive源码一步步的跟踪底层实现,并能轻松应付面试过程中关于Hiv…

第25章 综合实战:基于Hadoop全流程实战离线数仓项目

本章节将系统讲解基于Hadoop的大数据离线数仓项目,通过四个业务帮助大家,从架构设计、数据采集、数据处理、可视化、调优、拓展思路的角度掌握框架的综合使用。课程中,将帮助大家,掌握通用的几种大数据离线处理架构,以达到举一反三的应用;掌握如何基于MapReduce实现数据清洗、数据质量;掌握基于Hive QL掌握各种业务…

私信站长,免费获取该资源
声明:本站所有资源收集于互联网,该资源作者与Binge办公不享有任何版权,如若本站内容侵犯了原著者的合法权益,可联系我们进行处理。
个人中心
购物车
优惠劵
有新私信 私信列表
搜索