阶段一、数据分析理论工具基础篇

课程一、数据分析师先导篇

本课程系后继系列课程的前导课程,主要站在理论的高度上讲了数据分析市场、行业及岗位技能需求,及数据分析工作的思路、方法论、工作流程与数据分析报告的写法与注意事项,让学员能从总体上对数据分析师的工作与需具备的技能与工作流程有一个大概的了解,为后继课程的学习打下理论基础

  • 1)数据分析的概念
    2)数据分析的作用
    3)数据分析六部曲
     
  • 4)数据分析六部曲2 
    5)数据分析的三大误区
    6)数据分析师的发展和职业要求
  • 7)数据分析师的基本素质 
    8)数据分析报告的撰写
课程二、Excel 数据处理与分析实战

本门课程详细介绍了Microsoft Excel的应用知识,Excel也称为电子表格,是Microsoft office套装软件的一个重要组成部分。利用它可以进行各种数据的混合运算外,还可以应用于财务会计、统计分析、证券管理、决策管理以及市场营销等众多领域。正因为它具有如此广泛的应用,所以才得到了无数“粉丝”的追捧与关爱。

本课程针对初学者的学习特点,在结构上采用“由浅到深、由点到面、由传统运算到综合应用”的组织思路,在教学上采用“理论与实际相结合”的教学原则,全面具体地对Excel的基础操作、工作簿和工作表的操作、数据内容的输入与编辑、公式与函数的应用、数据的排序与筛选、分类汇总与合并计算、图表的建、透视表/透视图的应用、工作表的输出打印等内容作了介绍。在正课讲解过程中还穿插了很多操作技巧,如此安排,旨在让学员学会Excel的基础知识,掌握Excel的操作技能,并能熟练应用Excel于数据分析的工作之中。

  • 1)数据分析入门及基本数据处理
    2)公式、函数、透视表与图表分析
    3)基本统计与规划求解问题
     
  • 4)VBA入门及实战 
    5)VBA 网页爬虫技术
课程三、MySQL 运用及自动化操作

通过本门课程的学习,可以让学员熟悉MYSQL环境搭建及基本的错误处理和配置,掌握MYSQL数据库和表的创建、修改方法.了解数据库和表的基本结构,熟练使用DML语句对表进行CURD操作,熟悉事务的基本概念,掌握使用事务进行业务提交和回滚。能够利用SQL语句进行复杂的业务查询与处理。后继的数据可视化工具将结合MySQL数据库进行数据分析操作。

  • 1)初始MySQL
    2)SQL进阶
  • 3)多表查询及存储过程 
    4)商品进销存项目实战
课程四、Power BI 数据分析快速上手

Power BI 是一套业务分析工具,用于在组织中提供见解。可连接数百个数据源、简化数据准备并提供专门分析。生成美观的报表并进行发布,供组织在 Web 和移动设备上使用。每个人都可创建个性化仪表板,获取针对其业务的全方位独特见解。在企业内实现扩展,内置管理和安全性。
本课程针对初学者的学习特点,在结构上采用“由浅到深、由点到面、由传统运算到综合应用”的组织思路,在教学上采用“理论与实际相结合”的教学原则,全面具体地对Power BI的基础操作、连结数据、加载数据、处理数据、转换和塑造数据、建模数据、可视化数据显示、数据分析等内容作了介绍。在正课讲解过程中还穿插了很多操作技巧,如此安排,旨在让学员学会Power BI的基础知识,掌握Power BI的操作技能,并能熟练应用Power BI于数据分析的工作之中。

  • 1)Power BI概述
    2)强大的Excel地图工具 - Power Map
    3)美观的数据报表工具 - Power View
  • 4)创建基于地图的 Power View 报表
    5)利用Power Query进行数据发现、连接、合并与优化数据
  • 6)Power Pivot:Excel 中功能强大的数据分析和数据建模

阶段二、数据分析专业软件实操篇

课程五、Power BI 高级之案例分析

本课程在《Power BI 数据分析快速上手》基础上结合大量的实例,深入讲解PowerBI 中看似难懂的各种概念、操作, 并结合行业中的典型案例贯穿了从初级的数据透视表工具、数据透视表选项、数据透视表的刷新、数据透视表中的排序,到中级的动 态数据透视表的创建、数据透视表函数GETPIVOTDATA 的使用、在数据透视表中执行计算项、 可视化透视表切片器等技能点,再到高级部分的使用SQL 语句导入外部数据源创建透视表、使用Microsoft Query 创建透视表、PowerPivot 与数据透视表、数据透视图,以及最终的一页纸Dashboard 报告呈现, 都进行了详细的讲解。 本课程适合想提高Power BI的数据分析人员,特别是经常需要整理大量数据的相关人员。

  • 1)Power BI Desktop 可视化应用实战
    2)Power BI 实战:财务指标-杜邦分析仪
  • 3)案例分析:Power BI 之巧用地图
    4)Power BI 实战:销售运营管理数据分析
课程六、SPSS MODELER数据挖掘

SPSS软件是世界上应用最广泛的专业统计软件之一,在全球约有25万用户,分布于通讯、医疗、银行、证券、保险市场研究和科研教育等多个领域和行业,全球500强中约有80%的公司在使用SPSS,而在市场研究和市场调查领域则拥有超过80%的市场占有率,和SAS并称为当今最权威的两大统计软件。
本课程采用的IBM SPSS Statistcs 20中文版,以真实案例贯穿课程,从统计分析实战角度出发详细介绍了SPSS的操作界面,数据管理,统计图表制作的原理和实际操作,完全从实际案例出发讲解各类方法的综合运用,更好地提高实战能力。

  • 1)基本操作入门
    2)数据录入
    3)编程入门
    4)数据管理
    5)分类变量描述
  • 6)连续变量描述
    7)统计表
    8)统计图
    9)检验
  • 10)单因素方差分析
    11)卡方检验
    12)相关分析
    13)回归分析
课程七、Tableau数据可视化应用实战

(Business Intelligence Software)提供商,企业运用Tableau授权的数据可视化软件对数据进行处理和展示,但Tableau的产品并不仅限于企业,其他任何机构乃至个人都能很好地运用Tableau的软件进行数据分析工作。数据可视化是数据分析的完美结果,让枯燥的数据以简单友好的图表形式展现出来。可以说,Tableau在抢占一个细分市场,那就是大数据处理末端的可视化市场,目前市场上并没有太多这样的产品。同时Tableau还为客户提供解决方案服务。 本课程基于Tableau 10.3最新版本研发,详细介绍了Tableau的数据连接与编辑、图形编辑与展示功能,包括数据连接与管理、基础与高级图形分析、地图分析、高级数据操作、基础统计分析、如何与R集成进行高级分析、分析图表整合以及分析成果共享等主要内容。同时,课程以丰富的实际案例贯穿始终,对各类方法、技术进行了详细说明,方便读者快速掌握数据分析方法。

  • 1)Tableau 概述
    2)Tableau 新手上路
    3)Tableau连结数据并准备数据
  • 4)Tableau设计视图
    5)利用Tableau工具分析数据
  • 6)Tableau浏览与关注Web内容
    7)Tableau Server 与 Tableau Online
课程八、Tableau高级分析与项目实战

本部分课程为Tableau部分的高级内容,主要会讲到Tableau的高级部分,并通过大量的实际案例分析来让学员对之前所学的Tableau内容做一综合演练,本课程通过对各行业案例的培析,让学员从Tableau的排序、筛选、分层和分组、参数和函数等方面来全面了解Tableau 10.3的新功能。
使学员成功晋级到Tableau的高级功能:掌握如何利用Tableau中的颜色和形状进行异常值检测、如何利用背景图像进行货架分析以及如何使用Tableau中的超级链接使用WMS地图服务和动态调用外部网页等通过数据可视化分析实例,全面展示Tableau进行数据可视化分析的各种技术细节和实用技巧。

  • 1)Tableau连结MySQL进行数据分析
    2)Tableau 地图绘制和图像
    3)Tableau 高级图表类型
     
  • 4)Tableau 函数、公式与高级数据分析 
    5)Tableau 仪表盘与故事
    6)Tableau仪表盘与故事最佳实践
  • 7)案例分析:某零售行业进销存分析 
    8)案例分析:某在线教育网站指标评估 
    9)案例分析:某电商网站行为分析 

阶段三、可视化分析编程篇: Python 和 R

课程九、Python 基础与爬虫技术

本作为一种便捷地收集网上信息并从中抽取出可用信息的方式,网络爬虫技术变得越来越有用。使用Python这样的简单编程语言,你可以使用少量编程技能就可以爬取复杂的网站。 《Python 基础与爬虫技术》讲解了从静态页面爬取数据的方法以及使用缓存来管理服务器负载的方法。此外,本课程还介绍了如何使用AJAX URL和Firebug扩展来爬取数据,以及有关爬取技术的更多真相,比如使用浏览器渲染、管理cookie、通过提交表单从受验证码保护的复杂网站中抽取数据等。本课程使用Scrapy创建了一个高级网络爬虫,并对一些真实的网站进行了爬取。 《Python 基础与爬虫技术》介绍了如下内容: 通过跟踪链接来爬取网站; 使用xml从页面中抽取数据; 构建线程爬虫来并行爬取页面; 将下载的内容进行缓存,以降低带宽消耗; 解析依赖于JavaScript的网站; 与表单和会话进行交互; 解决受保护页面的验证码问题; 对AJAX调用进行逆向工程 ; 使用Scrapy创建高级爬虫; 本课程是为后继更高级的《大数据分析》课程 及 《机器学习》课程打基础的,为《初级数据分析师》的扩展技术

  • 1)Python语法基础
    2)Pyhton爬虫技术
     
  • 3)项目实战 - 京东/淘宝爬虫实战 
    4)scrapy爬虫框架的使用
  • 5)Python数据分析基础 
    6)Python之pandas基本操作与IO数据处理
课程十、R 数据分析入门

本教程深入浅出地讲解如何使用R语言玩转数据。课程中涵盖R语言编程的方方面面,内容涉及R对象的类型、R的记号体系和环境系统、自定义函数、if else语句、for循环、S3类、R的包系统以及调试工具等。本课程还通过示例演示如何进行向量化编程,从而对代码进行提速并尽可能地发挥R的潜能。本课程适合立志成为数据科学家的R语言初学者阅读。是为后继更高级的《大数据分析》课程 及 《机器学习》课程打基础的,为《初级数据分析师》的扩展技术。

  • 1)R语言快速入门
    2)R语言数据管理
  • 4)R语言可视化技术 
    5)R数据分析与挖掘初探

大纲详情页付录赠送:《零基础大数据》全套课程

阶段一、大数据开发基础

课程一、Java基础语法

此阶段课程为大数据开发必备之基础,强化Java技术及数据库编程技术

  • 1)Java环境安装配置
    2)Java基础语法
    3)Java 面向对象基础(OOP基础)
  • 4)Java接口与继承(OOP高级) 
    5)Java常用类库
     
课程二、Java核心编程
  • 1)熟练掌握I/O、线程的概念和用法
    2)掌握反射与类加载器
  • 3)掌握网络编程
    4)熟悉序列化、泛型的概念
课程三、Java高级特性
  • 1)Java NIO
    2)Java 8最新特性-Lamda表达式
    3)Maven项目管理构建工具
  • 4)git版本控制系统 
    5)实用软件工程
课程四、数据库开发技术(MySQL)
  • 1)数据库安装配置
    2)数据库CRUD
  • 3)数据库高级查询
    4)数据库高级特性

阶段二、大数据开发技术

课程五、大数据开发之-Linux基础

鉴于今天Linux使用的广泛性和基础性,基本可以断定不懂Linux的话,在IT业界的前途就要受到限制。这是IT人一项重要的知识基础。,这是一门大数据基础必学课程,适合有志于转往大数据分析领域者补强Linux基础,以更好地学习Hadoop,Spark,Storm等众多课程!

  • 1)Linux系统概述
    2)系统安装及相关配置
    3)Linux网络基础
    4)OpenSSH实现网络安全连接
  • 5)vi文本编辑器
    6)用户和用户组管理
    7)磁盘管理
    8)Linux文件和目录管理
  • 9)Linux终端常用命令
    10)linux系统监测与维护
课程六、Hadoop2.X核心编程

了解大数据目前在企业中的应用场景,Hadoop 2.x是什么,能够解决什么问题,如何学习Hadoop 2.x生态系统框架及学习的基本储备知识。且详解Hadoop 2.x中几个重组成模块,这是整个大数据平台中最为基础基本也是比较核心的东西。

  • 1)大数据应用场景及市场
    2)Hadoop 2.x是什么,如何诞生的,能做什么
    3)Hadoop 2.x初步认识
    4)伪分布式环境搭建部署
    5)HDFS、YARN、MapReduce案例Demo功能演示
  • 6)分布式文件系统HDFS
    7)HDFS架构、各组件功能
    8)HDFS Shell常见命令使用
    9)HDFS Java API基本使用
    10)案例讲解:如何上传多个小文件合并成一个文件
  • 12)分布式资源管理框架YARN
    13)YARN 架构与设计(思想第一)
    14)企业案例:如何针对企业实际集群配置各个节点资源
课程七、MapReduce编程及Hive使用

深入MapReduce编程,理解MapReduce运行过程,通过实际应用案例逐步认识。此外分布式集群部署、实际环境中集群基准测试。认识数据仓库Hive的优势及Hive具体使用。并通过企业实际需求分析,讲解HiveQL中的DDL和DML的使用,以及常见的性能优化方案。

  • 1)初识MapReduce编程
    1.1)MapReduce 编程框架
    1.2)以WordCount程序为例讲解MapReduce编程
    2)深入MapReduce应用
    2.1)MapReduce执行过程详解,通过实际案例引入
    2.2)案例讲解:二次排序及倒排索引
    3)Hadoop 2.x分布式集群 
    3.1)Hadoop 2.x分布式集群部署及基准测试
    3.2)HDFS HA高可用性架构
    3.3) YARN HA及常见特性工具使用(应用案例驱动讲解)
    4)数据仓库Hive初识
  • 4.1)MapReduce编程的弊端
    4.2)数据仓库Hive功能架构
    4.3)安装部署Hive及基本使用
    4.4)Hive中MetaStore配置及功能
    5)HiveQL中DML和DDL 
    5.1)依据电商官网日志分析讲解三种创建表的方式和用途 
    5.2)如何加载导入和导出数据到Hive表 
    5.3)HiveQL中常见的查询语句
    6)HiveQL中数据格式与压缩
    6.1)常见的数据存储格式,尤其是parquet和orcfile
    6.2)MapReduce和Hive为什么要压缩数据
  • 6.3)常见数据压缩格式snappy
    6.4)结合电商数据日志分析案例,如何使用数据存储格式和压缩
    7)数据转换工具Sqoop
    7.1)Sqoop功能、使用要点
    7.2)实际案例:将RDBMS导入HDFS及Hive表数据导出 
    8)案例分析:电商用户访问日志会话分析 
    8.1)结合业务需求对日志行为数据结构分析 
    8.2)抽取临时会话信息表,对数据进行初步清洗过滤
    8.3)编写HQL语句完成需求分析和考虑性能优化
    8.4)HiveQL常见的运行方式使用
课程八、数据库HBase及应用案例

面对海量数据的存储及实时查询,传统的RDBMS已经无法满足,基于HDFS之上的HBase应运而生,每个表的数据可以达到数百万列和数十亿条,数据存储在HDFS之上充分利用其存储优势,分布式的架构让其查询数据更加快,绝大数电商互联网公司都是用它。

  • 1)HBase初窥使用
    1.1)HBase应用场景、与RDBMS比较
    1.2)HBase表的模型、环境搭建
    1.3)HBase Shell初步使用
  • 2)HBase 深入使用
    2.1)HBase架构深入剖析及数据存储模型
    2.2)HBase Java API使用(CRUD、SCAN等)
    2.3)HBase与MapReduce集成
  • 3)案例分析
    结合【话单查询】业务,讲解如何设计表、表的预分区结合【电商订单查询】需求,表的设计
课程九、内存计算框架Spark

Spark属于新起的基于内存处理海量数据的框架,由于其快速被众公司所青睐。Spark 生态栈框架,非常的强大,可以对数据进行批处理、流式处理、SQL交互式处理及机器学习和Graphx图像计算。目前绝大数公司都使用,主要在于Spark SQL结构化数据的处理,非常的快速,高性能。
基于Spark Core之上的流式处理和结构化数据查询,已被众多公司青睐,在企业中使用最广泛,很多大数据公司都在将以往RDBMS和Hive中的数据处理,迁移使用Spark SQL。

  • 1)内存计算框架Spark初识
    1.1)Spark 概述、生态系统、与MapReduce比较
    1.2)Spark 编译、安装部署(Standalone Mode)及测试
    1.3)Spark应用提交工具(spark-submit,spark-shell)
    2)Spark 核心RDD
    2.1)RDD特性、常见操作、缓存策略
    2.2)RDD Dependency、Stage常、源码分析+C10
    2.3)Spark 核心组件概述
    2.4)案例分析:通过网址日志的分析(与MR和Hive比较)
  • 3)Spark 高阶应用
    3.1)Spark on YARN运行原理、运行模式及测试
    3.2)Spark HistoryServer历史应用监控
    4)Spark Streaming流式计算
    4.1)Spark Streaming 原理、DStream设计
    4.2)Spark Streaming 编程模型及读取HDFS上数据
    4.3)分布式消息队列框架Kakfa
    4.4)案例分析:如何实时获取数据数据,更新数据状态(Kafka+Spark Streaming)
  • 5)Spark SQL结构化数据处理
    5.1)Spark SQL前生今世(Hive -> Shark->Spark SQL)及优点
    5.2)Spark SQL如何读取Hive表中数据
    5.3)DataFrame使用及External Data Source API使用
    5.4)案例分析:结合Spark Streaming,实时分析数据,将数据存储到RDBMS中
课程十、企业大数据平台及实时流式计算Storm

大数据Hadoop生态系统,有很多框架,为了方便安装、配置及管理监控,一个框架Cloudera Manager诞生,非常的方便,提供了各个框架的版本兼容及修复很多BUG,为企业使用提供了丰富使用的接口。此外Storm实时计算框架,真正的实时性,在毫秒级别处理数据。

  • 1)企业大数据平台
    1.1)大数据平台基本组件
    1.2)Hadoop 发行版本、比较、选择
    1.3)集群环境的准备(系统、基本配置、规划等)
  • 2)实战案例:搭建企业大数据平台
    2.1)以实际企业项目需求为依据,搭建平台
    2.2)真实服务器手把手环境部署
    2.2.1)安装Cloudera Manager 5.3.x
    2.2.2)使用CM 5.3.x安装CDH 5.3.x
    2.3)如何使用CM 5.3.x管理CDH 5.3.x集群
    2.4)基本配置,优化及性能测试
  • 3)实时流式计算框架Storm
    3.1)Storm实时性、架构和企业应用场景
    3.2)Storm环境搭建,编程模型,WordCount实时统计
    3.3)Storm高级特性Traident使用
    3.4)案例分析:结合Kafka,实时统计区域订单量和营业额
课程十一、大数据可视化技术:Echarts从入门到上手实战

"ECharts,缩写来自Enterprise Charts,商业级数据图表,一个纯Javascript的图表库,可以流畅的运行在PC和移动设备上,兼容当前绝大部分浏览器(IE6/7/8/9 /10/11,chrome,firefox,Safari等),底层依赖轻量级的Canvas类库ZRender,提供直观,生动,可交互,可高度个性化定制的数据可视化图表。创新的拖拽重计算、数据视图、值域漫游等特性大大增强了用户体验,赋予了用户对数据进行挖掘、整合的能力。 支持折线图(区域图)、柱状图(条状图)、散点图(气泡图)、K线图、饼图(环形图)、雷达图(填充雷达 图)、和弦图、力导向布局图、地图、仪表盘、漏斗图、事件河流图等12类图表,同时提供标题,详情气泡、图例、值域、数据区域、时间轴、工具箱等7个可交 互组件,支持多图表、组件的联动和混搭展现。大数据结合Echarts进行数据展示分析,现在已成为越来越多大数据企业的第一选择"。

  • 1)了解大数据可视化技术
    1.1)什么是大数据可视化
    1.2)数据可视化的应用场景与使用工具
    1.3)数据可视化图表之10种场景
  • 2)掌握Echarts核心组件
    2.1)学会阅读Echarts官方文档并搭建开发环境
    2.2)掌握Echarts核心组件的使用和配置
    2.3)掌握Echarts常用图的制作与注意事项
  • 4)了解前后端数据交互的流程及关键步骤
    4.1)通过综合项目案例熟悉应用Echarts图表进行数据展示
  • 3)掌握Echarts高级用法
    3.1)了解Echarts高级组件与使用技巧
    3.2)Echarts图标混搭
    3.3)了解异步数据加载
    3.4)了解自定义主题
    3.5)了解时间与行为

阶段三、大数据项目实战

课程十二、基于Hadoop离线大数据分析平台项目实战

某购物电商网站数据分析平台,分为收集数据、数据分析和数据展示三大层面。其中数据分析主要依据大数据Hadoop生态系统常用组件进行处理,此项目真实的展现了大数据在企业中实际应用

  • 1)文件收集框架Flume
    1.1)Flume 设计架构、原理(三大组件)
    1.2)Flume初步使用,
    1.3)实际案例:使用Flume监控数据,实时收集存储HDFS中
     
  • 2)大数据分析平台架构 
    2.1)数据平台三大模块 
    2.2)分析平台业务数据 
    2.3)大数据平台技术选型和搭建配置测试
  • 3)数据分析平台七大业务分析 
    3.1)具体的七大业务分析,针对不同的数据 
    3.2)将数据收到HDFS/Hive/HBase,使用MapReduce和Hive离线分析,其中涉及地域分析、用户相关信息分析及外链分析等。 
    3.3)依据业务深入MapReduce使用 
    3.4)数据处理时,针对不同问题如何优化调整等
课程十三、项目实战案例
  • 项目一、小型电商购物管理系统
  • 项目二、基于Hadoop技术的离线电商运营分析系统
  • 项目三、大数据可视化 -【航空大数据最佳路线分析】
  • 项目四、大数据可视化 – 豆瓣最新电影排名分析
  • 项目五、PB级网站流量大数据分析
  • 项目六、基于Spark/Python豆瓣电影推荐分析