大数据-Python、Hadoop、R语言

中国第一个真正的大数据应用培训系列课程

为了适应学员的不同起点和需要,芝麻学院将提供大数据系列课程供学员选择搭配:

    一、大数据概要普及班 — 大数据的发展及应用

    本课程是为政府官员、企业领导、项目经理以及其他决策人员开设的以便了解大数据的发展历程、大数据所解决的问题和如何应用大数据技术到自身行业应用中,从介绍大数据技术的初始商业驱动起因到大数据在北美的发展动态、大数据应用案例,最后引入企业实施大数据战略的几点启示。

    课程对象 : 政府官员、企业领导、项目经理以及其他决策人员、IT相关人士等。

    课时 : 8小时。

    1.第一讲:大数据简介;

    2.第二讲:大数据在北美的发展动态;

    3.第三讲:大数据的应用领域及案例介绍;

    4.第四讲:企业如何实施大数据战略;

    二、大数据预备班 — 数据采集和整理

    本课程介绍大数据工程的前期数据准备的方方面面 — 确定数据源、数据抽取、数据清洗、数据整合、元数据准备、数据校验、数据传输等众多环节,然后本课程探讨数据清洗的常用方法和工具、数据整合的规则、以及数据传输的常用通道等,最后本课程通过几个案例分析来加深对数据采集和整理的理解和运用。

    课程对象 : 软件开发人员、数据分析人员、咨询师以及其他IT或相关技术人士。

    练习环境 : Windows + 虚拟机 (VirtualBox或VMWare)。

    课时 : 12小时。

    1.第一讲:数据采集和整理概述;

    2.第二讲:确定数据源,实施数据抽取;

    3.第三讲:介绍数据清洗流程;

    4.第四讲:数据清洗的常用方法和工具;

    5.第五讲:制定元数据(meta-data),数据校验;

    6.第六讲:数据的传输和装载;

    7.第七讲:数据清洗案例介绍、分析;

    三、大数据精华基础班 — 掌握Hadoop, Spark 和 HBase

    本课程介绍大数据的基础知识及相关解决方案 — Apache Hadoop 和 Spark 生态系统及开发组件,如分布式文件系统HDFS, 资源管理平台YARN, MapReduce计算模型, Hive, Pig, HBase 和 Spark 等。

    课程对象 : 任何IT相关人士,如软件开发人员、数据库管理人员、数据分析人员、架构师、咨询师等。

    课前要求 : 必要的IT知识和相关经验,编程语言知识、数据库知识等。

    练习环境 : Linux (如 Ubuntu, Redhat, or CentOS), 或 Windows + 虚拟机 (如VirtualBox或 VMWare)。

    课时 : 40小时。

    1.第一章:Apache Hadoop概述;

    2.第二章:MapReduce编程;

    3.第三章:掌握 Apache Hive;

    4.第四章:掌握Apache Pig;

    5.第五章:Apache HBase介绍;

    6.第六章:掌握Apache Spark;

    7.第七章:Hadoop 应用架构和数据模型;

    四、Scala大数据编程

    本课程首先引入Scala基础 — 语法、关键词、数据类型、类(class)以及特征/接口(trait)等,然后深入到怎样用Scala处理XML和CSV文件以及在Scala编程中怎样使用正则表达式(Regular Expression)来实现模式匹配。

    课程对象 : 软件开发人员、数据分析师、数据库开发人员、架构师、咨询师等。

    课前要求 : 有一些IT的基本知识,有任何编程经历和数据库知识更好。

    练习环境 : Linux (Ubuntu, Redhat, or CentOs), 或 Windows + 虚拟机 (VirtualBox, 或 VMWare)。

    课时 : 20小时。

    1.第一讲:Scala基础;

    2.第二讲:运用Scala处理XML和CSV文件;

    3.第三讲:运用正则表达式(Regular Expression)进行模式匹配;

    4.第四讲:Scala数据处理案例和练习;

    五、Python大数据编程

    本课程首先介绍Python基础 — 编程环境、语言语法、数据类型等;然后深入Python的面向对象编程框架、多线程编程、文字处理、数据库操作等;最后本课程介绍一些常用Python技能,如Python数据抓取、NumPy和Pandas库等。

    课程对象 : 软件开发人员、数据分析师、数据库开发人员、架构师、咨询师等。

    课前要求 : 有一些IT的基本知识,有任何编程经历和数据库知识更好。

    练习环境 : Linux (Ubuntu, Redhat, or CentOs), 或 Windows + 虚拟机 (VirtualBox, 或 VMWare)。

    课时 : 30小时。

    1.第一讲:Python基础;

    2.第二讲:Python编程;

    3.第三讲:多线程编程;

    4.第四讲:面向对象编程;

    5.第五讲:Python I/O;

    6.第六讲:文字处理;

    7.第七讲:用户界面介绍(Graphical User Interface);

    8.第八讲:数据库编程;

    9.第九讲:案例练习 – Python数据抓取;

    10.第十讲:介绍NumPy和Pandas库;

    六、大数据项目实战班 — 实践Spark, NoSQL和机器学习

    这门课程是为希望体验大数据实际项目开发和数据分析的任何IT专业人士而设,依据一个真实项目(日志推荐),学员们可以巩固已有的Hadoop、Hive、Pig知识,以及Python和Scala编程;

    课程对象 : 任何IT相关人士,如软件开发人员、数据库管理人员、数据分析人员、架构师、咨询师等。

    课前要求 : 必要的IT知识和相关经验,编程语言知识、数据库知识以及大数据基础知识等。

    练习环境 : Linux (Ubuntu, Redhat, 或 CentOS), 或 Windows + 虚拟机 (VirtualBox或 VMWare)。

    课时 : 60小时。

    1.第一章:项目总体介绍;

    2.第二章:数据湖中的大数据开发;

    3.第三章:用Apache Flume/Kafka将数据导入数据湖;

    4.第四章:用Apache Oozie构建ETL数据流程;

    5.第五章:掌握Spark MLlib机器学习库;

    6.第六章:掌握基于Cassandra 和 MongoDB 的NoSQL 解决方案;

    7.第七章:使用Tableau/Qlikview产生BI报表;

    七、R大数据编程

    本课程为想在大数据时代从事数据分析或成为数据科学家的IT或相关人士而设,学员们可以学习到R语言的基本语法和数据结构(向量、矩阵、数据帧等)、实践R数据读取、访问R软件包、编写R函数,最后深入到R的图形功能并创建自己的令人惊叹的数据可视化图形图表。

    课程对象 : 软件开发师,数据分析人员,架构师,咨询师以及其他IT人士。

    课前要求 : 基本IT知识,具有数学/统计背景和相关编程经验、数据库知识更好。

    练习环境 : Windows + 虚拟机 (VirtualBox或VMWare)。

    课时 : 20小时。

    1.第一讲:R语言概述;

    2.第二讲:高级R数据结构 – 矢量、矩阵和数据帧;

    3.第三讲:R函数及R软件包;

    4.第四讲:R的基本数据分析和可视化;

    八、数据科学项目班 — 掌握数据科学和机器学习

    本课程介绍数据科学家在实际工作中的一些常用技巧,学习怎样用Python和R进行数据分析和数据表现,掌握在众多的行业中怎样运用不同的机器学习算法建立最佳数据模型以指导商业营销、辅助商业决策等,为想成为数据科学家人士而设,由Python基本编程到数据科学基础、机器学习算法到深度学习方法等带领学员步入数据科学世界。

    课程对象 : 软件开发师,数据分析人员,架构师,咨询师以及其他IT人士。

    课前要求 : 基本IT知识,具有数学/统计背景和相关编程经验、数据库知识更好。

    练习环境 : Linux (Ubuntu, Redhat或CentOs),或Windows + 虚拟机(VirtualBox或VMWare)。

    课时 : 60小时。

    1.第一章:数据科学引论;

    2.第二章:Jupyter Notebooks 编程;

    3.第三章:统计分析基础;

    4.第四章:数据处理、挖掘基础;

    5.第五章:高级数据挖掘 – 案例分析;

    6.第六章:掌握预测分析;

    7.第七章:传统机器学习和预测方法;

    8.第八章:现代数据挖掘和机器学习技巧 ;

    9.第九章:人工神经网络学习 ;

    10.第十章:自然语言处理;

    11.第十一章:Spark及应用案例;