Cloudera Sessions 大数据平台技术讲堂 (深圳站）-CSDN活动

Cloudera Sessions 大数据平台技术讲堂 (深圳站）: 深圳福田香格里拉大酒店三层 2016-04-13 09:00 — 18:00

会议介绍

没有人比Cloudera更懂Hadoop

在Hadoop生态系统项目中，Cloudera 共有 66个PMC (决定项目路线图的项目管理委员会) 座席和 93 个 committer (有权利提交补丁的代码提交者)，这说明了一切。在4月13日，Cloudera公司资深工程师将详细介绍Cloudera大数据平台中的最新技术，详解各种use case和最佳实践。这是Cloudera公司举办的官方技术讲堂，第一手学习资料新鲜get！

9:30 －10:30 Cloudera Navigator：不能妥协的大数据安全性

大数据的潜力非常巨大，但不能以安全为代价。Cloudera企业版是唯一通过全面安全和监管达到合规性的Hadoop平台。本时段将着重介绍Navigator 加密和Navigator 密钥托管人如何保护所有信息，利用Cloudera Navigator实行对Hadoop唯一的全栈审计、数据沿袭、数据发现和生命周期管理。

10:30 – 11:30 Apache Sentry：统一的访问策略实施

利用Apache Sentry和RecordService在整个平台中提供基于角色的细粒度访问控制统一的安全管理

－－－－－不含午餐－－－－－

13:00 – 14:00 Intel: Apache Spark 机器学习

Apache Spark是大数据时代的Smart Phone，而机器学习是这个Smart Phone上最重要的应用。Spark提供了丰富的机器学习组件，例如构造复杂工作流的ML Pipeline，灵活方便的数据表示DataFrame，自动化参数调优的Grid Search，以及丰富的特征提取和模型算法。本时段将涉及这些概念，并结合具体实例介绍如何基于Spark进行大数据机器学习。

14:00 －15:00 SQL on Hadoop： Hive, Impala & SparkSQL

Cloudera 平台里面相关SQL on Hadoop的产品包括了Hive, Impala和SparkSQL，但是三个组件的适用情况不同，Hive适合ETL清洗和转换，但在实时性上稍有欠缺，Impala能快速查询存储在HDFS中的PB级大数据，SparkSQL则与Spark框架的其它组件无缝集成，方便数据科学家进行数据清洗，正则化等。本时段将详细阐述不同用例和架构。

15:00 – 16:00 Kudu：快速数据分析平台

Hadoop生态系统这几年在实时数据访问方面有了重大突破。但有时用户会处于两难境地，比如Apache Parquet这样的列式格式可以为数据分析提供极快的数据扫描，但基本做不到对行式索引的实时访问。HBase虽然能提供快速的随机访问，但对大规模数仓的工作负载扫描却很慢。在这样的情况下，出现了Hadoop生态系统的又一新成员：Kudu，填补了两难境地，从一个API就能提供快速数据扫描和快速随机访问。

时间地点

时间：2016-04-13 09:00 — 18:00
地点：深圳福田区益田路4088号

联系我们

如果想在CSDN会议平台发布会议，请与我们联系：联系人：王小姐电话：64348410
邮箱：[email protected]