Cloudera Sessions 大数据平台技术讲堂 (深圳站)

深圳福田香格里拉大酒店三层   2016年04月13日 09:00 - 18:00

会议介绍

没有人比Cloudera更懂Hadoop

在Hadoop生态系统项目中,Cloudera 共有 66个PMC (决定项目路线图的项目管理委员会) 座席和 93 个 committer (有权利提交补丁的代码提交者),这说明了一切。在4月13日,Cloudera公司资深工程师将详细介绍Cloudera大数据平台中的最新技术,详解各种use case和最佳实践。这是Cloudera公司举办的官方技术讲堂,第一手学习资料新鲜get!

9:30 -10:30  Cloudera Navigator:  不能妥协的大数据安全性

大数据的潜力非常巨大,但不能以安全为代价。Cloudera企业版是唯一通过全面安全和监管达到合规性的Hadoop平台。本时段将着重介绍Navigator 加密和Navigator 密钥托管人如何保护所有信息,利用Cloudera Navigator实行对Hadoop唯一的全栈审计、 数据沿袭、数据发现和生命周期管理。

10:30 – 11:30  Apache Sentry:统一的访问策略实施

利用Apache Sentry和RecordService在整个平台中提供基于角色的细粒度访问控制统一的安全管理

 

-----不含午餐-----

 

13:00 – 14:00 Intel:   Apache Spark 机器学习

Apache Spark是大数据时代的Smart Phone,而机器学习是这个Smart Phone上最重要的应用。Spark提供了丰富的机器学习组件,例如构造复杂工作流的ML Pipeline,灵活方便的数据表示DataFrame,自动化参数调优的Grid Search,以及丰富的特征提取和模型算法。本时段将涉及这些概念,并结合具体实例介绍如何基于Spark进行大数据机器学习。

 

14:00 -15:00 SQL on Hadoop:  Hive, Impala & SparkSQL

Cloudera 平台里面相关SQL on Hadoop的产品包括了Hive, Impala和SparkSQL,但是三个组件的适用情况不同,Hive适合ETL清洗和转换,但在实时性上稍有欠缺,Impala能快速查询存储在HDFS中的PB级大数据,SparkSQL则与Spark框架的其它组件无缝集成,方便数据科学家进行数据清洗,正则化等。本时段将详细阐述不同用例和架构。

 

15:00 – 16:00  Kudu:  快速数据分析平台

Hadoop生态系统这几年在实时数据访问方面有了重大突破。但有时用户会处于两难境地,比如Apache Parquet这样的列式格式可以为数据分析提供极快的数据扫描,但基本做不到对行式索引的实时访问。HBase虽然能提供快速的随机访问,但对大规模数仓的工作负载扫描却很慢。在这样的情况下,出现了Hadoop生态系统的又一新成员:Kudu,填补了两难境地,从一个API就能提供快速数据扫描和快速随机访问。

 

时间地点

  • 时间:2016年04月13日 09:00 - 18:00
  • 地点:深圳福田区益田路4088号

联系我们

如果想在CSDN会议平台发布会议,请与我们联系: 联系人:王小姐 电话:64348410
邮箱:wangzhe@csdn.net