Shanghai Apache Spark Meetup第十二次聚会-CSDN活动

Shanghai Apache Spark Meetup第十二次聚会: 上海淞沪路303号901 （大学路智星路路口汇丰银行楼9楼）Splunk 中国 2017-03-18 12:30 — 16:45

会议介绍

本期的Shanghai Apache Spark Meetup第十二次聚会， Intel得到Splunk中国的大力支持。活动将于3月18日，举办于上海淞沪路303号901 （大学路智星路路口汇丰银行楼9楼）Splunk 中国。举办地点交通方便，靠近地铁10号线江湾体育场站。座位有限(~120)，先到先得。

活动日程

12:30 – 13:00 签到，签署，进入会场 / sign in, entry

13:00 – 13:15 主题发言 / Keynote

嘉宾：Splunk 上海研发中心总经理，全球工程研发副总裁何宁。

13:15 – 13:55 技术演讲 / session - 《利用Spark开发高并发，高可靠的分布式大数据采集调度系统》

演讲嘉宾：陶刚 Splunk 上海架构师。

主题简介：Splunk是一个分布式的机器数据平台，提供一体化的数据收集，存储，搜索，查询，展示的平台。Splunk的传统的Forwarder架构很难扩展和管理，而且是单点故障，成为整个系统的瓶颈。本次演讲，讨论了如何利用Spark，实现一个高可用，高扩展的分布式任务调度系统，并用于海量数据的采集，以取代传统Splunk平台中的Forwarder的架构_。

13:55 – 14:35 技术演讲 / session - 《Intel BigDL: 基于Apache Spark的分布式深度学习框架》

演讲嘉宾：王奕恒, 英特尔大数据团队资深软件工程师。主要专注于大数据分析领域。Spark分布式机器学习及深度学习框架主要贡献者。

主题简介：BigDL 是英特尔开源的基于Apache Spark 的分布式深度学习框架，其借助于现有Spark集群来运行深度学习计算并简化存储在Hadoop中的大数据加载。在Xeon平台上提供运行效率大大优于开源框架Cafee,Torch 和TensorFlow ，可媲美主流GPU。本演讲将带给大家一个全面的BigDL 架构，性能，运行模式的介绍。

14:35 – 14:55 茶歇 / Tea Break

14:55 – 15:35 技术演讲 / session - 《NUMA内存架构下的Spark性能优化》

演讲嘉宾：吴晓昶，英特尔云计算及大数据实验室，高级软件架构师。

主题简介：非一致内存访问（NUMA）是自Intel Nehalem平台引入的内存架构，在目前的服务器系统上广泛存在。本演讲将首先回顾NUMA的技术要点以及它如何影响内存密集型Spark应用程序的性能。然后将介绍识别NUMA性能问题的工具和方法，以及我们为Spark任务调度添加NUMA感知方面的工作。在对基准测试TPC-DS和TPCx-BB以及现实中的工作负载的实验表明，经过优化之后的性能最高可以提升8.9％。

15:35 – 16:15 技术演讲 / session - 《Livy - 基于Apache Spark之上的REST服务》

演讲嘉宾：邵赛赛Hortonworks技术专家，专注于开源大数据领域，Apache Spark活跃贡献者。前 Intel 大数据团队成员，专注于Apache Hadoop和Spark等相关大数据平台的性能测试，调优以及改进。

主题简介：Livy是构建于Apache Spark之上的REST服务，它提供了安全、高可用、灵活的REST API使用户可以以交互式、批处理以及编程式API的方式操作Spark。本演讲将为大家介绍Livy的基本功能、高阶特性以及与其他类似框架的比较。

16:15 – 16:45 活动收尾及社交/Ending and Social