Shanghai Apache Spark Meetup第十三次聚会

上海浦东新区博云路111号爱酷空间   2017年08月19日 12:30 - 17:00

会议介绍

本期的Shanghai Apache Spark Meetup第十三次聚会, 英特尔得到银伞数据学城(Datumb)大力支持。活动将于819日,举办于活动协助单位浦软孵化器旗下的爱酷空间 上海浦东新区博云路111号。 举办地点交通方便,靠近地铁2号线金科路站。座位有限(~150),先到先得。

活动日程

12:30 – 13:00  签到,签署,进入会场 / sign in, entry

13:00 – 13:20  主题发言 / Keynote

嘉宾:郭雄,银伞数据学城创始人,专注于大数据领域近10年,曾供职于eBay, TeleNav 等多家公司。其所创立的银伞数据学城通过与来自世界领先科技公司技术专家联合设计课程,为学员提供包括大数据技术、数据分析、机器学习、深度学习、机器人开发和AR/VR等世界前沿技术实战培训。

13:20 – 14:00  技术演讲 / session - 《数据平台工具链,技术选型及架构设计

演讲嘉宾:毕洪宇,饿了么大数据平台总监。曾在eBay,PPTV任职DBA。2012年加入唯品会,全程参与唯品会数据库基础建设,并负责大数据基础平台和实时计算平台的工作;2016年加入饿了么负责大数据基础架构,数据平台工具链以及数据仓库的工作。

主题简介:随着接入的需求方越来越多样化,对大数据的数据使用,数据存储与计算的需求也越来越多样化,同时业务的飞速发展,集群的规模也急速扩大。如何在这样的场景下,以及有限的资源下来构建大数据平台,稳定支撑住业务的发展是一个不小的挑战。洪宇分享其在数据平台工具链,技术选型及架构设计上的实战经验。

14:05 – 14:45  技术演讲 / session - 《Spark Structured Streaming 流式大数据处理

演讲嘉宾:张璐波,英特尔大数据部门软件工程师,主要研究spark 流式处理和spark SQL,Apache Spark 代码贡献者。

主题简介:Spark Structured Streaming 流式处理模块作为 Spark streaming 的改进版本,在Spark 2.0中引入并解决了以往流式处理在实际应用中遇到的一些问题,在实时数据处理方面发挥了重要作用。其建立在Spark SQL 引擎之上的端到端、可扩展且高容错性的流式处理系统,可以让使用者像进行批处理那样进行流式表达式计算。随着数据的不断到来, Spark SQL 引擎会持续增量的进行计算并更新结果集。本次分享中主要介绍Structured Streaming的一些基本概念和工作原理。

14:45 – 15:00  茶歇 / Tea Break

15:00 – 15:40  技术演讲 / session - 《大数据平台 All in Spark 实践

演讲嘉宾:祝海林, 丁香园资深数据架构工程师,主要研究方向为大数据架构以及机器学习。

主题简介:如何简化大数据技术栈,提高团队研发效率,是可能面临的一个比较大的问题。Spark 在批处理,流式,机器学习,图计算等多领域都有所覆盖,使其在大数据方方面面的应用成为可能。海林会分享其团队采取All in Spark 策略对团队和工程的影响,同时也会介绍他们将Spark在其实际工作中的应用情况。

15:45 – 16:25  技术演讲 / session - 《Spark SQL 自适应执行引擎

演讲嘉宾:Carson Wang (汪愈舟),英特尔大数据部门软件工程师,专注于Apache Spark Core和Spark SQL的性能优化和改进,是Apache Spark和Alluxio项目的代码贡献者,也是大数据基准测试工具HiBench的主要开发和维护者。

主题简介:Catalyst是Spark SQL的核心,它同时提供了基于规则和基于代价的优化方式。它最终产生的物理执行计划,直接影响到Spark SQL的执行性能。然而想在Spark SQL的计划阶段获得一个最佳的执行计划并不容易。因此英特尔Spark 团队为Spark SQL实现了一个新的自适应的执行引擎,在运行过程中通过实时收集到的信息比如中间结果的大小,动态地调整后续的执行计划。其在运行时调整Join的策略,根据shuffle数据量自适应调节shuffle partition的个数,自动优化数据倾斜等问题。在本次分享中,Carson会介绍该自适应执行引擎的设计初衷和原理,同时分享我们初步的测试结果。

16:30 – 17:00  活动收尾及社交/Ending and Social

 

已报名参会人员

参会人数:
2 4 1

时间地点

  • 地点:2017年08月19日 12:30 - 17:00
  • 地点:上海浦东新区博云路111号爱酷空间

联系我们

如果想在CSDN会议平台发布会议,请与我们联系: 联系人:郭芮 电话:guorui_1118(微信)
邮箱:guorui@csdn.net