上海Spark + AI第十五次聚会-CSDN活动

上海Spark + AI第十五次聚会: 上海市徐汇区田林路200号C2座1楼咖啡厅 2018-11-03 13:00 — 17:00

会议介绍

上海Apache Spark +AI Meetup组织一直秉持开放的心态，给大家带来业界一流企业在Spark及大数据应用上的最新进展和成果展示，为大数据和人工智能领域从业者提供公益，公平的技术分享与探讨平台。

时间： 2018年11月3日（周六）
地点：上海市徐汇区田林路200号C2座1楼咖啡厅

活动日程

13:00 – 13:30 签到，签署，进入会场 / sign in, entry

13:30 – 13:40 活动开场白

13:40 – 14:25 技术演讲 / session - 《Analytics Zoo: Unifying Big Data Analytics and AI for Apache Spark》

演讲嘉宾：利智超，来自于Intel大数据技术团队，专注于大数据分析领域, Spark contributor。他致力于在Apache Spark平台上开发分布式机器学习算法，以满足大数据背景下的机器学习需求。他还为这些分布式机器学习算法在Intel平台上进行优化，以及帮助Intel的客户为他们的业务开发大数据分析程序。

主题简介：Analytics-Zoo是基于Apache Spark以及BigDL的开源分布式深度学习框架（https://github.com/intel-analytics/analytics-zoo）。它为Spark提供了深入学习功能的原生支持，同时为现成的使用单节点志强Xeon CPU的开源深度学习框架（如Caffe和Torch）带来了数量级的性能速度提升，并为它们提供了基于Spark架构的对深度学习任务的高效的水平扩展的能力；此外，它还允许数据科学家使用熟悉的工具（包括Python和Notebook等）来对大数据进行分布式深度学习分析。在这次演讲中，我们将演示大数据用户和数据科学家如何使用Analytics-Zoo以分布式方式对海量数据进行深度学习分析（如图像识别、对象检测、NLP等）。这可以让他们使用已有的大数据集群（例如Apache Hadoop和Spark）来作为数据存储、数据处理和挖掘、特征工程、传统的（非深度）机器学习和深度学习工作负载的统一数据分析平台。

14:25 – 15:10 技术演讲 / session - 《微软Azure平台利用Intel Analytics Zoo/BigDL 构建AI客服支持实践》

主题简介：客户支持服务平台已被广泛使用在售前和售后，为客户提供技术和业务支持。传统客户支持服务平台，通常仅仅是一个简单的沟通工具，实际服务和问题解答需要大量的人工客服直接参与客户互动。随着人工智能和自动化技术的进步，越来越多的商家开始为客服系统添加人工智能模块，以节省成本并提升顾客体验。微软Azure的智能客服平台，是一个基于客户在线对话文字，搜索预先训练计算的模型、索引，并计算权重，实时反馈客户提问的智能交互式问答系统，它极大的减少了客户主动寻求转人工帮助机会。其文本分类和问答排序模块设计中，我们实验性引进了Intel Analytics Zoo工具包，目前的实验结果呈现出了不俗的成绩。本次分享将介绍Azure智能客服平台使用Intel Analytics Zoo的实践经验。

15:10 – 15:30 茶歇 / Tea Break

15:30 – 16:15 技术演讲 / session - 《MapReduce作业大规模迁移Apache Spark在百度的实践》

演讲嘉宾：叶先进，百度智能云技术二部，高级研发工程师，目前专注于分布式计算方向。参与 Baidu 内部的 MR/Spark 的计算引擎研发，是 Spark 社区的开源贡献者。

主题简介：Baidu 拥有世界领先规模的 Hadoop/Spark 集群，目前 MR 集群在厂内仍有日均过 50P 级别的输入数据处理量。但随着架构的变迁和 Spark 生态的不断成熟，MR 在内部正在逐渐被 Spark 生态替换。本分享将会介绍我们计算团队推动 MR 迁移 Spark 的一些背景、实践和展望。

16:15 – 17:00 技术演讲 / session - 《使用Intel Optane DC Persistent Memory加速Apache Spark计算》

演讲嘉宾：徐铖，来自于Intel大数据技术团队，专注于大数据分析领域, Apache Spark, Parquet contributor, Apache Hive/Commons/ORC committer。他致力于在大数据核心组件上基于Intel平台进行优化以及帮助Intel的客户为他们的业务提供大数据解决方案。

主题简介：在大数据领域，随着处理的数据规模日益增长，分析任务需要越来越多的内存来计算或存储中间数据。而对于内存消耗型的任务，用户很多时候不得不选择横向扩展计算集群或者以存储介质来补充内存的不足（如固态硬盘）以满足计算任务的需求。对于横向扩展计算集群，额外节点如果不能充分利用CPU，所引入的操作成本，管理成本和维护成本将降低整体的性价比。而考虑到内存和存储间的数据迁移成本（如序列化，压缩，内存拷贝），以存储作为内存补充的方案也带来了额外的性能损耗。为了填补传统内存/存储分层结构的不足，Intel推出了Intel Optane DC Persistent Memory产品。相比于内存，它能够提供更大的容量同时又能够提供比传统存储介质更快的IO吞吐和更小的IO延迟。在本次演讲中，我们将介绍如何使用Optane DC Persistent Memory结合OAP（https://github.com/Intel-bigdata/OAP） IO cache来加速Spark SQL处理IO密集型任务的性能并与内存的性能做比较，也会介绍如何利用RDD cache使用Intel Optane DC Persistent Memory来加速迭代式K-means算法的案例。