南京大数据技术Meetup第十三次会议

(江苏南京)江淼路188号 江北新区研创园腾飞大厦D座4楼大报告厅   2019-03-23 14:00 — 18:00

会议介绍

活动时间:2019年3月23日 下午14:00-18:00

活动地点:

南京市江北新区研创园腾飞大厦D座4楼大报告厅(​南京市江淼路188号),南京地铁10号 临江站1号口,工作人员指引乘坐接驳车直达(10分钟一班次)。

活动嘉宾&议题

Topic 1 《自动化机器学习算法与系统研究进展

嘉宾介绍:朱光辉,南京大学PASA大数据实验室博士研究生。研究方向为大数据并行计算算法和系统,自动化机器学习。朱光辉已在ICDE、ICPADS、计算机学报等国内外著名学术期刊和会议上发表论文3篇,并承担多项国家级以及与华为等知名企业合作的大数据研发项目。朱光辉带领PASA实验室AutoML团队从2017年初开始从事AutoML技术的探索和研究,经过两年的技术积累,已取得了诸多原创性的技术突破,并连续两年在国际AutoML挑战赛中(PAKDD AutoML2 和 NeurIPS AutoML3)取得第三名的优异成绩。另外,实验室所研发的基于强化学习的三阶段AutoML算法和系统已成功应用于华为、360等国内知名IT企业。

内容简介:机器学习与人工智能技术目前已经广泛应用在各个行业,然而机器学习和人工智能技术门槛较高,目前主要依赖专业人员的人力和经验。数据分析人员不仅要熟练掌握和使用各种算法模型,而且还要熟悉每个算法的超参数调优技巧。因此,即使是专业人员,分析建模和调参也是十分费力费时的工作。另外,一个典型的数据分析流程涉及到多个阶段,包括数据预处理、特征工程、算法选择以及模型评估等。每个分析阶段又包含了多种方法。因此,如何设计高效的全生命周期的数据分析流程是非常具有挑战性的。为了解决上述问题和挑战,研究人员开始尝试自动化机器学习(AutoML),即用机器去自动化地完成模型选择和参数调优,让模型设计自动化,替代人工方式进行模型设计的过程,从而大量节省人力,降低机器学习算法设计的门槛,提高建模的效率。本次分享涉及到AutoML的多个技术层面,包括自动化超参调优、自动化模型选择以及自动化特征工程。同时,本次分享也将重点介绍南京大学PASA大数据实验室在AutoML算法和系统方面的最新进展和成果。

Topic 2 《Spark SQL 在字节跳动的优化实践

嘉宾介绍:郭俊,现任字节跳动大数据架构部工程师,曾任职于 Cisco、eBay 大数据架构部。长期从事 Kafka、Storm、Hadoop、Spark 等大数据系统的优化以及数据仓库的建设工作。

内容简介:在字节跳动内部,Spark / Spark SQL 每天处理 PB 级增量数据,为了更好处理不断增长的数据及业务需求,我们对 Spark SQL 进行了一系列改进。本次分享主要介绍了字节跳动在 Spark SQL 逻辑计划优化,物理计划优化,Spark 运行时优化等方面的实践与创新。

Topic 3 《基于大数据分布式存储系统Alluxio的负载均衡优化

嘉宾介绍:余英豪,香港科技大学博士研究生。研究方向为大数据计算框架中分布式内存系统的性能优化,部分研究工作发表在ACM/IEEE SC,IEEE INFOCOM 和 ICDCS等会议。导师为Khaled Ben Letaief 教授和王威老师。余英豪目前在阿里云智能事业群容器平台部实习。

内容简介:计算和存储分离的架构为大数据运算引擎提供弹性扩容的能力,成为云上大数据框架的未来发展趋势。随着数据中心网络带宽的大幅提升,硬盘I/O的速度增长却趋于停滞,逐渐成为计算存储分离架构中的性能瓶颈。因此,在大数据应用和远端存储层之间部署一个以Alluxio为代表的内存文件缓存层来缓存热点数据,可以缩减硬盘I/O带来的瓶颈,提升读写效率。然而,由于内存缓存层中数据热度的显著差异,分布式内存系统面临着负载失衡的严重风险。针对这一问题,我们通过选择性地分割热点文件并将其充分分散来保障负载均衡。我们建立了一个分布式内存系统的模型来指导获取每个文件的理论最优分割数目。实验证明,相比于现有的分布式内存负载均衡算法,选择性文件分割的策略可以降低平均和尾部延迟达50%。

Topic 4 基于知识图谱的风控与营销建模应用

嘉宾介绍:杨俊,之前在摩根士丹利从事分布式风险计算相关工作,加入星环科技后,主持开发了大数据流处理产品Slipstream,之后主导开发了人工智能平台Sophon,目前已经在多个行业落地。

内容简介:知识图谱技术得到越来越广泛的应用,其中基于图谱分析的一些算法和方法论在实践中不断成熟,本报告分享将介绍我们将知识图片等技术在不同行业应用的技术流程与经验分享。

已报名参会人员

参会人数:
0 0 8

时间地点

  • 时间:2019-03-23 14:00 — 18:00
  • 地点:(江苏南京)江淼路188号 江北新区研创园腾飞大厦D座4楼大报告厅

联系我们

如果想在CSDN会议平台发布会议,请与我们联系: 联系人:郭芮 电话:guorui_1118(微信)
邮箱:guorui@csdn.net