Alluxio Shanghai Meetup-CSDN活动

Alluxio Shanghai Meetup: 唯品会上海 2016-07-31 13:00 — 17:00

会议介绍

源自 UC Berkeley AMPLab 的 Alluxio （前称 Tachyon）是一个开源内存级虚拟大数据存储。此次 Shanghai Big Data Streaming Meetup 的 Alluxio 专场邀请到 Alluxio 项目的创始人李浩源，核心开发成员范斌和顾荣，分享 Alluxio 项目的进展，展示 Alluxio 的最新功能和使用案例，以及最新的研究成果。此次 Meetup 由英特尔上海和唯品会上海合办。

时间表：

12:30 - 13:00 签到 / Sign in

13:00 - 13:05 开场白 / Opening

13:05 - 13:50 Alluxio（前Tachyon）项目的历史，现状与发展方向（李浩源）

13:50 - 14:35 Alluxio: 统一的文件系统名称空间与分层存储管理（范斌）

14:35 - 15:00 茶歇 / Tea Break

15:00 - 15:45 Alluxio 缓存策略优化与大规模性能评测（顾荣）

15:45 – 17:00 交流时间 / Networking time

详细内容：

题目一: Alluxio（前Tachyon）项目的历史，现状与发展方向

描述:

Alluxio，前称Tachyon，是一个开源内存级分布式大数据虚拟存储系统。在三年的时间里，Alluxio开源社区已有来自全世界超过300名的贡献者，成为大数据领域内历史上成长最快的项目之一。Alluxio系统已经部署在包括百度，巴克莱银行，英特尔，华为和去哪儿网等许多公司当中。在其中一些生产环境中，Alluxio已经行了一年多，管理数据PB级别的数据。

在过去的一年中，Alluxio项目极大提升了系统性能，Scalability和用户体验，并增加了一系列新功能，包括可扩展的分层存储，透明的UFS数据读写，统一的命名空间等更加方便用户使用Alluxio。与此同时，Alluxio生态系统已扩展到对不同的存储系统和计算框架的支持。现在Alluxio支持多种存储下的系统，包括Amazon S3，谷歌云存储，Gluster，Ceph，HDFS，NFS和OpenStack的Swift，以及大数据处理框架诸如Spark，MapReduce，Flink等的支持。这些集成使Alluxio可以管理和帮助到更多更复杂的数据。

今年，我们的目标是让更广泛的用户人群可以使用Alluxio，我们会着重提高Alluxio对安全性的支持，支持新语言binding，以及进一步增加稳定性和对资源的有效使用。此外，我们还会探索新的API，让应用程序能够更有效地访问数据，并根据存储系统来有效管理不同数据。

讲者简介：

李浩源是Alluxio公司（前称Tachyon Nexus公司）的创始人和CEO。李浩源在加州大学伯克利分校AMPLab读博期间，他联合创造了Alluxio，一个开源的内存级别速度的虚拟分布式存储系统。此外，他是Apache Spark项目的founding committer。在进入AMPLab之前，他曾经在Conviva和Google公司工作。李浩源在拥有康奈尔大学的硕士学位和北京大学的学士学位。

题目二: Alluxio: 统一的文件系统名称空间与分层存储管理

描述:

在大数据应用场景中，针对不同的计算框架与任务分别配置数据源和存储资源，以及在不同的计算框架间高速有效的实现数据共享和管理是一件困难且挑战的任务。Alluxio（前Tachyon）是世界上第一个以内存为中心的虚拟分布式存储系统。它为不同的计算框架提供的统一的接口来访问不同类型的数据源，并实现了多层次的存储机制，从而有效的解决数据存储的管理与配置问题：

1. Alluxio为上层计算框架和底层存储系统构建了桥梁。应用只需要连接Alluxio即可访问存储在底层任意存储系统中的数据，比如阿里巴巴OSS/亚马逊S3/谷歌GCS等云存储、OpenStack Swift、Ceph、HDFS、GlusterFS等。并且Alluxio提供了统一的命名空间以及挂载API，可以使得用户在Alluxio中同时访问管理多个数据源中的数据。并且在Alluxio上进行的如创建、删除、重命名等操作会直接无缝的映射到底层存储上的操作。

2. 针对集群内存容量有限的情况，Alluxio提供的分层存储机制，不仅可以管理内存，也可以同时管理SSD和HDD。这不但能够扩大Alluxio管理资源的容量，使得计算框架可以处理更大规模的数据，同时还可以自动的把更经常访问的热数据迁移到更快的存储层上，使得数据的访问速度能比现有常规方案快几个数量级。而这一切过程都对计算框架完全透明.

Alluxio PMC Maintainer 范斌会详细讲解Alluxio的分层存储管理机制与统一命名空间的设计与使用。演示如何在Alluxio中配置内存、SSD、HDD，以及Alluxio内部对数据在不同层之间迁移的机制与策略。同时也会介绍定制化的数据管理策略，例如用户可以把一个文件指定存储在某个层上，或者设定一个文件的生命周期。此外还会讲解Alluxio与底层存储的对接接口，与对不同类型的底层存储进行无缝对接的操作。

讲者简介:

Alluxio PMC member & maintainer，卡内基梅隆大学计算机系博士。在加入Alluxio公司前, 范斌曾在Google，Microsoft Research工作并研发分布式存储系统。有多篇论文发表于SOSP，SIGCOMM，NSDI等顶级学术会议.

题目三：Alluxio缓存策略优化与大规模性能评测

描述：

Alluxio作为开源内存级分布式大数据虚拟存储系统，提供了分层存储机制来管理内存，也可以统一管理SSD 和HDD等存储设备资源。为了使热数据尽量在更快的存储层上，我们在Alluxio中针对多种大数据的应用场景设计实现了众多高级的缓存替换策略包括LIRS、ARC、LRFU等。这些缓存策略已经被集成到Alluxio系统之中，并且可以很方便地用于上层应用性能调优。此外，为了对Alluxio上层的应用进行更大规模的性能评测和调优，我们还设计实现了针对的Alluxio大规模性能评测系统Alluxio-Perf。本演讲中，我将对针对Alluxio大数据的缓存策略与性能评测调优工具Alluxio-Perf的基本原理和使用方式进行详细的介绍。

讲者简介：

顾荣，南京大学计算机系博士研究生，Alluxio PMC member & maintainer，Apache Spark contributor。作为国内早期的Alluxio开发者之一，顾荣在Alluxio发展历程的多个版本中做了很多功能稳定和性能增强方面的工作，此外还主要设计实现性能测试框架Alluxio-Perf和社区中文文档等。在与Spark结合方面，顾荣还设计实现完成了Spark 1.0版本中发布的支持RDD 存储到Alluxio的功能。顾荣目前已经发表或录用论文11篇（其中7篇第一作者），并且参与编写《深入理解大数据—卷1: 大数据处理与编程实践》、《实战Hadoop:开启通向云计算的捷径》等书籍中的部分章节。此外，顾荣曾在Microsoft Research、Intel、Baidu、星环科技（Transwarp）从事过大数据系统研发实习工作。