RSS与爬虫：大数据的故事——从如何搜集数据开始-CSDN活动

RSS与爬虫：大数据的故事——从如何搜集数据开始: 3W咖啡 2013-12-30 18:00 — 21:30

演讲嘉宾

叶顺平

嘉宾介绍：叶顺平，宜搜科技搜索部架构师，主要研究方向为爬虫。在云壤信息技术有限公司与宜搜科技均从事过爬虫研发，有三到四年爬虫开发经验。业余喜欢了解开源项目，阅读文艺书籍，结识技术或文艺朋友。

崔克俊

嘉宾介绍：崔克俊北京万方软件股份有限公司图书馆事业部总经理具有12年的图书馆、情报行业经验。对数据采集有着丰富的经验。

会议介绍

【CSD云计算俱乐部第九期】

数据正在为商超、网游、电商企业带来了价值，数据背后宝藏正在被挖掘。发现数据的价值前，先要通过收集、存储、分析计算等过程，获得全面、准确的数据是数据价值挖掘的基础。也许当下数据并不能为企业或组织带来实际价值，但作为有远见的决策者应该意识到，应尽早收集、保存重要数据，数据就是财富。

本期“大数据故事”将从最为常见的数据搜集方式说起——RSS和搜索引擎爬虫。

时间：2013年12月30日下午6点-9点半

地址：北京市海淀区海淀西大街70号 , 3W咖啡

分享主题一：大规模进行RSS聚合和网站下载在科学研究中的初步应用

分享嘉宾：崔克俊（北京万方软件股份有限公司图书馆事业部总经理）

内容介绍：对某一行业密切相关的几百个甚至几千个RSS种子进行的聚合，将能快速、全面了解某一行的最新动态；对某一行业的的几十个甚至几百个网站进行完整的数据下载，并进行数据挖掘，将能了解某一主题在该行业发展的来龙去脉。本次分享重点介绍如何进行大规模的RSS聚合和网站下载。并分享下几种相关开源软件的使用心得体会。

分享主题二：网页搜索爬虫时效性系统

分享嘉宾：叶顺平（宜搜科技搜索部架构师爬虫组负责人）

内容介绍：主要分享网页搜索中，爬虫时效性问题的解决方案，包括时效性系统的主要目标，主要架构，以及各个子模块的设计方案。同时，简单介绍下在网页搜索中，时效性数据的相关后续处理。

崔克俊分享目录	叶顺平分享目录
一基于RSS的抓取 1.1RSS是什么以及为什么要做RSS抓取 1.1.1 RSS的定义 1.1.2 RSS优点 1.2 科研院所的RSS举例 2.2.1 Ames Laboratory 2.2.2 Argonne National Laboratory 1.3 RSS的组织和抓取 1.4 RSS的检索和主动推送 1.5 Drupal是什么及Drupal的优点 1.6 Yahoo pipe 二基于整站下载三数据的整合四应该注意的其他问题	爬虫时效性系统的目标时效性系统的整体架构时效性系统主要模块介绍 3.1 Rss/sitemap 系统介绍 3.2 泛爬系统与时效性的关系 3.3 种子调度系统 3.4 种子的挖掘 3.5 种子的更新机制 3.6 抓取系统与javascript解析 3.7 外部合作数据的引入爬虫时效性数据的后续处理有待改进的问题

活动日程：

18:00~18:30 签到

18:30~18:35 开场

18:35~19:25 分享主题一：大规模进行RSS聚合和网站下载在科学研究中的初步应用

19::25~20:15 分享主题二：网页搜索爬虫时效性系统

20:15~20:45 QA讨论环节

20:45~21:00 自由交流时间

实际干货颇多，如果感兴趣就赶快报名参加吧~

-------------------------------------------------------------------------------

CSDN云计算俱乐部为云计算领域的用户，技术工作者，云计算厂商提供面对面交流与讨论的机会。如果您有好的话题想跟大家分享也欢迎联系我们

CSDN云计算俱乐部官方新浪微博欢迎大家扫一扫

参会人数：

2 3 2

人

时间地点

时间：2013-12-30 18:00 — 21:30
地点：北京市海淀区海淀西大街70号 , 3W咖啡二楼（海淀图书城籍海楼对面）

联系我们

如果想在CSDN会议平台发布会议，请与我们联系：联系人：郭婵电话：51661202-377
邮箱：guochan@csdn.net