RSS与爬虫:大数据的故事——从如何搜集数据开始

3W咖啡   2013-12-30 18:00 — 21:30

演讲嘉宾

叶顺平

  嘉宾介绍:叶顺平,宜搜科技搜索部架构师,主要研究方向为爬虫。在云壤信息技术有限公司与宜搜科技均从事过爬虫研发,有三到四年爬虫开发经验。业余喜欢了解开源项目,阅读文艺书籍,结识技术或文艺朋友。

崔克俊

  嘉宾介绍:崔克俊 北京万方软件股份有限公司 图书馆事业部总经理 具有12年的图书馆、情报行业经验。对数据采集有着丰富的经验。

会议介绍

【CSD云计算俱乐部第九期】
数据正在为商超、网游、电商企业带来了价值,数据背后宝藏正在被挖掘。发现数据的价值前,先要通过收集、存储、分析计算等过程,获得全面、准确的数据是数据价值挖掘的基础。也许当下数据并不能为企业或组织带来实际价值,但作为有远见的决策者应该意识到,应尽早收集、保存重要数据,数据就是财富。
 
本期“大数据故事”将从最为常见的数据搜集方式说起——RSS和搜索引擎爬虫。
 
时间:2013年12月30日  下午6点-9点半
地址:北京市海淀区海淀西大街70号 , 3W咖啡
 
分享主题一:大规模进行RSS聚合和网站下载在科学研究中的初步应用
分享嘉宾:崔克俊(北京万方软件股份有限公司 图书馆事业部总经理)
内容介绍:对某一行业密切相关的几百个甚至几千个RSS种子进行的聚合,将能快速、全面了解某一行的最新动态;对某一行业的的几十个甚至几百个网站进行完整的数据下载,并进行数据挖掘,将能了解某一主题在该行业发展的来龙去脉。本次分享重点介绍如何进行大规模的RSS聚合和网站下载。并分享下几种相关开源软件的使用心得体会。
 
分享主题二:网页搜索爬虫时效性系统
分享嘉宾:叶顺平(宜搜科技搜索部架构师 爬虫组负责人)
内容介绍:主要分享网页搜索中,爬虫时效性问题的解决方案,包括时效性系统的主要目标,主要架构,以及各个子模块的设计方案。同时,简单介绍下在网页搜索中,时效性数据的相关后续处理。
 
崔克俊分享目录 叶顺平分享目录
一 基于RSS的抓取
1.1RSS是什么以及为什么要做RSS抓取
1.1.1 RSS的定义
1.1.2 RSS优点
1.2 科研院所的RSS举例
2.2.1 Ames Laboratory
2.2.2 Argonne National Laboratory
1.3  RSS的组织和抓取
1.4  RSS的检索和主动推送
1.5  Drupal是什么及Drupal的优点
1.6 Yahoo pipe
二 基于整站下载
三 数据的整合
四 应该注意的其他问题
爬虫时效性系统的目标
时效性系统的整体架构
时效性系统主要模块介绍
3.1  Rss/sitemap 系统介绍
3.2 泛爬系统与时效性的关系
3.3 种子调度系统
3.4 种子的挖掘
3.5 种子的更新机制
3.6 抓取系统与javascript解析
3.7 外部合作数据的引入
爬虫时效性数据的后续处理
有待改进的问题
 
活动日程:
18:00~18:30      签到
18:30~18:35      开场
18:35~19:25      分享主题一:大规模进行RSS聚合和网站下载在科学研究中的初步应用
19::25~20:15     分享主题二:网页搜索爬虫时效性系统
20:15~20:45      QA讨论环节
20:45~21:00      自由交流时间
 
实际干货颇多,如果感兴趣就赶快报名参加吧~
-------------------------------------------------------------------------------
CSDN云计算俱乐部为云计算领域的用户,技术工作者,云计算厂商提供面对面交流与讨论的机会。如果您有好的话题想跟大家分享也欢迎联系我们
CSDN云计算俱乐部官方新浪微博欢迎大家扫一扫
 

参会人数:
2 3 2

时间地点

  • 时间:2013-12-30 18:00 — 21:30
  • 地点:北京市海淀区海淀西大街70号 , 3W咖啡二楼(海淀图书城籍海楼对面)

联系我们

如果想在CSDN会议平台发布会议,请与我们联系: 联系人:郭婵 电话:51661202-377
邮箱:[email protected]