网页信息采集，大数据采集技术综述

大数据采集技术就是对数据进行etl操作，通过对数据进行提取、转换、加载，最终挖掘数据的潜在价值。然后提供给用户解决方案或者决策参考。etl，是英文 extract-transform-load 的缩写，数据从数据来源端经过抽取（extract）、转换（transform）、加载（load）到目的端，然后进行处理分析的过程。
用户从数据源抽取出所需的数据，经过数据清洗,最终按照预先定义好的数据模型，将数据加载到数据仓库中去，最后对数据仓库中的数据进行数据分析和处理。
数据采集位于数据分析生命周期的重要一环，它通过传感器数据、社交网络数据、移动互联网数据等方式获得各种类型的结构化、半结构化及非结构化的海量数据。
由于采集的数据种类错综复杂，对于这种不同种类的数据。
我们进行数据分析，必须通过提取技术。将复杂格式的数据，进行数据提取，从数据原始格式中提取（extract）出我们需要的数据，这里可以丢弃一些不重要的字段。
对于数据提取后的数据，由于数据源头的采集可能存在不准确。
所以我们必须进行数据清洗，对于那些不正确的数据进行过滤、剔除。
针对不同的应用场景，对数据进行分析的工具或者系统不同，我们还需要对数据进行数据转换（transform）操作，将数据转换成不同的数据格式，最终按照预先定义好的数据仓库模型，将数据加载（load）到数据仓库中去。
大数据处理目前比较流行的是两种方法，一种是离线处理，一种是在线处理，基本处理架构如下：
在互联网应用中，不管是哪一种处理方式，其基本的数据来源都是日志数据，例如对于web应用来说，则可能是用户的访问日志、用户的点击日志等。
如果对于数据的分析结果在时间上有比较严格的要求，则可以采用在线处理的方式来对数据进行分析，如使用spark、storm等进行处理。比较贴切的一个例子是天猫双十一的成交额，在其展板上，我们看到交易额是实时动态进行更新的，对于这种情况，则需要采用在线处理。
当然，如果只是希望得到数据的分析结果，对处理的时间要求不严格，就可以采用离线处理的方式，比如我们可以先将日志数据采集到hdfs中，之后再进一步使用mapreduce、hive等来对数据进行分析，这也是可行的。
在现实生活中，数据产生的种类很多，并且不同种类的数据产生的方式不同。
对于大数据采集系统，主要分为以下三类系统：
一、系统日志采集系统。
许多公司的业务平台每天都会产生大量的日志数据。对于这些日志信息，我们可以得到出很多有价值的数据。通过对这些日志信息进行日志采集、收集，然后进行数据分析，挖掘公司业务平台日志数据中的潜在价值。
为公司决策和公司后台服务器平台性能评估提高可靠的数据保证。
系统日志采集系统做的事情就是收集日志数据提供离线和在线的实时分析使用。
目前常用的开源日志收集系统有flume、scribe等。apache flume是一个分布式、可靠、可用的服务，用于高效地收集、聚合和移动大量的日志数据，它具有基于流式数据流的简单灵活的架构。
其可靠性机制和许多故障转移和恢复机制，使flume具有强大的容错能力。
scribe是facebook开源的日志采集系统。scribe实际上是一个分布式共享队列，它可以从各种数据源上收集日志数据，然后放入它上面的共享队列中。
scribe可以接受thrift client发送过来的数据，将其放入它上面的消息队列中。然后通过消息队列将数据push到分布式存储系统中，并且由分布式存储系统提供可靠的容错性能。
如果最后的分布式存储系统crash时，scribe中的消息队列还可以提供容错能力，它会还日志数据写到本地磁盘中。scribe支持持久化的消息队列，来提供日志收集系统的容错能力。
二、网络数据采集系统。
通过网络爬虫和一些网站平台提供的公共api(如twitter和新浪微博api)等方式从网站上获取数据。这样就可以将非结构化数据和半结构化数据的网页数据从网页中提取出来。
并将其提取、清洗、转换成结构化的数据，将其存储为统一的本地文件数据。目前常用的网页爬虫系统有apache nutch、crawler4j、scrapy等框架。
apache nutch是一个高度可扩展和可伸缩性的分布式爬虫框架。
apache通过分布式抓取网页数据，并且由hadoop支持，通过提交mapreduce任务来抓取网页数据，并可以将网页数据存储在hdfs分布式文件系统中。
nutch可以进行分布式多任务进行爬取数据，存储和索引。由于多个机器并行做爬取任务，nutch利用多个机器充分利用机器的计算资源和存储能力，大大提高系统爬取数据能力。
crawler4j、scrapy都是一个爬虫框架，提供给开发人员便利的爬虫api接口。开发人员只需要关心爬虫api接口的实现，不需要关心具体框架怎么爬取数据。crawler4j、scrapy框架大大降低了开发人员开发速率，开发人员可以很快的完成一个爬虫系统的开发。
三、数据库采集系统。
一些企业会使用传统的关系型数据库mysql和oracle等来存储数据。
除此之外，redis和mongodb这样的nosql数据库也常用于数据的采集。企业每时每刻产生的业务数据，以数据库一行记录形式被直接写入到数据库中。
通过数据库采集系统直接与企业业务后台服务器结合，将企业业务后台每时每刻都在产生大量的业务记录写入到数据库中，最后由特定的处理分许系统进行系统分析。
针对大数据采集技术，目前主要流行以下大数据采集分析技术。hive是facebook团队开发的一个可以支持pb级别的可伸缩性的数据仓库。
这是一个建立在hadoop之上的开源数据仓库解决方案。 hive支持使用类似sql的声明性语言（hiveql）表示的查询，这些语言被编译为使用hadoop执行的mapreduce作业。
另外，hiveql使用户可以将自定义的map-reduce脚本插入到查询中。该语言支持基本数据类型，类似数组和map的集合以及嵌套组合。
hiveql语句被提交执行。首先driver将查询传递给编译器compiler，通过典型的解析，类型检查和语义分析阶段，使用存储在metastore中的元数据。
编译器生成一个逻辑任务，然后通过一个简单的基于规则的优化器进行优化。
最后生成一组mapreduce任务和hdfs task的dag优化后的task。然后执行引擎使用hadoop按照它们的依赖性顺序执行这些task。
hive简化了对于那些不熟悉hadoop mapreduce接口的用户学习门槛，hive提供了一些列简单的hiveql语句，对数据仓库中的数据进行简要分析与计算。

网页信息采集，大数据采集技术综述

VIP推荐