大数据采集与处理

大数据采集与处理
  • ISBN: 9787121420115
  • 出版日期:
  • 出版社: 电子工业出版社
  • 作者: 张雪萍
  • 评分:
  • 类型: 计算机科学
  • 得到图书

内容简介

在大数据时代背景下,如何从大数据中采集出有用的信息并合理地存储起来已经是大数据发展的最关键因素,数据采集与处理是大数据产业的基石。本书首先介绍了大数据概念及特征、大数据处理关键技术、开源 Hadoop安装与使用、Hadoop生态系统及主要组件,在此基础上重点介绍了大数据采集、大数据预处理、大数据存储与计算、大数据安全等关键技术,并且每一部分都以案例为依托进行项目实战。大数据采集部分具体包括:大数据采集方法、常用采集工具及平台、网络爬虫、Apache Kafka等;大数据预处理技术包括:清理、集成、变换、数据仓库与ETL;大数据存储与计算部分介绍了RDB、MPP、HDFS、HBase、Alluxio、ElasticSearch等存储架构,Redis、Cassandra、ongoDB、Neo4j等常用的NoSQL, MapReduce计算框架、Hive数据仓库,Spark、Storm 、Flink等流计算模式,以及Pregel图计算;大数据安全部分介绍了大数据安全面临的技术问题和挑战、大数据安全关键技术以及大数据安全管理及应用;最后介绍了电商、交通、医院、电信、煤炭、教育等行业大数据采集与处理。