转到正文

博客水木

一个学习总结与工作经验分享博客。

存档

分类: 大数据

  提取、转换、加载(ETL)是一个成熟的过程,它使组织能够利用不同的数据,而不管数据驻留在何处或存储数据的格式如何。随着时间的推移,ETL随着业务需求的发展,支持NoSQL数据库中的流数据和非结构化数据以及关系数据库中的结构化数据。   ETL为什么如此重要?无论这些决策是基于电子表格、商业智能系统、分析仪表板还...继续阅读

...

现如今,大数据技术的发展和应用有着巨幅的增长,Hadoop和相关平台推动起一波数据分析浪潮,今天产生的数据将用来预测明天发生的事情,我们该如何跨过这个海量数据新时代的门槛?又该如何获取更有价值的数据并将其收入囊中? Apache Flume正是用来应对这个挑战的,无论数据来自什么企业,或是多大量级,通过部署Flume,可...继续阅读

...

1、kudu整体介绍 Kudu是cloudera开源的运行在hadoop平台上的列式存储系统,拥有Hadoop生态系统应用的常见技术特性,运行在一般的商用硬件上,支持水平扩展,高可用。 kudu的使用场景: Strong performance for both scan and random access to help customers simplify complex hybrid architectures(适用于那些既有随...继续阅读

...

1、Apache Flink介绍 既然有了Apache Spark,为什么还要使用Apache Flink? 因为Flink是一个纯流式计算引擎,而类似于Spark这种微批的引擎,只是Flink流式引擎的一个特例。其他的不同点之后会陆续谈到。 1.1 历史 Flink起源于一个叫做Stratosphere的研究项目,目标是建立下一代大数据分析引擎,其在2014年4月16日成为Apa...继续阅读

...

BI工具:是商业智能(Business Intelligence),分析工具的英文缩写。 BI(Business Intelligence)即商业智能,它是一套完整的解决方案,用来将企业中现有的数据进行有效的整合,快速准确的提供报表并提出决策依据,帮助企业做出明智的业务经营决策。商业智能的概念最早在1996年提出。当时将商业智能定义为一类由数据仓...继续阅读

...

storm 架构与原理 1 storm简介 1.1 storm是什么 如果只用一句话来描述 storm 是什么的话:分布式 && 实时 计算系统。按照作者 Nathan Marz 的说法,storm对于实时计算的意义类似于hadoop对于批处理的意义。 Hadoop(大数据分析领域无可争辩的王者)专注于批处理。这种模型对许多情形(比如为网页建立索引...继续阅读

...

简介: SparkStreaming是一套框架。 SparkStreaming是Spark核心API的一个扩展,可以实现高吞吐量的,具备容错机制的实时流数据处理。 支持多种数据源获取数据: Spark Streaming接收Kafka、Flume、HDFS等各种来源的实时输入数据,进行处理后,处理结构保存在HDFS、DataBase等各种地方。 Dashboards:图形监控界面,Spar...继续阅读

...

Scala 是 Scalable Language 的简写,是一门多范式的编程语言 联邦理工学院洛桑(EPFL)的Martin Odersky于2001年基于Funnel的工作开始设计Scala。 Funnel是把函数式编程思想和Petri网相结合的一种编程语言。 Odersky先前的工作是Generic Java和javac(Sun Java编译器)。Java平台的Scala于2003年底/2004年初发布。.NET平...继续阅读

...

SparkSQL简介及入门 一、概述 Spark为结构化数据处理引入了一个称为Spark SQL的编程模块。它提供了一个称为DataFrame(数据框)的编程抽象,DF的底层仍然是RDD,并且可以充当分布式SQL查询引擎。 1、SparkSQL的由来 SparkSQL的前身是Shark。在Hadoop发展过程中,为了给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上...继续阅读

...

1、系统及环境版本 系统:Win7 旗舰版 64位 sp1 JDK:1.8.0 Spark:2.3.2 Hadoop:2.7 Scala:2.11.8 文章最后,有所有版本的下载链接,不用再去折腾版本之间的问题。 2、环境下载 2.1 Spark 下载 http://spark.apache.org/downloads.html spark 2.2 hadooponwindos 下载 https://github.com/sardetushar/hadoop...继续阅读

...