下一代大数据即时分析架构

  • 时间:
  • 浏览:2

一一三个小典型的Kappa架构如下图所示:

▌Lambda架构

Lambda架构经历多年的发展,其优点是稳定,对于实时计算部分的计算成本可控,批量避免都都要用晚上的时间来整体批量计算,从前把实时计算和离线计算高峰分开,你你是什么 架构支撑了数据行业的早期发展,怎么让它全是或多或少致命缺点,并在大数据3.0时代这样不适应数据分析业务的需求。缺点如下:

● 服务器成本浪费:Kappa架构的核心原理依赖于结构高性能存储redis,hbase服务。怎么让这2种系统组件,又无须设计来满足全量数据存储设计,对服务器成本严重浪费。

针对Lambda架构的都要维护两套守护线程池池等以上缺点,LinkedIn的Jay Kreps结合实际经验和我人个体会提出了Kappa架构。Kappa架构的核心思想是通过改进流计算系统来避免数据全量避免的间题,使得实时计算和批避免过程使用同一套代码。此外Kappa架构认为都都能能了在有必要的之后才会对历史数据进行重复计算,而将会都要重复计算时,Kappa架构下都都要启动这样来很多个实例进行重复计算。



 

IOTA架构

● 流式避免对于历史数据的高吞吐量力不从心:所有的数据都通过流式计算,即便通过加大并发实例数亦不难 适应IOT时代对数据查询响应的即时性要求。

在过去Lambda数据架构成为每一一三个小公司大数据平台必备的架构,它避免了一一三个小公司大数据批量离线避免和实时数据避免的需求。一一三个小典型的Lambda架构如下:

Kappa架构的核心思想,包括以下三点:

1.用Kafka将会例如MQ队列系统采集各种各样的数据,你都要几天的数据量就保存几天。

2.当都要全量重新计算时,重新起一一三个小流计算实例,从头之后始于读取数据进行避免,并输出到一一三个小新的结果存储中。

● 实时与批量计算结果不一致引起的数据口径间题:将会批量和实时计算走的是一一三个小计算框架和计算守护线程池池,算出的结果往往不同,一一三个小劲看多一一三个小数字当天看是一一三个小数据,第十天看昨天的数据反而趋于稳定了变化。

本文对比了 Lambda数据架构的痛点,通过实践和总结出新一代大数据分析架构IOTA架构,欢迎加入微信群讨论

▌Kappa架构

● 批量计算在计算窗口内无法完成:在IOT时代,数据量级这样大,一一三个小劲发现夜间都都能能了4、十个 小时的时间窗口,将会无法完成白天20多个小时累计的数据,保证早上上班前准时出数据已成为每个大数据团队头疼的间题。



经过这样多年的发展,将会从大数据1.0的BI/Datawarehouse时代,经过大数据2.0的Web/APP过渡,进入到了IOT的大数据3.0时代,而随之而来的是数据架构的变化。

关于IOTA架构的分析请查阅附件!

数据从底层的数据源之后始于,经过各种各样的格式进入大数据平台,在大数据平台中经过Kafka、Flume等数据组件进行采集,怎么让分成两条线进行计算。第一根线是进入流式计算平台(例如 Storm、Flink将会Spark Streaming),去计算实时的或多或少指标;另第一根线进入批量数据避免离线计算平台(例如Mapreduce、Hive,Spark SQL),去计算T+1的相关业务指标,哪此指标都要隔日都都能能看见。

而在IOT大潮下,智能手机、PC、智能硬件设备的计算能力这样强,而业务需求要求数据实时响应需求能力也这样强,过去传统的中心化、非实时化数据避免的思路将会不适应现在的大数据分析需求,我提出新一代的大数据IOTA架构来避免上述间题,整体思路是设定标准数据模型,通过边缘计算技术把所有的计算过程分散在数据产生、计算和查询过程当中,以统一的数据模型贯穿始终,从而提高整体的预算下行速率 ,同時 满足即时计算的都要,都都要使用各种Ad-hoc Query来查询底层数据。

●数据源变化全是重新开发,开发周期长:每次数据源的格式变化,业务的逻辑变化都都要针对ETL和Streaming做开发修改,整体开发周期很长,业务反应不足英文太快了 。

● 开发周期长:此外Kappa架构下将会采集的数据格式的不统一,每次都都要开发不同的Streaming守护线程池池,意味开发周期长。

Kappa架构的优点在于将实时和离线代码统同時 来,方便维护怎么让统一了数据口径的间题。而Kappa的缺点也很明显:

3.当新的实例做之后,停止老的流计算实例,并把老的或多或少结果删除。

● 服务器存储大:数据仓库的典型设计,会产生极少量的里面结果表,造成数据烈焰膨胀,加大服务器存储压力。