首页 网站首页 商业信息 数据 查看内容

一文搞懂:离线数据、实时数据究竟该如何选择

网站运营 2022-10-19 12:15 8742人围观 数据


编辑导语:在营业分析进程中,你应当挑选实时数据还是离线数据?这需要根据营业场景来停止判定,不能自觉挑选。那末,两者的优弱点是什么?各自合顺利用于什么场景?本篇文章里,作者针对若何挑选离线数据和实时数据这一题目做领会答,一路来看一下。

一文搞懂:离线数据、实时数据究竟该若何挑选


做数据和用数据的人绕不开的题目是数据的时效性,离线数据、实时数据别离指的是什么,营业利用时,究竟该以什么标准挑选呢?很多营业产物或运营搞不懂两者的区分。提数据分析需求,想着必定越实时越好,数据团队怎样拒绝?

一、什么是离线数据、实时数据?


数据从营业端发生,到分析大概反哺营业利用,需要经过一系列的清洗、处置进程,而这一进程带来时候窗口巨细,就是数据的时效性。依照数据提早的巨细,可以将数据分为离线数据和以及实时数据(准实时)。

一文搞懂:离线数据、实时数据究竟该若何挑选


1. 离线数据


离线数据通常为指T-1的日期,例现在天的日期T=2022-11-12,那末数据成果中,可以表现的营业数据只包括前一天的(昨日数据)。有人也称之为T+1的数据,把数据日期看成T,叫法分歧,但本质都是指的明天处置的数据最新日期是停止昨天。

2. 实时数据


实时数据主如果指的数据提早小,例如毫秒、秒、分钟级的提早,小时级的提早称之为“准实时数据“更加正确了。例如,你熬夜赶在双十一早晨的最初1分钟,成功付了尾款,在双十一实时统计大屏中,GMV的值又转动了一下。

一文搞懂:离线数据、实时数据究竟该若何挑选


二、处置技术有何差别

1. 离线数据处置


离线数据处置也称之为“批处置”,数据发生以后,不会立即停止清洗,而是在牢固的周期停止ETL,例如天天在清晨12:00以后,处置前一天发生的数据。上大学的时辰,有的舍友喜好将袜子攒起来,一个星期洗一次,这就是批处置的思惟。

离线数据处置技术是大数据成长更早,今朝已经很是成熟的一套系统,最多见是Hadoop,它是一个可以对大量数据停止散布式处置的软件框架。以一种牢靠、高效、可伸缩的方式停止数据处置。焦点组件是HDFS、MapReduce、Hive。以HDFS停止数据存储,Mapreduce计较,Hive停止数据仓库扶植大概基于HiveSQL停止数据查询。

首要优点是:
  • 可以处置的数据量庞大,从企业建立以来的历史数据,都可以存储、计较处置、分析利用。
  • 数据更正确,对于一些买卖类的营业,存在定单状态流转,例如酒店,用户早高低了定单,可是下午有突发情况路程有变,取消了。在离线数据处置时,取当天定单成功状态,就不会计较在内。但对于数据漂移,即12点前下单,12点后取消的情况,就也没法统计到了,这类情形,在数据清洗使命处置时,可以采用全量更新的方式,逐日更新全数数据,取终极的定单状态。

弱点:

离线数据的弱点也很明显,就是慢。明天的数据,要隔天(明天)才能看获得。

一文搞懂:离线数据、实时数据究竟该若何挑选


2. 实时数据处置技术


实时数据处置,也称之为“流式”数据处置,数据像水流一样不时辰刻源源不竭地发生后,就立即被清洗处置。这就比如,穿的袜子脏了就洗,本日事本日毕,而不是都攒着。

实时数据通常为营业端即席发生(水源),经过Kafka等消息通道(水流管道)停止传输,操纵Storm或flink等实时组件停止消耗处置。例如,双十一统计每秒钟的定单数。

首要优点:

数据时效性强,可以做到秒级大概毫秒级时延,“所见即所得”。

弱点
  • 需要不停地停止数据计较,即每秒钟大概每分钟停止数据清洗和计较,集群资本消耗大。离线数据处置,使命一天跑一次,一次1小时,实时数据处置每分钟跑一次,一天24小时都在跑。
  • 数据周期短,由因而流式处置的方式,响应的组件在实时处置方面才能强,可是没法子存储太长时候的数据,假如容器只进不出,水毕竟会溢出。是以,一般数据计较的周期会限制在一周内居多。

一文搞懂:离线数据、实时数据究竟该若何挑选


三、离线、实时各自适用的场景是什么,若何挑选?


数据的利用处景总结下来实在就是两个,数据分析与数据利用。

1. 在分析方面,数据时效性的挑选根据是什么呢?


1)营业经营分析、财政分析正确性大于时效性

即对于数据分析的场景,更在意的是可以加倍正确地反应营业表示情况,即使T+1天后才可以看到数据也可以接管。特别是财政结算,通常为月度结算大概季度财报,正确性是第一位的。

2)预警监控类分析,需要追务实时性

假如一切的分析数据都是需要隔天赋能看到,必定是不可的。假如系统宕机了,大概办事异常致使产物不成用,用户赞扬才发现大概隔天数据分析才发现,带来的营业损失就没法挽回了。是以,还需要有实时的数据分析模块,对营业焦点目标、系统办事目标停止最小提早的预警监控。

所以,在数据分析场景下,离线数据为主,实时分析要有但不宜过度追务实时性。一般的数据可视化平台,有一个实时数据模块便可以了,其他的主题分析以离线数据为主。

2. 数据利用方面,数据时效性要求高于正确性


1)本性化保举,用户行为需要实时反应

你在阅读头条的时辰,对保举的内容点击了“不感爱好”,相关的内容很快就隐藏了。一样,你在淘宝上搜索或加购了某个产物,再看列表页时,保举的也都是相关内容。针对本性化保举的场景,就要做到数据的最小提早,假如等用户都退出APP了数据才计较完成更新,用户就流失掉了。

2)用户运营及营销场景

在用户运营场景中,流失用户召回、会员运营等活动中,对数据时效性要求并没那末高,例如你要对某个城市的下单用户停止短信营销(apppush),差池明天当全国单的用户营销影响也不大。

而对于实时的场景触达,就需要实时数据了,例如,用户翻开App,实时判定用户能否是新客(停止本次拜候未下过单),发放新客大礼包。

所以在CDP用户运营平台的标签扶植时,既需要有离线标签,也需要有实时标签。

3)挑选根据小结

数据时效性的挑选时,要看具体利用处景对正确性、时效性的要求,实时和离线数据的利用处景挑选可以参考下图:

一文搞懂:离线数据、实时数据究竟该若何挑选

一文搞懂:离线数据、实时数据究竟该若何挑选


四、总结


非论是离线数据还是实时数据终极都是为领会决营业场景下的题目,搞懂其不同和根基道理后,再去挑选究竟是实时还是离线,可以做到用最小的资本本钱告竣营业方针,而不是一味地追务实时,大概永久只能离线。

#专栏作家#


数据干饭人,微信号公众号:数据干饭人,大家都是产物司理专栏作家。专注数据中台产物范畴,覆盖开辟套件,数据资产与数据治理,BI与数据可视化,精准营销平台等数据产物。擅长大数据处理计划计划与产物计划设想。

本文原创公布于大家都是产物司理,未经作者答应,制止转载。

题图来自Unsplash,基于CC0协议

高端人脉微信群

高端人脉微信群

人脉=钱脉,我们相信天下没有聚不拢的人脉,扫码进群找到你所需的人脉,对接你所需的资源。

商业合作微信

商业合作微信

本站创始人微信,13年互联网营销经验,擅长引流裂变、商业模式、私域流量,高端人脉资源丰富。

精彩点评

相关推荐

终于有人把数据、信息、知识讲明白了

终于有人把数据、信息、知识讲明白了

导读:我们把关于信息处理的理论称为信息论,它是20世纪40年代从通信实践中发展并总结

各领域公开数据集下载

各领域公开数据集下载

整理了网上的公开数据集,分类下载如下,希望节约大家的时间。1.经济金融1.1.宏观经济

有哪些可以获取数据的网站?[大数据]

有哪些可以获取数据的网站?[大数据]

做数据可视化或者数据分析的朋友可能经常会碰到的问题就是有想法没有数据。想到我有几

数据增强(Data Augmentation)

数据增强(Data Augmentation)

我们常常会遇到数据不足的情况。比如,你遇到的一个任务,目前只有小几百的数据,然而

快速找到论文数据的19个方法

快速找到论文数据的19个方法

在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职

数据迷思2:辛普森悖论下的香港死亡数字

数据迷思2:辛普森悖论下的香港死亡数字

如果有两名篮球手A和B,本来,无论是两分球还是三分球,A都要比B投得准,但是一个赛季

最通俗易懂的理解什么是数据库

最通俗易懂的理解什么是数据库

1.什么是数据库呢?每个人家里都会有冰箱,冰箱是用来干什么的?冰箱是用来存放食物的

数据看中国vs世界:2021世界各国/地区薪资排名

数据看中国vs世界:2021世界各国/地区薪资排名

数据源:NUMBEO自从我的“randy77:数据看中国vs世界:2020年世界各国人均GDP最新排名

数据分析,这样才算读懂数据

数据分析,这样才算读懂数据

编辑导语:数据分析是让很多职场人头疼的一个话题,一张简简单单的图片上有几条曲线,

什么是大数据?大数据能做什么?

什么是大数据?大数据能做什么?

本篇文章主要为我们介绍了大数据的概念、发展以及相关应用。“Big Data is like teena

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系

编辑导语:作为一名数据小白,在日常学习和工作中经常会接触到数据。随着用户数据与业

北上广等70城楼市最新数据出炉,近40%城市二手房降价,深圳连跌3个月

北上广等70城楼市最新数据出炉,近40%城市二手房降价,深圳连跌3

8月16日,国家统计局发布了2022年7月70个大中城市商品住宅销售价格变动情况。数据显示

29省份常住人口数据出炉:浙江增量37万领跑全国,辽宁降幅最大

29省份常住人口数据出炉:浙江增量37万领跑全国,辽宁降幅最大

本文来源:时代周报 作者:阿力米热人口是国家发展的基础性、全局性、长期性和战略性

2022年我国数据产量达到6.6ZB 位列全球第二

2022年我国数据产量达到6.6ZB 位列全球第二

中新网7月23日电 (中新财经 吴涛)23日,在第五届数字中国建设峰会期间举行的大数据分

韩国最新数据:自去年4月至今年6月,访韩游客同比减少95.4%,中国游客锐减98.6%

韩国最新数据:自去年4月至今年6月,访韩游客同比减少95.4%,中

来源:环球时报【环球时报综合报道】受疫情影响,今年上半年访韩外国游客数量持续猛减

中国数据震惊西方!不服也不行

中国数据震惊西方!不服也不行

日前,国家统计局公布了中国一季度的实际GDP增长率,结果2022年1季度中国GDP实际增长

【数据分析】基本数据分析的7个步骤

【数据分析】基本数据分析的7个步骤

原文链接:知乎专栏目录:一、为什么要做一份数据报告二、制作数据报告的流程一、为什

数据 | 经历添加剂风波的海天味业市值蒸发超400亿

数据 | 经历添加剂风波的海天味业市值蒸发超400亿

文 | 李童 孟令稀编辑 | 陈臣自9月30日首度回应“双标”争议以来,海天味业市值已下跌

数据分析整体框架

数据分析整体框架

编辑导语:无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块,那么数

数据分析入门学习指南|零基础小白必看

数据分析入门学习指南|零基础小白必看

数据分析在如今的求职场上越来越重要。然而,让很多朋友困惑的是,我是没有编程基础的

商业洽谈 文章投递 寻求报道
电话咨询: 15924191378
关注微信