首页 网站首页 商业信息 数据 查看内容

五分钟解读“大数据”

杭州共生网络 2022-10-19 13:59 6169人围观 数据

文章来历:鲜枣课堂(ID:xzclasscom)

大师好,明天,我们来聊聊大数据

五分钟解读“大数据”


这些年,大数据作为一个时兴概念,出现频次很高,关注度也很高。

对于很多人来说,当他第一次听到“大数据”这个词,会自但是然从字面上去了解——以为大数据就是大量的数据,大数据技术就是大量数据的存储技术。

可是,究竟并非如此。

大数据比设想中复杂。它不但是一项数据存储技术,而是一系列和海量数据相关的抽取、集成、治理、分析、诠释技术,是一个庞大的框架系统。

更进一步来说,大数据是一种全新的思维方式和贸易形式。

五分钟解读“大数据”


图片来自收集

明天这篇文章,就让我们花五分钟的时候,来深入领会一下,到底什么是大数据。

大数据的界说

首先,还是要重新审阅大数据的界说

行业里对大数据的界说有很多,有广义的界说,也有狭义的界说。

广义的界说,有点哲学味道——大数据,是指物理天下到数字天下的映照和提炼。经过发现其中的数据特征,从而做出提升效力的决议行为。

狭义的界说,是技术工程师给的——大数据,是经过获得存储分析,从大容量数据中挖掘代价的一种全新的技术架构。

相比力而言,我还是喜好技术界说,哈哈。

大师留意,关键词我都在上面原句加粗了哈!

要做什么?——获得数据、存储数据、分析数据

对谁做?——大容量数据

目标是什么?——挖掘代价

获得数据、存储数据、分析数据,这一系列的行为,都不算新奇。我们天天都在用电脑,天天都在干这个事。

例如,每月的月初,考勤治理员会获得每个员工的考勤信息,录入Excel表格,然后存在电脑里,统计分析有几多人早退、缺勤,然后扣TA人为。

可是,一样的行为,放在大数据身上,就行欠亨了。换言之,传统小我电脑,传统常规软件,有力应对的数据级别,才叫“大数据”。

大数据,到底有多大?

我们传统的小我电脑,处置的数据,是GB/TB级别。例如,我们的硬盘,现在凡是是1TB/2TB/4TB的容量。

TB、GB、MB、KB的关系,大师应当都很熟悉了:

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

而大数据是什么级别呢?PB/EB级别。

五分钟解读“大数据”


大部分人都没听过。实在也就是继续翻1024倍:

1 PB = 1024 TB (PB - petabyte)

1 EB = 1024 PB (EB - exabyte)

只是看这几个字母的话,貌似不是很直观。我来举个例子吧。

1TB,只需要一块硬盘可以存储。容量大约是20万张照片或20万首MP3音乐,大概是631903部《红楼梦》小说。

五分钟解读“大数据”


普通硬盘

1PB,需要大约2个机柜的存储装备。容量大约是2亿张照片或2亿首MP3音乐。假如一小我不停地听这些音乐,可以听上千年。。。

五分钟解读“大数据”


2个机柜

1EB,需要大约2000个机柜的存储装备。假如并排放这些机柜,可以连缀1.2千米那末长。假如摆放在机房里,需要21个标准篮球场那末大的机房,才能放得下。

五分钟解读“大数据”


21个篮球场

阿里、百度、腾讯这样的互联网巨头,数据量听说已经接近EB级。

五分钟解读“大数据”


阿里数据中心内景

EB还不是最大的。今朝全人类的数据量,是ZB级。

1 ZB = 1024 EB (ZB - zettabyte)

2011年,全球被建立和复制的数据总量是1.8ZB。

而到2022年,全球电子装备存储的数据,将到达35ZB。假如建一个机房来存储这些数据,那末,这个机房的面积将比42个鸟巢活动场还大。

五分钟解读“大数据”


数据量不但大,增加还很快——每年增加50%。

今朝的大数据利用,还没有到达ZB级,首要集合在PB/EB级别。

大数据的级别定位

1 KB = 1024 B (KB - kilobyte)

1 MB = 1024 KB (MB - megabyte)

1 GB = 1024 MB (GB - gigabyte)

1 TB = 1024 GB (TB - terabyte)

1 ZB = 1024 EB (ZB - zettabyte)

数据的来历

数据的增加,为什么会如此之快?

说到这里,就要回首一下人类社会数据发生的几个重要阶段。

大致来说,是三个重要的阶段。

第一个阶段,就是计较机被发现以后的阶段。特别是数据库被发现以后,使得数据治理的复杂度大大下降。各行各业起头发生了数据,从而被记录在数据库中。这时的数据,以结构化数据为主(待会诠释什么是“结构化数据”)。数据的发生方式,也是被动的。

五分钟解读“大数据”


天下上第一台通用计较机-ENIAC

第二个阶段,是陪伴着互联网2.0时代出现的。互联网2.0的最重要标志,就是用户原创内容。随着互联网和移动通讯装备的提高,人们起头利用博客、facebook、youtube这样的交际收集,从而自动发生了大量的数据。

五分钟解读“大数据”


第三个阶段,是感知式系统阶段。随着物联网的成长,各类百般的感知层节点起头自动发生大量的数据,例如遍及天下各个角落的传感器、摄像头。

五分钟解读“大数据”


经过了“被动-自动-自动”这三个阶段的成长,终极致使了人类数据总量的极速收缩。

大数据的4Vs

行业里对大数据的特点,概括为4个V。前面所说的庞大数据体量,就是Volume(海量化)。除了Volume之外,剩下三个,别离是Variety、Velocity、Value。

我们一个一个来先容。

  • Variety(多样化)

数据的形式是多种多样的,包括数字(价格、买卖数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。

数据又分为结构化数据非结构化数据

从名字可以看出,结构化数据,是指可以用预先界说的数据模子表述,大概,可以存入关系型数据库的数据。

五分钟解读“大数据”


结构化数据

例如,一个班级一切人的年龄、一个超市一切商品的价格,这些都是结构化数据。

而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。

在互联网范畴里,非结构化数据的占比已经跨越全部数据量的80%

大数据,就合适这样的特点:数据形式多样化,且非结构化数据占比高。

  • Velocity(时效性)

大数据还有一个特点,那就是时效性。从数据的天生到消耗,时候窗口很是小。数据的变化速度,还有处置进程,越来越快。例如变化速度,从之前的按天变化,酿成现在的按秒甚至毫秒变化。

我们还是用数字来措辞:

就在刚刚曩昔的这一分钟,数据天下里发生了什么?

Email:2.04亿封被发出

Google:200万次搜索请求被提交

Youtube:2880分钟的视频被上传

Facebook:69.5万条状态被更新

Twitter:98000条推送被发出

12306:1840张车票被卖出

……

怎样样?能否是瞬息万变?

  • Value(代价密度)

最初一个特点,就是代价密度。

大数据的数据量很大,但随之带来的,就是代价密度很低,数据中真正有代价的,只是其中的很少一部分。

例如经过监控视频寻觅犯罪份子的边幅,也许几TB的视频文件,真正有代价的,只要几秒钟。

五分钟解读“大数据”


2022年美国波士顿爆炸案,现场调取了10TB的监控数据(包括移动基站的通讯记录,四周商铺、加油站、报摊的监控录像以及自愿者供给的影象材料),终极找到了怀疑犯的一张照片。

大数据的代价

适才说到代价密度,也就说到了大数据的焦点本质,那就是代价

人类提出大数据、研讨大数据的首要目标,就是为了挖掘大数据里面的代价。

大数据,究竟有什么代价?

早在1980年,著名未来学家阿尔文·托夫勒在他的著作《第三次浪潮》中,就明白提出:“数据就是财富”,而且,将大数据称为“第三次浪潮的华彩乐章”。

五分钟解读“大数据”


  • 第一次浪潮:农业阶段,约1万年前起头

  • 第二次浪潮:产业阶段,17世纪末起头

  • 第三次浪潮:信息化阶段,20世纪50年月前期起头

进入21世纪以后,随着前面所说的第二第三阶段的成长,移动互联网突起,存储才能和云计较才能奔腾,大数据起头落地,也引发了越来越多的重视。

2012年的天下经济论坛指出:“数据已经成为一种新的经济资产种别,就像货币和黄金一样”。这无疑将大数据的代价推到了史无前例的高度层面上。

现在,大数据利用起头走进我们的生活,影响我们的衣食住行。

五分钟解读“大数据”


之所以大数据会有这么快的成长,就是由于越来越多的行业和企业,起头熟悉到大数据的代价,起头试图介入挖掘大数据的代价。

归纳来说,大数据的代价首要来自于两个方面:

1 帮助企业领会用户

大数据经过相关性分析,将客户和产物、办事停止关系串联,对用户的偏好停止定位,从而供给更精准、更有导向性的产物和办事,提升销售业绩。

典型的例子就是电商

像阿里淘宝这样的电子商务平台,堆集了大量的用户采办数据。在早期的时辰,这些数据都是累赘和负担,存储它们需要大量的硬件本钱。可是,现在这些数据都是阿里最贵重的财富。

经过这些数据,可以分析用户行为,精准定位方针客群的消耗特点、品牌偏好、地域散布,从而指导商家的运营治理、品牌定位、推行营销等。

五分钟解读“大数据”


大数据可以对业绩发生间接影响。它的效力和正确性,远远跨越传统的用户调研。

除了电商,包括能源、影视、证券、金融、农业、产业、交通运输、公同奇迹等,都是大数据的用武之地。

五分钟解读“大数据”


大数据甚至可以帮助竞选总统

2 帮助企业领会自己

除了帮助领会用户之外,大数据还能帮助领会自己。

企业生产经营需要大量的资本,大数据可以分析和锁定资本的具体情况,例如储量散布和需求趋向。这些资本的可视化,可以帮助企业治理者更直观地领会企业的运作状态,更快地发现题目,实时调剂运营战略,下降经营风险。

总而言之,“知己知彼,攻无不克”。大数据,就是为决议办事的

大数据和云计较

说到这里,我们要回答一个很多民气里都存在的迷惑——大数据和云计较之间,到底有什么关系?

可以这么诠释:数据自己是一种资产,而云计较,则是为挖掘资产代价供给合适的工具。

从技术上,大数据是依靠于云计较的。云计较里面的海量数据存储技术、海量数据治理技术、散布式计较模子等,都是大数据技术的根本。

云计较就像是挖掘机,大数据就是矿山。假如没有云计较,大数据的代价就发挥不出来。

相反的,大数据的处置需求,也刺激了云计较相关技术的成长和落地。

也就是说,假如没有大数据这座矿山,云计较这个挖掘机,很多强悍的功用都成长不起来。

套用一句老话——云计较和大数据,两者是相辅相成的。

大数据和物联网(5G)

第二个题目,大数据和物联网有什么关系?

这个题目我感觉大师应当可以很快想大白,前面实在也提到了。

物联网就是“物与物相互毗连的互联网”。物联网的感知层,发生了海量的数据,将会极大地促进大数据的成长。

一样,大数据利用也发挥了物联网的代价,反向刺激了物联网的利用需求。越来越多的企业,发觉可以经过物联网大数据获得代价,就会愿意投资扶动物联网。

实在这个题目也可以进一步延长为“大数据和5G之间的关系”

行将到来的5G,经过提升毗连速度,提升了“人联网”的感知,也促进了人类自动缔造数据。

另一方面,它更多是为“物联网”办事的。包括低延时、海量终端毗连等,都是物联网场景的需求。

5G刺激物联网的成长,而物联网刺激大数据的成长。一切通讯根本设备的强大,都是为大数据突起摊平门路。

大数据的产业链

接下来再说说大数据的产业链。

大数据的产业链,和大数据的处置流程是慎密相关的。简单来说,就是生产数据、聚合数据、分析数据、消耗数据。

每个环节,都有响应的脚色玩家。以下图:

五分钟解读“大数据”


从今朝的情况来看,国外厂商在大数据产业占据了较大的份额,特别是上游范畴,根基上都是国外企业。国内IT企业相比而言,存在较大的差异。

五分钟解读“大数据”


大数据相关重点范畴及企业(技术)

大数据的应战

说了那末多大数据的好话,并不代表大数据是完善的。

大数据也面临着很多应战。

除了数据治理技术难度之外,大数据的最大应战,就是平安

数据是资产,也是隐私。没有人愿意自己的隐私被表露,所以,人们对自己的隐私庇护越来越重视。政府也在不竭增强对百姓隐私权的庇护,出台了很多法令。

五分钟解读“大数据”


欧盟在2022年出台了有史以来最严厉的GDPR(《一般数据庇护法案》),把收集数据庇护上升到史无前例的高度

在这类情况下,企业获得用户数据,就需要稳重斟酌,能否合适伦理和法令。一旦违法,将支出极为繁重的价格。

此外,即使企业正当获得数据,也要担忧能否会被恶意进犯和窃取。这里面的风险也是不容轻忽的。

除了平安之外,大数据还要面临能耗等方面的题目。

换言之,假如不能很好地庇护和操纵手里的大数据,那末它就是一个烫手的山芋,有还不如没有。

高端人脉微信群

高端人脉微信群

人脉=钱脉,我们相信天下没有聚不拢的人脉,扫码进群找到你所需的人脉,对接你所需的资源。

商业合作微信

商业合作微信

本站创始人微信,13年互联网营销经验,擅长引流裂变、商业模式、私域流量,高端人脉资源丰富。

精彩点评

查看全部评论>>

相关推荐

终于有人把数据、信息、知识讲明白了

终于有人把数据、信息、知识讲明白了

导读:我们把关于信息处理的理论称为信息论,它是20世纪40年代从通信实践中发展并总结

各领域公开数据集下载

各领域公开数据集下载

整理了网上的公开数据集,分类下载如下,希望节约大家的时间。1.经济金融1.1.宏观经济

有哪些可以获取数据的网站?[大数据]

有哪些可以获取数据的网站?[大数据]

做数据可视化或者数据分析的朋友可能经常会碰到的问题就是有想法没有数据。想到我有几

数据增强(Data Augmentation)

数据增强(Data Augmentation)

我们常常会遇到数据不足的情况。比如,你遇到的一个任务,目前只有小几百的数据,然而

快速找到论文数据的19个方法

快速找到论文数据的19个方法

在这个用数据说话的时代,能够打动人的往往是用数据说话的理性分析,无论是对于混迹职

数据迷思2:辛普森悖论下的香港死亡数字

数据迷思2:辛普森悖论下的香港死亡数字

如果有两名篮球手A和B,本来,无论是两分球还是三分球,A都要比B投得准,但是一个赛季

最通俗易懂的理解什么是数据库

最通俗易懂的理解什么是数据库

1.什么是数据库呢?每个人家里都会有冰箱,冰箱是用来干什么的?冰箱是用来存放食物的

数据看中国vs世界:2021世界各国/地区薪资排名

数据看中国vs世界:2021世界各国/地区薪资排名

数据源:NUMBEO自从我的“randy77:数据看中国vs世界:2020年世界各国人均GDP最新排名

数据分析,这样才算读懂数据

数据分析,这样才算读懂数据

编辑导语:数据分析是让很多职场人头疼的一个话题,一张简简单单的图片上有几条曲线,

什么是大数据?大数据能做什么?

什么是大数据?大数据能做什么?

本篇文章主要为我们介绍了大数据的概念、发展以及相关应用。“Big Data is like teena

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系(一)

10分钟带你了解数据库、数据仓库、数据湖、数据中台的区别与联系

编辑导语:作为一名数据小白,在日常学习和工作中经常会接触到数据。随着用户数据与业

北上广等70城楼市最新数据出炉,近40%城市二手房降价,深圳连跌3个月

北上广等70城楼市最新数据出炉,近40%城市二手房降价,深圳连跌3

8月16日,国家统计局发布了2022年7月70个大中城市商品住宅销售价格变动情况。数据显示

29省份常住人口数据出炉:浙江增量37万领跑全国,辽宁降幅最大

29省份常住人口数据出炉:浙江增量37万领跑全国,辽宁降幅最大

本文来源:时代周报 作者:阿力米热人口是国家发展的基础性、全局性、长期性和战略性

2022年我国数据产量达到6.6ZB 位列全球第二

2022年我国数据产量达到6.6ZB 位列全球第二

中新网7月23日电 (中新财经 吴涛)23日,在第五届数字中国建设峰会期间举行的大数据分

韩国最新数据:自去年4月至今年6月,访韩游客同比减少95.4%,中国游客锐减98.6%

韩国最新数据:自去年4月至今年6月,访韩游客同比减少95.4%,中

来源:环球时报【环球时报综合报道】受疫情影响,今年上半年访韩外国游客数量持续猛减

中国数据震惊西方!不服也不行

中国数据震惊西方!不服也不行

日前,国家统计局公布了中国一季度的实际GDP增长率,结果2022年1季度中国GDP实际增长

【数据分析】基本数据分析的7个步骤

【数据分析】基本数据分析的7个步骤

原文链接:知乎专栏目录:一、为什么要做一份数据报告二、制作数据报告的流程一、为什

数据 | 经历添加剂风波的海天味业市值蒸发超400亿

数据 | 经历添加剂风波的海天味业市值蒸发超400亿

文 | 李童 孟令稀编辑 | 陈臣自9月30日首度回应“双标”争议以来,海天味业市值已下跌

数据分析整体框架

数据分析整体框架

编辑导语:无论是产品还是运营,数据分析都是其日常工作中不可忽略的一个板块,那么数

数据分析入门学习指南|零基础小白必看

数据分析入门学习指南|零基础小白必看

数据分析在如今的求职场上越来越重要。然而,让很多朋友困惑的是,我是没有编程基础的

商业洽谈 文章投递 寻求报道
电话咨询: 15924191378
关注微信