数据的特性

大数据

数据的来源

数据的增长,为什么会如此之快?

说到这里,就要回顾一下人类社会数据产生的几个重要阶段。

大致来说,是三个重要的阶段。

第一个阶段,就是计算机被发明之后的阶段。尤其是数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。

这时的数据,以结构化数据为主(待会解释什么是“结构化数据”)。数据的产生方式,也是被动的。

第二个阶段,是伴随着互联网 2.0 时代出现的。互联网 2.0 的最重要标志,就是用户原创内容。

随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube 这样的社交网络,从而主动产生了大量的数据。

第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。

经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。

机器数据

机器数据中包含客户、用户、交易、应用程序、服务器、网络和手机设备所有活动和行为的明确记录。不仅仅包含日志。还包括配置、API 中的数据、消息队列、更改事件、诊断命令输出、工业系统呼叫详细信息记录和传感器数据等。计算机数以未知格式的阵列存储,监测和分析工具的传统集并未为多样性、速率、数据量、可变性设计。一个专为此独特类型数据设计的全新方法,必须可以快速诊断服务问题、检测复杂信息安全威胁、远程设备的健康状况和性能,以及说明合规性。

每个环境都有独特的机器数据空间,以下是一些示例。

数据类型 位置 它可以告诉您什么
应用日志 本地日志文件、log4j、log4net、Weblogic、WebSphere、JBoss、.NET、PHP 用户活动、欺诈检测、应用性能
业务流程日志 业务流程管理日志 跨渠道客户活动、购买、帐户变更以及问题报表
呼叫详细信息记录 呼叫详细信息记录 (CDR)、计费数据记录、事件数据记录均由电信和网络交换机所记录 计费、收入保证、客户保证、合作伙伴结算,营销智能
点击流数据 Web 服务器、路由器、代理服务器和广告服务器 可用性分析、数字市场营销和一般调查
配置文件 系统配置文件 如何设置基础设施、调试故障、后门攻击、”定时炸弹”病毒
数据库审计日志 数据库日志文件、审计表 如何根据时间修改数据库数据以及如何确定修改人
文件系统审计日志 敏感数据存储在共享文件系统中 监测并审计敏感数据读取权限
管理并记录 API 通过 OPSEC Log Export API (OPSEC LEA) 和其他 VMware 和 Citrix 供应商特定 API 的 Checkpoint 防火墙 管理数据和日志事件
消息队列 JMS、RabbitMQ 和 AquaLogic 调试复杂应用中的问题,并作为记录应用架构基础
操作系统度量、状态和诊断命令 通过命令行实用程序(例如 Unix 和 Linux 上的 ps 与 iostat 以及 Windows 上的性能监视器)显示的 CPU、内存利用率和状态信息 故障排除、分析趋势以发现潜在问题并调查安全事件
数据包/流量数据 tcpdump 和 tcpflow 可生成 pcap 或流量数据以及其他有用的数据包级和会话级信息 性能降级、超时、瓶颈或可疑活动可表明网络被入侵或者受到远程攻击
SCADA 数据 监视控制与数据采集 (SCADA) 识别 SCADA 基础结构中的趋势、模式和异常情况,并用于实现客户价值
传感器数据 传感器设备可以根据监测环境条件生成数据,例如气温、声音、压力、功率以及水位 水位监测、机器健康状态监测和智能家居监测
Syslog 路由器、交换机和网络设备上的 Syslog 故障排除、分析、安全审计
Web 访问日志 Web 访问日志会报告 Web 服务器处理的每个请求 Web 市场营销分析报表
Web 代理日志 Web 代理记录用户通过代理发出的每个 Web 请求 监测并调查服务条款以及数据泄露事件
Windows 事件 Windows 应用、安全和系统事件日志 使用业务关键应用、安全信息和使用模式检测问题,
线上数据 DNS 查找和记录,协议级信息,包括标头、内容以及流记录 主动监测应用性能和可用性、最终客户体验、事件调查、网络、威胁检测、监控和合规性

大数据存储与处理

大数据不仅仅意味着庞大的数据量,还意味着数据纬度之多。

数据仓库与数据治理

随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心。服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数据库集群来支撑不断增长的业务需要。以应用为中心的数据持久化架构,在带来可伸缩性好处的同时,也给数据的融合计算带来了障碍。

由于数据散落在不同的数据库、消息队列、文件系统中,计算平台如果直接访问这些数据,会遇到可访问性和数据传输延迟等问题。在一些场景下,计算平台直接访问应用系统数据库会对系统吞吐造成显著影响,通常也是不被允许的。

依赖于 ETL,Data Pipeline 与数据仓库等不同层次的解决方案。

大数据的特点

行业里对大数据的特点,概括为 4 个 V。前面所说的庞大数据体量,就是 Volume(海量化)。除了 Volume 之外,剩下三个,分别是 Variety、Velocity、Value。

Variety(多样化)

数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。

数据又分为结构化数据和非结构化数据。

从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。

例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。

而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。

在互联网领域里,非结构化数据的占比已经超过整个数据量的 80%。

大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。

Velocity(时效性)

大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。

我们还是用数字来说话:

就在刚刚过去的这一分钟,数据世界里发生了什么?

Email:2.04 亿封被发出

Google:200 万次搜索请求被提交

Youtube:2880 分钟的视频被上传

Facebook:69.5 万条状态被更新

Twitter:98000 条推送被发出

12306:1840 张车票被卖出

Value(价值密度)

最后一个特点,就是价值密度。

大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。

例如通过监控视频寻找犯罪分子的相貌,也许几 TB 的视频文件,真正有价值的,只有几秒钟。

上一页