数据的特性
大数据
数据的来源
数据的增长,为什么会如此之快?
说到这里,就要回顾一下人类社会数据产生的几个重要阶段。
大致来说,是三个重要的阶段。
第一个阶段,就是计算机被发明之后的阶段。尤其是数据库被发明之后,使得数据管理的复杂度大大降低。各行各业开始产生了数据,从而被记录在数据库中。
这时的数据,以结构化数据为主(待会解释什么是“结构化数据”)。数据的产生方式,也是被动的。
第二个阶段,是伴随着互联网 2.0 时代出现的。互联网 2.0 的最重要标志,就是用户原创内容。
随着互联网和移动通信设备的普及,人们开始使用博客、facebook、youtube 这样的社交网络,从而主动产生了大量的数据。
第三个阶段,是感知式系统阶段。随着物联网的发展,各种各样的感知层节点开始自动产生大量的数据,例如遍布世界各个角落的传感器、摄像头。
经过了“被动-主动-自动”这三个阶段的发展,最终导致了人类数据总量的极速膨胀。
机器数据
机器数据中包含客户、用户、交易、应用程序、服务器、网络和手机设备所有活动和行为的明确记录。不仅仅包含日志。还包括配置、API 中的数据、消息队列、更改事件、诊断命令输出、工业系统呼叫详细信息记录和传感器数据等。计算机数以未知格式的阵列存储,监测和分析工具的传统集并未为多样性、速率、数据量、可变性设计。一个专为此独特类型数据设计的全新方法,必须可以快速诊断服务问题、检测复杂信息安全威胁、远程设备的健康状况和性能,以及说明合规性。
每个环境都有独特的机器数据空间,以下是一些示例。
数据类型 | 位置 | 它可以告诉您什么 |
---|---|---|
应用日志 | 本地日志文件、log4j、log4net、Weblogic、WebSphere、JBoss、.NET、PHP | 用户活动、欺诈检测、应用性能 |
业务流程日志 | 业务流程管理日志 | 跨渠道客户活动、购买、帐户变更以及问题报表 |
呼叫详细信息记录 | 呼叫详细信息记录 (CDR)、计费数据记录、事件数据记录均由电信和网络交换机所记录 | 计费、收入保证、客户保证、合作伙伴结算,营销智能 |
点击流数据 | Web 服务器、路由器、代理服务器和广告服务器 | 可用性分析、数字市场营销和一般调查 |
配置文件 | 系统配置文件 | 如何设置基础设施、调试故障、后门攻击、”定时炸弹”病毒 |
数据库审计日志 | 数据库日志文件、审计表 | 如何根据时间修改数据库数据以及如何确定修改人 |
文件系统审计日志 | 敏感数据存储在共享文件系统中 | 监测并审计敏感数据读取权限 |
管理并记录 API | 通过 OPSEC Log Export API (OPSEC LEA) 和其他 VMware 和 Citrix 供应商特定 API 的 Checkpoint 防火墙 | 管理数据和日志事件 |
消息队列 | JMS、RabbitMQ 和 AquaLogic | 调试复杂应用中的问题,并作为记录应用架构基础 |
操作系统度量、状态和诊断命令 | 通过命令行实用程序(例如 Unix 和 Linux 上的 ps 与 iostat 以及 Windows 上的性能监视器)显示的 CPU、内存利用率和状态信息 | 故障排除、分析趋势以发现潜在问题并调查安全事件 |
数据包/流量数据 | tcpdump 和 tcpflow 可生成 pcap 或流量数据以及其他有用的数据包级和会话级信息 | 性能降级、超时、瓶颈或可疑活动可表明网络被入侵或者受到远程攻击 |
SCADA 数据 | 监视控制与数据采集 (SCADA) | 识别 SCADA 基础结构中的趋势、模式和异常情况,并用于实现客户价值 |
传感器数据 | 传感器设备可以根据监测环境条件生成数据,例如气温、声音、压力、功率以及水位 | 水位监测、机器健康状态监测和智能家居监测 |
Syslog | 路由器、交换机和网络设备上的 Syslog | 故障排除、分析、安全审计 |
Web 访问日志 | Web 访问日志会报告 Web 服务器处理的每个请求 | Web 市场营销分析报表 |
Web 代理日志 | Web 代理记录用户通过代理发出的每个 Web 请求 | 监测并调查服务条款以及数据泄露事件 |
Windows 事件 | Windows 应用、安全和系统事件日志 | 使用业务关键应用、安全信息和使用模式检测问题, |
线上数据 | DNS 查找和记录,协议级信息,包括标头、内容以及流记录 | 主动监测应用性能和可用性、最终客户体验、事件调查、网络、威胁检测、监控和合规性 |
大数据存储与处理
大数据不仅仅意味着庞大的数据量,还意味着数据纬度之多。
数据仓库与数据治理
随着企业应用复杂性的上升和微服务架构的流行,数据正变得越来越以应用为中心。服务之间仅在必要时以接口或者消息队列方式进行数据交互,从而避免了构建单一数据库集群来支撑不断增长的业务需要。以应用为中心的数据持久化架构,在带来可伸缩性好处的同时,也给数据的融合计算带来了障碍。
由于数据散落在不同的数据库、消息队列、文件系统中,计算平台如果直接访问这些数据,会遇到可访问性和数据传输延迟等问题。在一些场景下,计算平台直接访问应用系统数据库会对系统吞吐造成显著影响,通常也是不被允许的。
依赖于 ETL,Data Pipeline 与数据仓库等不同层次的解决方案。
大数据的特点
行业里对大数据的特点,概括为 4 个 V。前面所说的庞大数据体量,就是 Volume(海量化)。除了 Volume 之外,剩下三个,分别是 Variety、Velocity、Value。
Variety(多样化)
数据的形式是多种多样的,包括数字(价格、交易数据、体重、人数等)、文本(邮件、网页等)、图像、音频、视频、位置信息(经纬度、海拔等),等等,都是数据。
数据又分为结构化数据和非结构化数据。
从名字可以看出,结构化数据,是指可以用预先定义的数据模型表述,或者,可以存入关系型数据库的数据。
例如,一个班级所有人的年龄、一个超市所有商品的价格,这些都是结构化数据。
而网页文章、邮件内容、图像、音频、视频等,都属于非结构话数据。
在互联网领域里,非结构化数据的占比已经超过整个数据量的 80%。
大数据,就符合这样的特点:数据形式多样化,且非结构化数据占比高。
Velocity(时效性)
大数据还有一个特点,那就是时效性。从数据的生成到消耗,时间窗口非常小。数据的变化速率,还有处理过程,越来越快。例如变化速率,从以前的按天变化,变成现在的按秒甚至毫秒变化。
我们还是用数字来说话:
就在刚刚过去的这一分钟,数据世界里发生了什么?
Email:2.04 亿封被发出
Google:200 万次搜索请求被提交
Youtube:2880 分钟的视频被上传
Facebook:69.5 万条状态被更新
Twitter:98000 条推送被发出
12306:1840 张车票被卖出
Value(价值密度)
最后一个特点,就是价值密度。
大数据的数据量很大,但随之带来的,就是价值密度很低,数据中真正有价值的,只是其中的很少一部分。
例如通过监控视频寻找犯罪分子的相貌,也许几 TB 的视频文件,真正有价值的,只有几秒钟。