基础架构
去年发生的很多事依旧余波未平,例如流处理的重要性与日俱增,目前Spark已独占鳌头,但人们对竞争产品,例如 Flink 的关注也逐渐开始涌现。此外还有一的有趣的话题时不时地出现在人们的对话中:
SQL已经正式回归了
过去十多年来一直面对NoSQL技术“打压”的SQL数据库技术现已正式回归。Google最近发布了云服务版的 Spanner数据库 。Spanner和 CockroachDB (Spanner的开源版本)承诺提供一种高存活性、强一致性,可横向扩展的SQL数据库。Amazon发布的 Athena 与诸如 Snowflake 等产品类似,是一种大型的SQL数据引擎,可直接查询S3 Bucket中存储的数据。Google BigQuery、SparkSQL以及Presto也开始在企业领域占有了一席之地 – 这些都是SQL产品 。
数据虚拟化
在公有云的接受度方面有个有趣的趋势:数据虚拟化产品的使用率正在快速激增。较为古老的ETL流程需要移动海量数据(并且通常需要为数据集创建副本)并创建数据仓库,数据虚拟化技术使得企业可以 无需移动,在原地进行数据分析 ,借此提高速度和敏捷性。很多下一代数据分析产品供应商,现在均已同时提供数据虚拟化和数据准备产品,借此帮助客户更轻松地访问云中存储的数据。
数据管控和安全性
随着大数据在企业中的应用日益成熟,并且数据的种类和数量依然在与日俱增,有关数据管控之类的话题也变的越来越重要。很多企业已经选择通过“数据湖”的方式创建一个中央仓库,用于保存自己的所有数据。但除非人们知道数据湖中到底有什么,并且能按需访问分析工作所需的恰当数据,否则数据湖将全无用处。然而帮助用户轻松找到自己需要的数据,同时妥善地管理数据访问权,这一点并不容易实现。不仅需要考虑数据湖本身,管控的一个核心主题在于 让用户轻松访问可信赖的数据 ,借此满足企业中任何人的需求,同时必须要以安全、可审计的方式做到这一切。或大或小的供应商(Informatica、Collibra、Alation)纷纷提供功了数据编录、参考数据管理、数据辞典,以及数据帮助台等产品。