阿里云管理控制台（阿里网盘优质资源分享）

小多多 • 2021年12月13日下午8:07 • 杂谈

背景

数据湖当前在国内外是比较热的方案，MarketsandMarkets市场调研显示预计数据湖市场规模在2024年会从2019年的79亿美金增长到201亿美金。一些企业已经构建了自己的云原生数据湖方案，有效解决了业务痛点；还有很多企业在构建或者计划构建自己的数据湖，Gartner 2020年发布的报告显示目前已经有39%的用户在使用数据湖，34%的用户考虑在1年内使用数据湖。随着对象存储等云原生存储技术的成熟，一开始大家会先把结构化、半结构化、图片、视频等数据存储在对象存储中。当需要对这些数据进行分析时，发现缺少面向分析的数据管理视图，在这样的背景下业界在面向云原生数据湖的元数据管理技术进行了广泛的探索和落地。

一、元数据管理面临的挑战

1、什么是数据湖

Wikipedia上说数据湖是一类存储数据自然/原始格式的系统或存储，通常是对象块或者文件，包括原始系统所产生的原始数据拷贝以及为了各类任务而产生的转换数据，包括来自于关系型数据库中的结构化数据（行和列）、半结构化数据（如CSV、日志、XML、JSON）、非结构化数据（如email、文档、PDF、图像、音频、视频）。

从上面可以总结出数据湖具有以下特性：

数据来源：原始数据、转换数据
数据类型：结构化数据、半结构化数据、非结构化数据、二进制
数据湖存储：可扩展的海量数据存储服务

2、数据湖分析方案架构

当数据湖只是作为存储的时候架构架构比较清晰，在基于数据湖存储构建分析平台过程中，业界进行了大量的实践，基本的架构如下：

可以看出在对接多种数据源以及数据集成方式方面提供了友好的开放性，目前Apache Hudi原生对接了DLA Meta；在分析生态方面支持业界通用的数据模型标准(Hive Metastore)；同时服务本身具备多租户、可扩展的能力满足企业级的需求。

三、元数据管理核心技术解析

下面主要介绍DLA Meta关于元数据多租户、元数据发现、海量分区管理三方面的技术实践，这几块也是目前业界核心关注和探索的问题。

1、元数据多租户管理

在大数据体系中，使用Hive MetaStore （下面简称HMS）作为元数据服务是非常普遍的使用方法。DLA 作为多租户的产品，其中一个比较重要的功能就是需要对不同用户的元数据进行隔离，而且需要拥有完整的权限体系；HMS 本身是不支持多租户和权限体系。阿里云DLA 重写了一套Meta 服务，其核心目标是兼容 HMS、支持多租户、支持完整的权限体系、同时支持存储各种数据源的元数据。

多租户实现

为了实现多租户功能，我们把每张库的元数据和阿里云的UID 进行关联，而表的元数据又是和库的元信息关联的。所以基于这种设计每张库、每张表都是可以对应到具体的用户。当用户请求元数据的时候，除了需要传进库名和表名，还需要将请求的阿里云UID 带进来，再结合上述关联关系就可以拿到相应用户的元数据。每个元数据的API 都有一个UID 参数，比如如果我们需要通过getTable 获取某个用户的表信息，整个流程如下：

由于DLA Presto可以兼容MySQL 权限操作相关，为了降低用户的使用成本，当前DLA Meta 的权限是与MySQL 权限是兼容的，所以如果你对MySQL 的权限体系比较了解，那么这些知识是可以直接运用到DLA 的。

2、元数据发现Schema推断技术

元数据发现的定位：为OSS等存储上面的数据文件自动发现和构建表、字段、分区，并感知新增表&字段&分区等元数据信息，方便计算与分析。

文件分类器：由于文件在OSS上面是按照目录存储的，当通过Schema识别器识别出了叶子节点目录下面的Schema情况后，如果每个叶子节点目录创建一张表，表会很多，管理复杂且难以分析。因此需要有一套文件分类器来聚合生成最终的表。且支持增量文件的Schema变更，比如添加字段、添加分区等。下面是整个分类算法过程，根据目录树形的结构，第一步先深度遍历并结合“文件Schema识别器”在每个节点聚合子节点的Schema是否兼容，如果兼容则把子目录向上合并为分区，如果不兼容则每个子目录创建一张表。经过第一步后每个节点是否可以创建表、分区信息，以及合并后的Schema都会存储在节点上面；第二步再次遍历可以生成对应的Meta创建事件。

3、海量分区处理技术

分区投影

在大数据场景中，分区是用于提升性能非常常见的方法，合理划分分区有利于计算引擎过滤掉大量无用的数据从而提升计算性能。但是如果分区非常多，比如单表数百万的分区，那么计算引擎从元数据服务查询分区所需要的时间就会上升，从而使得查询的整体时间变长。比如我们客户有张表有130多万分区，一个简单的分区过滤查询元数据访问这块就花了4秒以上的时间，而剩下的计算时间却不到1秒！

针对这个问题，我们设计开发出了一种叫做“分区映射”的功能，分区映射让用户指定分区的规则，然后具体每个SQL查询的分区会直接通过SQL语句中的查询条件结合用户创建表时候指定的规则直接在计算引擎中计算出来，从而不用去查询外部的元数据，避免元数据爆炸带来的性能问题。经测试，上述场景下，利用分区投影生成分区需要的时间降为1秒以下，大大提升查询效率。

从上图可以看到DLA Meta中会存储库、表、分区的信息，使用当前方案OSS上面分区目录对应的分区信息会存储在DLA Meta服务中，当分析引擎访问这张表的时候，会通过DLA Meta服务读取大量的分区信息，这些分区信息会从底层的RDS中读出，这样会有一定的访问开销。如果使用到DLA Lakehouse方案，可以将大量的分区映射信息单独存储在基于OSS对象的Hudi Metatable中，Metatable底层基于HFile支持更新删除，通过KV存储方式提高分区查询效率。这样分析引擎在访问分区表的时候，可以只在Meta中读取库、表轻量的信息，分区信息可以通过读取OSS的对象获取。目前该方案还在规划中，DLA线上还不支持。

四、云原生数据湖最佳实践

最佳实践，以DLA为例子。DLA致力于帮助客户构建低成本、简单易用、弹性的数据平台，比传统Hadoop至少节约50%的成本。其中DLA Meta支持云上15+种数据数据源（OSS、HDFS、DB、DW）的统一视图，引入多租户、元数据发现，追求边际成本为0，免费提供使用。DLA Lakehouse基于Apache Hudi实现，主要目标是提供高效的湖仓，支持CDC及消息的增量写入，目前这块在加紧产品化中。DLA Serverless Presto是基于Apache PrestoDB研发的，主要是做联邦交互式查询与轻量级ETL。DLA支持Spark主要是为在湖上做大规模的ETL，并支持流计算、机器学习；比传统自建Spark有着300%的性价比提升，从ECS自建Spark或者Hive批处理迁移到DLA Spark可以节约50%的成本。基于DLA的一体化数据处理方案，可以支持BI报表、数据大屏、数据挖掘、机器学习、IOT分析、数据科学等多种业务场景。

小多多创始人

0 0

杂谈

一个人开店最赚钱的方法(怎么能挣钱快点)

街谈很多人都在找“搞钱”的路子，最近媒体聚焦的猜歌名挣钱，就是其中一种。这种套路并不新鲜，像看视频赚钱，还有走路运动赚钱、知识问答赚钱、问卷调查赚钱等等，不一而足。真能挣到钱倒也…

小多多
2021年12月13日
杂谈

生产锂电池的上市公司有哪些？锂电池概念股票一览表

锂电池上市公司股票排名： 1、宁德时代（300750）：全球领先的动力电池企业，连续三年全球排名前三位，2017年出货量全球第一，是配套车型最多的动力电池厂商;2018年7月投资约…

海淘直接
2022年6月22日
杂谈

阿里旗下的app有哪些（阿里投资快手和抖音）

记者 | 程悦编辑 | 快手宣布组织架构调整，高级副总裁严强即将离职9月28日，快手高级副总裁严强发内部信表示由于“个人及家庭原因”，自己即将离职。在今年7月份的架构调整中，严强曾…

小多多
2021年12月10日
商务谈判的技巧与策略，从4个维度全面分析

一、商务谈判概述 1.谈判特征 2.原则 3.谈判三要素二、商务谈判准备与过程 1.收集各类信息 2.相关安排 3.目标的确立 4.战略的选择 5.开局 6.讨价还价 7.谈判僵…

季候
2022年4月8日 • 杂谈
杂谈

1p和大1p空调有的区别(1p空调功率一般多大)

不知道从什么时候开始，中央空调就被刻上了“高端家电”的标签，往往只有预算充足，又或者是大户型的家庭，才会选择安装中央空调。预算不多的小户型家庭（绝大多数家庭），一般只会安装普通空调…

小多多
2021年12月13日
杂谈

dou+投放最佳时间(抖音投放100元有效果吗)

抖音上热门100元能涨多少粉丝？在抖音短视频中，很多朋友都收到过100元上热门的广告宣传，那么100元的作用究竟有多大呢，是不是真的有效果呢，今天小编就为大家分享关于抖音上热门10…

小多多
2021年12月13日
笔记本散热有问题(华为电脑散热不好怎么办)

笔记本散热一直让人头疼，但台式机也没那么轻松，不少台式机的温度都在90度以上，那么如何才能让台式机的散热效果更好呢？今天就给大家分享优化组装机散热能力的几个方法。箱最好有防尘网罩…

小多多
杂谈 2021年12月13日
视频号制作视频步骤(怎么打开视频号入口)

众所周知，视频号在流量入口上做了很大的调整，增加了“搜一搜”的布局，“看一看”精选栏目顶部也新增了视频号布局。视频号在“搜一搜”的入口其实腾讯很清楚，视频号背靠着微信，最不缺的…

小多多
2021年12月13日 • 杂谈
窗帘品牌排行(十大品牌窗帘布艺加盟哪个品牌好)

窗帘、布艺好的品牌加盟，为什么选择特耐软装？ 1. 单纯的窗帘、布艺其实已经并不好做，很多都已经转型为偏重于设计的软装，特耐软装有27年的历史，首先在布艺、窗帘生产上有丰富的工艺、…

小多多
杂谈 2021年12月13日
当淘宝店铺流量出现下滑的情况，我们该从哪几个方面去做优化调整

其实都知道这种情况比较正常，但是心理的落差感还是比较强烈的，那今天我就针对这个问题来跟大家聊一下。首先我们必须要了解店铺流量下滑背后所隐藏的问题： 1. 市场大盘的波动对店铺的影…

小多多
2021年12月13日 • 杂谈
jabra蓝牙耳机使用教程(捷波朗蓝牙耳机配对)

说到捷波朗自己是有情怀在里面的，早在几年前TWS耳机还没有普及的时候，由于自己平时开车的场景较多，就曾入手过一款捷波朗的单耳蓝牙耳机，清晰的音质优秀的降噪，至今让我历历在目，而且经…

小多多
2021年12月13日 • 杂谈
下载应用商店并安装到手机的方法(手机应用商店手机版)

对于从安卓2.X系统开始使用的用户来说，我相信绝大部分应该都有过自己的手机折腾历史的了，特别是看超能网文章的人，即便没有刷过机，第三方应用商店、第三方主题应该是折腾过不少的。只不过…

小多多
杂谈 2021年12月13日
ico在线转换png（iconv格式转换软件推荐）

产生需求的原因：今天想要在网页标题的左侧添加图标，效果图如下： 2.在画图工具的左上方，点击文件选项——选择另存为，效果图如下： 4.生成.bmp文件，改后缀的作用可以理解为jp…

小多多
2021年12月13日 • 杂谈
视频号制作视频的办法(微信视频号怎么开通直播)

微信视频号自1月21日上线以来受到不少关注，根据两个多月的观察，为即将或已经入局视频号的你整理了以下七点重要内容： 1、什么是视频号？ 2、如何开通视频号？ 3、受欢迎的内容有哪些…

小多多
杂谈 2021年12月13日
谷歌公开裸眼3D全息视频聊天技术：8k屏幕、4块GPU和一堆摄像头

机器之心报道编辑：陈萍、杜伟这个神奇的「聊天室」，让你和远在天边的他们近距离碰面，互相问候、眼神交流，就像真的互相见到一样。今年 5 月举行的谷歌 I/O 大会上，在谷歌园区…

小多多
2021年12月13日 • 杂谈

发表回复

登录后才能评论

阿里云管理控制台（阿里网盘优质资源分享）

背景

一、元数据管理面临的挑战

三、元数据管理核心技术解析

四、云原生数据湖最佳实践

相关推荐

发表回复