阿里云datav数据可视化(datav数据可视化工具)

1 引言

当前全球的数据量正在迅速增长,预计在2025年将会从2018年的33ZB增加至175ZB。互联网全球化、移动设备普及化、云计算存储低成本化、物质世界网络化,都在为“数据大爆发”储蓄能量,大数据已成为继云计算、物联网之后IT产业又一次颠覆性的技术变革[1]。大数据技术和产业的蓬勃发展,使数据成为了重要的生产力,同时也使当今社会的生产关系发生了变革。

大数据时代的战略意义不仅在于掌握庞大的数据信息,还在于发现和理解信息内容及信息与信息之间的关系[2]。因此,数据分析成为挖掘数据价值的关键步骤。本文从数据可视化、自动化数据建模和情景分析出发,介绍三大数据分析领域的关键技术现状,梳理各领域的前沿工具及应用场景,总结数据可视化、自动化建模和情景分析等数据分析技术和工具的发展趋势。

2 数据分析技术现状

大数据分析是指在强大的支撑平台上运行分析算法,并发现隐藏在大数据中潜在价值的过程[3] 。从异构数据源抽取和集成的数据构成了数据分析的原始数据,而大数据分析的核心问题是如何对这些数据进行有效表达、解释和学习[4]。因此,目前学术界一般认为数据可视化、自动化数据建模和情景感知是数据分析过程中的核心环节。

2.1 数据可视化

数据可视化指利用人眼的感知能力对数据进行交互的可视化表达以增强认知的技术[7]。数据可视化一般包括科学可视化、信息可视化和可视化分析3类[5]。科学可视化主要是实现对于比较具体的数据可视化,侧重于那些有自然几何结构的数据,如磁场、地理结构等;信息可视化侧重于抽象数据的可视化,如树形图、柱状图;可视化分析指在数据可视化中结合了数据挖掘等知识[6],如分析推理、视觉呈现和交互等。本文聚焦于信息可视化,以及可视化分析中的数据可视化交互。

Card等人对信息可视化(Information Visualization)的定义为对抽象数据使用计算机支持的、交互的、可视化的表示形式以增强认知能力[8],侧重于通过可视化图形呈现数据中隐含的信息和规律[9]。

数据可视化起源于18世纪,William Playfair在出版的书籍《The Commercial and Political Atlas》中第一次使用了柱形图和折线图[10] ;在随后的200多年间,直方图、饼图、折线图等广泛地应用于军事、工业、科学领域,但数据可视化技术并未发生显著进步;直至20世纪后期,计算机技术、图像处理技术和计算机视觉的迅速发展推动数据可视化由静态图表演变为动态交互图表,处理对象由二维数据扩展至高维数据;21世纪,大数据时代下,数据体量大、种类多、时效高、价值密度低的特征[11],推动数据可视化不仅关注多类型数据源的处理,也包括大规模实时数据的处理。

国内数据可视化研究学者多从数据种类的角度划分数据可视化技术。任磊等将数据可视化技术划分为文本可视化技术、网络(图)可视化技术、时空数据可视化技术、多维数据可视化技术等[9]。王艺等将数据可视化技术划分为空间标量场可视化技术、地理信息可视化技术、时空数据可视化技术、层次和网络数据可视化技术、文本和文档可视化技术、复杂高维多元数据可视化技术[12]。部分学者从数据可视化的方法划分数据可视化技术。程学旗认为数据可视化的核心方法包括曲面可视化、解析度、视觉隐喻[4]。

表1从数据种类的角度入手,总结主要数据类型及对应的数据可视化技术,并介绍各数据类别下的主流数据可视化技术。

表1 数据可视化技术汇总

阿里云datav数据可视化(datav数据可视化工具)

分别以高维数据可视化中的散点图和平行坐标交互方式为例进行说明。在散点图可视化交互中,用户交互式地选取关注的属性数据进行可视化,比如按照重要程度排列属性,优先显示重要的程度高的属性,并比对不同属性散点图所展示的关联关系差异,在一定程度上缓解空间的局限。在平行坐标可视化交互中,由于平行坐标多描述相邻两个属性之间的关系,不适合同时表现多个维度间或非相邻属性间的关系,用户可以通过平行坐标揭示高维数据中的深层信息,消除大数据带来的线段混乱和重叠等问题,并交互地选择感兴趣的数据对象,将其高亮显示。

2.2 自动化数据建模

自动化数据建模相较于传统数据建模而言,主要体现在数据建模全流程中由机器操作替代人工操作的过程。自动化数据建模的核心是自动化机器学习(Automated Machine Learning,AutoML)。自动化机器学习用于描述模型选择或超参数优化的自动化方法,包括多种类型的算法,如神经网络[20]。国际人工智能学会理事长杨强教授认为,从数学的角度看,AutoML是让目标函数学习机器学习参数,从配置里学习最佳参数,由于参数和维度是巨量的,因此选择最佳点的工作应该由机器承担。

在2017年谷歌刚刚推出AutoML工具的时候,AutoML还仅有机器学习模型自动化的意思,但目前AutoML被认为需要贯穿机器学习工作流。机器学习工作流指在给定数据集中实现当前最佳模型性能,通常包含数据清洗、特征工程、选择算法模型结构及其中涉及的超参数调试,AutoML意味着端到端的机器学习工作流(Machine Learning Pipeline)。事实上,自动化建模最初聚焦于机器学习中的模型选择环节,但目前已覆盖数据预处理、模型选择、变量选择、模型调参和模型评估的全流程数据建模,模型选择将算法模型由机器学习扩展至深度学习、强化学习、迁移学习等(见图1)。

阿里云datav数据可视化(datav数据可视化工具)

自动化建模的核心技术包括模型选择环节的神经架构搜索(NAS)和自动化调参。

机器学习和深度学习是计算密集型,神经网络的设计工作耗时,并对专业知识有较高要求。神经架构搜索的网络减少了训练和调参工作,使用者只需为NAS系统提供数据集,NAS将返回最佳架构。神经架构搜索通过遵循最大化性能的搜索策略,从所有可能的架构中寻找最佳架构。如图2所示,其中搜索空间定义了NAS方法原则上可能发现的神经架构。同时,通常使用强化学习或进化算法来设计新的神经网络结构,目前已用于目标检测和图像分类等任务。

阿里云datav数据可视化(datav数据可视化工具)

多数厂商不仅提供自动化数据建模的产品工具,同时会提供完整的自动化数据建模解决方案。目前,数据建模的数据预处理阶段尚未实现完全自动化,依然需要相关人员根据具体的应用场景选择合适的预处理方法。而自动化数据建模解决方案将场景因素考虑在内,有针对性地完成数据准备工作。旷视科技的AutoML技术提供了完整的解决方案,覆盖了包括活体检测、人脸识别、物体检测、语义分割在内的多种场景;百度的EasyDL在2018年陆续发布了定制化物体检测服务、定制化模型设备端计算和定制化声音识别等多个定制化能力方向,应用于零售、安防、工业质检等数十个行业。

随着自动化数据建模工具的发展,逐渐形成了开源工具。H2O. ai是初创公司Oxdata于2014年推出的一个独立开源机器学习平台,其功能是为APP提供快速的机器学习引擎,支持通过R与Python进行引入包的方式开发模型和自动化参数调优。目前,这款开源自动化数据建模工具服务于全世界超过1.8万家企业,服务用户数超过20万。

3.3 情景感知工具

计算机和手机操作系统通过配置情景感知API,推进“人机合一”。Google在2016年I/O开发者大会上发布了Awareness API,通过将调用设备的数据和传感器来检测用户所处情景,包括时间、位置、活动、耳机(插入/拔出)和天气。而使用Google Awareness API的应用,将通过对情景数据的采集、建模和推理,为用户提供个性化服务。以SuperPlayer Music应用为例,该应用支持在用户户外健身、长途行驶和专心工作等情景下为其推荐不同类型的音乐。微软在Win10系统内置了情景感知API,可以根据重力感应、陀螺仪等数据判断出用户活动状态,从而自动调整Win10的情景模式,并由作为用户私人助手的Cortana发出提醒或建议。

电商、旅游业等通过利用情景感知技术,实现更精准的个性化推荐,即通过及时获取用户多种情景行为数据,并根据用户情景的改变而有针对性地提供即时满足的商品或服务。生活服务类产品“及时”通过将获取的用户地理位置与附近商家数据相连,利用蓝牙、GPS、Wi-Fi定位等计算用户的情景和位置,及时推送符合用户需求的商家。Adomavicius等提出一种旅游推荐系统,该系统结合了前置情景过滤、后置情景过滤和建模进行情景感知推荐,基于不同的位置和季节给出不同的度假选择[29]。

4 数据分析技术发展趋势

随着未来数据量的大幅攀升和分析需求的不断提升,数据分析技术也将在多个维度拓展增强。由于随着数据量的大幅增加,现有的处理分析技术可能无法满足数据的及时分析,因此增强数据分析能力将是未来数据分析技术发展的重要领域。庞大的数据量必将给数据管理带来新的挑战,未来数据分析技术的发展也将与数据管理技术全面适配。此外,未来数据分析技术的发展也必将沿袭智能化的发展,决策自动化或自动化决策支持将为数据分析处理提供强有力的推动力。

由于关键方法、处理流程和应用场景的不同,数据分析技术在数据可视化、自动化建模和情景感知方面呈现出不同的发展趋势。

(1)增强实时复杂数据流的可视化效果与可视化交互是数据可视化技术的主要突破点。在时空数据可视化方面,多尺度时空可视分析技术一直是一个挑战,即在统一空间内,将多源数据进行可视化处理并提供有效的可视分析手段[19]。在确保展示信息的完整性和准确性的同时,提升信息的可读性,通过交互的方式满足用户在不同维度下解读信息,同时表达各维度之间的关联信息。

(2)自动化建模的技术发展主要是提高模型的准确性和稳定性,并简化使用。深化与具体应用场景的结合,增加各场景下的训练数据集及相应的自动化建模方法,对于通用场景而言,以API或AI应用的方式提供服务。

(3)情景数据的融合和管理是情景感知技术的发展核心。不同数据源、传感器产生的情景数据是异构的,同时也存在语义上的差异,尽管在现有情景数据建模的方法下可以实现形式和语义上的统一,但这一过程覆盖的情景数据有限且缺乏工具支持。同时,管理情景数据将提升数据质量,减少冗余缺失数据,增加情景推理的有效性。

(0)
小多多的头像小多多创始人

相关推荐

发表回复

登录后才能评论