非结构化数据是什么

非结构化数据(Unstructured Data)是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等。

非结构化数据是数据结构不规则或不完整,没有预定义的数据模型,不方便用数据库二维逻辑表来表现的数据。包括所有格式的办公文档、文本、图片、XML, HTML、各类报表、图像和音频/视频信息等等。

Unstructured data

计算机信息化系统中的数据分为结构化数据和非结构化数据。非结构化数据其格式非常多样,标准也是多样性的,而且在技术上非结构化信息比结构化信息更难标准化和理解。所以存储、检索、发布以及利用需要更加智能化的 IT 技术,比如海量存储、智能检索、知识挖掘、内容保护、信息的增值开发利用等。

优势

有大量的数据需要处理

非结构化数据在任何地方都可以得到。这些数据可以在你公司内部的邮件信息、聊天记录以及搜集到的调查结果中得到,也可以是你对个人网站上的评论、对客户关系管理系统中的评论或者是从你使用的个人应用程序中得到的文本字段。而且也可以在公司外部的社会媒体、你监控的论坛以及来自于一些你很感兴趣的话题的评论。

蕴藏着大量的价值

有些企业正投资几十亿美金分析结构化数据,却对非结构化数据置之不理,在非结构化数据中蕴藏着有用的信息宝库,利用数据可视化工具分析非结构化数据能够帮助企业快速地了解现状、显示趋势并且识别新出现的问题。

不需要依靠数据科学家团队

分析数据不需要一个专业性很强的数学家或数据科学团队,公司也不需要专门聘请 IT 精英去做。真正的分析发生在用户决策阶段,即管理一个特殊产品细分市场的部门经理,可能是负责寻找最优活动方案的市场营销者,也可能是负责预测客户群体需求的总经理。终端用户有能力、也有权利和动机去改善商业实践,并且视觉文本分析工具可以帮助他们快速识别最相关的问题,及时采取行动,而这都不需要依靠数据科学家。

终端用户授权

正确的分析需要机器计算和人类解释相结合。机器进行大量的信息处理,而终端客户利用他们的商业头脑,在已发生的事实基础上决策出最好的实施方案。终端客户必须清楚的知道哪一个数据集是有价值的,他们应该如何采集并将他们获取的信息更好地应用到他们的商业领域。此外,一个公司的工作就是使终端用户尽可能地收集到更多相关的数据并尽可能地根据这些数据中的信息作出最好的决策。  很明显,非结构化数据分析可以用来创造新的竞争优势。新的前沿可视化工具使用户容易解释,让他们在点击几下鼠标之后就能清楚地了解情况。从非结构化的数据源中挖掘信息从来就没有像这样如此简单。

采集

在很多知识库系统中,为了查询大量积累下来的文档,需要从 PDF、Word、Rtf、Excel 和 PowerPoint 等格式的文档中提取可以描述文档的文字,这些描述性的信息包括文档标题、作者、主要内容等等。这样一个过程就是非结构化数据的采集过程。

非结构化数据的采集是信息进一步处理的基础。有许多开源库己经实现了从非结构化文档中采集关键信息的功能,但针对不同格式的文档,所用的开源库不尽相同。

例如,Apache POI 是 Apache 软件基金会的开放源码函式库,POI 提供 API 给 Java 程序对 Microsoft Office 格式档案读和写的功能。其结构包括:HSSF 提供读写 Microsoft Excel XLS 格式档案的功能;XSSF 提供读写 Microsoft Excel OOXML XLSX 格式档案的功能;HWPF 提供读写 MicrosoftWord DOC 格式档案的功能;HSLF 提供读 Microsoft PowerPoint 格式档案的功能;HDGF 提供读写 Microsoft Visio 格式档案的功能等。

PDFBox 是 Java 实现的 PDF 文档协作类库,提供 PDF 文档的创建、处理以及文档内容提取功能,也包含了一些命令行实用工具。主要特性包括:从 PDF 提取文本;合并 PDF 文档;PDF 文档加密与解密;与 Lucene 搜索引擎的集成;填充 PDFIXFDF 表单数据;从文本文件创建 PDF 文档;从 PDF 页面创建图片;打印 PDF 文档。PDFBox 还提供和 Lucene 的集成,它提供了一套简单的方法把 PDFDocuments 加入到 Lucene 的索引中去。

另外还有 parse-rtf 可以对 RTF 文件处理,SearchWord 可对 Word 和 Excel,PPT 文件进行处理等等。

查询

随着计算机、互联网和数字媒体等的进一步普及,以文本、图形、图像、音频、视频等非结构化数据为主的信息急剧增加,面对如此巨大的信息海洋,特别是非结构化数据信息,如何存储、查询、分析、挖掘和利用这些海量信息资源就显得尤为关键。传统关系数据库主要面向事务处理和数据分析应用领域,擅长解决结构化数据管理问题,在管理非结构化数据方面存在某些先天不足之处,尤其在处理海量非结构化信息时更是面临巨大挑战。为了应对非结构化数据管理的挑战,出现了各种非结构化数据管理系统,例如基于传统关系数据库系统扩展的非结构化数据管理系统,基于 NoSQL 的非结构化数据管理系统等。

在非结构化数据管理系统中,查询处理模块是其中一个重要的组成部分,针对非结构化数据的特性设计合理的查询处理框架和查询优化策略对于非结构数据的快速、有效访问极为重要。传统的结构化查询处理过程是:首先翻译器翻译查询请求生成查询表达式,然后由优化器优化查询表达式,得到优化过的查询计划,最后由执行器选择最优的查询计划执行,得到查询结果。查询处理的主要操作包括选择操作、连接操作、投影操作、聚合函数、排序等。查询优化的方法包括基于代价估算的优化和基于启发式规则的优化等。

非结构化查询处理过程中除了结构化数据查询处理所包含的操作外,还有两个重要的操作相似性检索和相似性连接。相似性检索是指给定一个元素,在由该种类元素组成的集合中寻找与之相似的元素。例如论文查重系统用到文本的相似性检索,谷歌的以图搜图的功能用到图像的相似性检索,手机上根据哼唱匹配音乐是音频的相似性检索等。相似性连接是数据库连接操作在非结构化数据上的一种扩展,它寻找两个元素种类相同的集合之间满足相似性约束的元素对,在数据清洗、数据查重、抄袭检测等领域有着重要的作用。非结构化查询处理框架要针对这两种非结构化数据特有的查询操作对结构化查询处理框架进行改进。

非结构化查询优化,在代价估算上除了要考虑结构化数据的代价估算模型外,还要设法建立相似性查询和相似性连接的代价估算模型,对于针对非结构化数据的全文索引和空间索引,也应该有不同与 B 树索引的代价估算模型。代价估算模型除了要考虑 CPU 时间、IO 时间外,由于非结构化数据一般都存储在分布式系统之上,还需要考虑到中间结果网络传输所用的时间,所以中间结果的大小估算对于非结构化数据的查询优化比结构化数据的查询优化更为重要。非结构化数据的查询优化中的启发式规则和结构化数据也有所不同。

(0)
时间不会说谎  的头像时间不会说谎  

相关推荐

  • 怎样看qq特别关心了我的人,有哪些明显的特征和提示

    随着社交网络的普及,人们越来越依赖qq来沟通交流,qq也成为了人们日常生活中不可或缺的一部分。但是,有时候我们会发现有些人会特别关心我们,那么怎样看qq特别关心了我的人呢?下面,本文将为您详细介绍。一、聊天记录频率增加对于qq特别关心你

    2023年11月10日
  • 家庭空气净化器推荐,如何选择适合你的净化器

    家庭空气净化器是如今越来越多的家庭必备品。随着环境污染日益严重,人们越来越关注室内空气质量,尤其是在大城市中,室内空气污染已经成为了一个不容忽视的问题。然而,在市场上有众多品牌和型号的空气净化器,如何选择适合自己家庭的空气净化器成为了一个难

    2023年12月21日
  • 每个无线鼠标都是单独的接收器吗,解答常见疑问

    无线鼠标是现代计算机中最常用的外围设备之一,它的使用方便、灵活,不用担心线缆的纠缠,而且还能够轻松地控制光标的移动。但是,当我们购买无线鼠标时,很多人都会有一个疑问:每个无线鼠标都是单独的接收器吗?这个问题在很多人的心中一直存在,今天我们就

    2023年11月14日
  • HYUNDAI显示器怎么样,值得购买吗?

    作为一名资深电脑爱好者,我一直在寻找最好的显示器来满足我的需求。在这个市场上,有很多品牌和型号可供选择,但HYUNDAI显示器是我最近一直在关注的品牌之一。在这篇文章中,我将分享我对HYUNDAI显示器的看法,以及是否值得购买。HYUND

    2023年10月22日
  • 手机如何刷机安卓系统,详细步骤和注意事项

    随着手机市场的不断发展,很多人都喜欢购买最新的手机,但是随着时间的推移,手机的性能会越来越慢,很多用户就会想要刷机安卓系统。那么,手机如何刷机安卓系统呢?本文将会为大家详细介绍刷机安卓系统的步骤和注意事项。一、备份手机数据在刷机安卓系统

    2023年11月12日
  • 适合宝妈做的副业有哪些

    宝妈副业要简单方便的可以利用网络环境,做社交电商、短视频拍摄剪辑、母婴博主、微商、自媒体、主播等,都是非常适合宝妈们的。 宝妈为了养育孩子,承担了很多人难以想象的压力。现在很多的宝…

  • u70是什么车,解析品牌及车型特点

    本文目录一览U70车型的品牌特点U70车型的购买指南总结U70是中国汽车品牌长城汽车旗下的一款SUV车型,于2014年正式上市。U70车型是长城汽车在SUV市场的一次全新尝试,也是长城汽车为了满足消费者对于SUV车型的需求而推出的一款车

    2023年10月13日
  • 按摩器测评,哪些按摩器最适合你的需求

    随着生活压力的增加,越来越多的人开始重视按摩器的作用。按摩器不仅可以缓解身体疲劳,还可以促进血液循环,改善睡眠质量,对于长期使用电脑的上班族来说,按摩器更是必不可少的健康工具。但市面上各种品牌、各种类型的按摩器琳琅满目,让人不知从何选起。本

    2023年10月28日
  • 拉杆箱最好的前十名品牌,哪些品牌值得购买?

    拉杆箱是旅行中不可或缺的配件之一,而如今市面上的拉杆箱品牌琳琅满目,让人眼花缭乱。那么,哪些品牌是值得购买的呢?在这篇文章中,我将为您介绍拉杆箱最好的前十名品牌,帮助您在购买时做出明智的决定。1.SamsoniteSamsonite是

    2023年12月2日
  • OPPO Find X7是双潜望镜头吗?

    现在手机的相机设计真的是日新月异,为用户提供了更多的拍摄可能性,让用户可以更加灵活地选择不同的拍摄角度和焦点,从而拍摄出更具艺术性和创意的照片,那么OPPOFindX7是双潜望镜头吗?大家可以一起来看看相关的细节介绍。OPPOFind

    2024年1月23日
  • Rocketdock怎么卸载,简单易行的方法分享

    Rocketdock是一款非常实用的桌面增强工具,它可以为我们的Windows桌面增加一个类似于MacOS的Dock栏,让我们在使用电脑时更加方便快捷。不过,有时候我们需要卸载Rocketdock,比如因为我们不再需要它,或者因为它出现了

    2023年10月24日
  • 核电池会不会爆炸,了解核电池安全问题

    核电池是一种新型电池,它的使用寿命长,能量密度高,可以应用于各种领域。但是,随着核电池的广泛应用,人们对核电池的安全性问题也越来越关注。其中一个最常见的问题就是:核电池会不会爆炸?在回答这个问题之前,我们需要先了解核电池的结构和工作原理。

    2023年12月17日
  • 手机黑屏一直震动,该怎么办?

    关键词:手机黑屏一直震动手机是我们日常生活中不可或缺的一部分,它可以让我们随时随地与世界保持联系。但是,有时候我们可能会遇到一些问题,比如手机黑屏一直震动,这时候该怎么办呢?在本文中,我们将为您提供一些解决方案,帮助您解决这个问题。1.

    2023年12月3日
  • AMD哪个驱动最好,如何选择最适合你的显卡驱动

    作为一名玩家,你一定知道显卡的驱动对游戏性能的重要性。而对于AMD显卡用户来说,选择一个适合自己的驱动也是非常重要的。那么,AMD哪个驱动最好呢?如何选择最适合自己的显卡驱动呢?本文将为你一一解答。一、AMD驱动的分类AMD显卡的驱动主

    2023年10月29日
  • 三星nc10笔记本哪年的,了解一下这款经典笔记本的历史

    作为一款备受欢迎的经典笔记本电脑,三星NC10的历史可以追溯到2008年。当时,三星NC10被认为是一款非常出色的笔记本电脑,它拥有出色的性能和设计,成为了当时市场上最受欢迎的笔记本电脑之一。在这篇文章中,我们将了解一下三星NC10笔记本电

    2023年10月28日

发表回复

登录后才能评论