大数据架构下的文献资源管理应用论文(第2页)
本文共计4717个字,预计阅读时长16分钟。【 字体:大 中 小 】
3.2技术建设架构
针对资源建设的方案,考虑采用关系型数据库与非关系型数据库结合的方式建立存储架构。3.2.1数据存储技术一个完整的数据环境,需要面对来自于各个方面的数据存储需求挑战,主要存在的数据存储需求为:(1)文档型数据存储需求(2)关系型数据库数据存储需求(3)实时型数据存储需求(4)非关系型数据关系型数据库的优势在于保持数据的一致性,由于以数据标准化为前提,数据更新的系统开销很小,同时可以方便的进行Join等复杂查询。MySQL是目前最流行的关系型数据库管理系统。尤其在WEB应用方面,它与PHP语言的结合是目前最为成熟、稳定、安全的技术之一。针对现有数据,绝大多数的结构化数据都可以保存在该类数据库中,从而实现复杂条件下的检索操作。同时,关系型数据库担任保存整个系统元数据架构与基本数据的任务,是其他结构数据库存储及导入导出的基础。NoSQL泛指非关系型的数据库。它的优势在于性能,由于NoSQL是基于键值对的,可以想象成表中的主键和值的对应关系,而且不需要经过SQL层的解析,所以性能非常高。另外可扩展性同样也是因为基于键值对,数据之间没有耦合性,所以非常容易水平扩展。它可以最大程度的解决关系型数据库所不擅长的大量数据的写入处理和为有数据更新的表做索引或表结构变更等问题。用NoSQL可以方便的保存系统中的非结构化数据,并根据实际需求随时调整其结构。分布式文件系统(DistributedFileSystem)是指文件系统管理的物理存储资源不一定直接连接在本地节点上,而是通过计算机网络与节点相连。由于系统中数据资源过于庞大,为提高其使用访问效率,利用HDFS的一次写入、多次读写的特性。数据集一旦由数据源生成,就会被复制分发到不同的存储节点中,从而响应各种各样的数据分析任务请求。以Redis为代表的内存数据库,是基于全部数据都存在内存中的技术体系,抛弃了磁盘数据管理的方式,它在采用半持久化模式运行时所有数据都是保存在内存中,然后不定期的通过异步方式保存到磁盘上。通过这种方式,内存数据库在保证读写速度远超过传统数据库的基础上,又可对其数据进行分布式存储且具有可恢复性。针对以上需求内容,结合各种软件的特性:(1)MySQL满足关系型数据库需求;(2)NoSQL满足对数据结构要求灵活需求;(3)HDFS满足文档类型数据存储需求;(4)Redis内存型数据库,满足高速存取需求;提供统一数据存储环境,为后续数据统一元数据管理、数据统一权限管理、数据统一搜索等建设提供了充分必要条件。3.2.2数据访问平台统一数据存储提供大容量数据存储环境,满足数据存储的大量、高速、多样的需求。在这个基础上,还需要有统一元数据对存储的数据结构进行定义,统一数据访问安全控制对数据访问者进行权限控制,用数据统一搜索打通各种类型数据,为后续数据挖掘分析提供数据高速访问接口。3.2.3统一元数据管理元数据(Metadata),又称中介数据、中继数据,为描述数据的数据(dataaboutdata),主要是描述数据属性(property)的信息,用来支持如指示存储位置、历史数据、资源查找、文件记录等功能。元数据算是一种电子式目录,为了达到编制目录的目的,必须在描述并收藏数据的内容或特色,进而达成协助数据检索的目的。将所有资源的元数据统一管理,是进一步应用的前提。3.2.4数据统一搜索在具备数据存储与数据访问平台基础上,构建满足于融合关系型数据库、非关系型数据库、文件数据库以及内存数据库的统一搜索引擎,并在构建搜索索引过程中融入专业词库词表。以Web服务方式提供搜索引擎服务,对用户所输入的文字进行分词,并结合搜索引擎索引,进行词关系匹配,并按用户所需排序格式提供数据排序给用户。搜索服务提供web服务方式给应用系统使用,应用系统需根据自身权限范围进行数据搜索范围设置。通过上述平台的组合,可以为图书馆中文献、图书、期刊、数值型数据、动态信息等为主的各类型数据提供完整的管理解决方案,并通过具有词表技术的搜索引擎提供对外接口。
4结束语
虽然关系型数据库有着技术成熟、易维护、支持SQL方式的复杂查询、丰富的完整性约束等诸多优势,且在图书馆情报领域被广泛应用。但随着数据量的不断增大,数据类型的不断增多以及应用模式的不断变化,尝试传统数据架构+大数据架构的存储、管理和应用将是图情领域未来的技术架构发展方向。
