开始新对话

未解决

此帖子已超过 5 年

113556

2015年8月31日 01:00

长篇连载:说说EMC解决方案中的那些产品和案例

2017年解决方案目录:

2017
EMC XtremIO + PowerEdge 32 Gb/S FC性能测试报告
VMAX全闪存部署Splunk性能测试与最佳实践
ECS的NTP无缝归档解决方案
ECS网络部署与最佳实践
基于Dell POWEREDGE服务器的DDVE数据保护解决方案
企业混合云4.0
企业混合云4.0 概念与体系结构指南
企业混合云4.0 基础架构参考体系结构指南


 

2016年全年连载目录:

2016
VxRail实现量子飞跃 - VCE超融合系统新产品发布(Simon Zhao)
数据存储管理不求人 Oracle DBA可以很潇洒(Simon Zhao)
中文白皮书篇
(三十二)采用VMware vSphere和EMC XtremIO的Oracle Database虚拟化(中文白皮书)
(三十三)EMC VSPEX 私有云:VMware vSphere 5.5 和 EMC ScaleIO(中文白皮书)
(三十四)基于 EMC XTREMIO 环境的 EMC VSPEX 虚拟化 SQL SERVER(中文白皮书)
(三十五)EMC VSPEX 私有云:Microsoft Hyper-V与EMC ScaleIO(中文白皮书)
(三十六)EMC XtremIO部署MongoDB解决方案(中文白皮书)
(三十七)采用Isilon横向扩展NAS的EMC VSPEX(中文白皮书)
(三十八)EMC VSPEX终端用户计算:采用XtremIO的XenDesktop和Hyper-V(中文白皮书)
(三十九)部署采用BROCADE GEN 5 SAN FABRIC的EMC XTREMIO全闪存存储的最佳做法(中文白皮书)
(四十)Microsoft SQL Server 借助XtremIO实现本机高可用性(中文白皮书)
(四十一)XtremIO 闪存专用数据保护方案XDP(中文白皮书)
(四十二)EMC VSPEX BLUE 配备VMware Horizon View的终端用户计算(中文白皮书)
(四十三)Linux 6.x 上使用 EMC XtremIO 部署Oracle的最佳做法(中文白皮书)
(四十四)EMC ProtectPoint 完整备份解决方案(中文白皮书)
(四十五)EMC ScaleIO融合存储为SAP HANA配置定制数据中心(TDI)解决方案(中文白皮书)
(四十六)面向Oracle数据库的EMC XtremIO优化闪存存储(中文白皮书)
(四十七)针对大型机环境的 EMC VMAX 概述(中文白皮书)
(四十八)适用于 VNX2 的 VDM METROSYNC(中文白皮书)
(四十九)EMC VNX 上的虚拟 Data Mover(中文白皮书)
(五十)适用于Oracle的EMC XtremIO高性能整合解决方案(中文白皮书)
全闪存阵列篇
(五十一)EMC XtremIO部署企业级PostgreSQL解决方案
(五十二)VMAX全闪存SQL Server部署解决方案
(五十三)EMC XtremIO部署Citrix XenServer 6.5的优势
(五十四)VMAX全闪存部署业务关键性Oracle数据库
(五十五)VMAX全闪存以及VMAX3部署VMware Virtual Volumes
(五十六)白皮书:集成EMC XtremIO到ViPR Controller
(五十七)集成与保护运行于EMC XtremIO之上的虚拟化企业级应用
(五十八)EMC XtremIO部署服务器虚拟化解决方案
(五十九)AppSync集成RecoverPoint与XtremIO快照复制解决方案
(六十)EMC RecoverPoint实现XtremIO上的Oracle远程复制
联盟企业混合云 3.5
联盟企业混合云 3.5:概念与体系结构指南
联盟企业混合云 3.5:基础架构参考体系结构指南
联盟企业混合云 3.5:管理指南
联盟企业混合云 3.5:基础架构和操作管理指南
联盟企业混合云 3.5:安全管理指南


2015年全年连载文章目录

2015
(一)EMC解决方案是什么?
(二)不1ms不是好AFA,全闪存阵列XtremIO优化Oracle数据库性能
(三)想多快就能多快,VMAX3性能服务级别(SLO)加速Oracle数据库
(四)双剑合璧,EMC VNX + XtemCahce加速Oracle数据库
(五) 小身材大用途,VNXe部署千人Exchange企业邮箱
(六)私有云案例, VSPEX部署5600个VMware虚拟机
(七)一站式多协议平台,软件定义存储ViPR部署按需共享文件系统案列
(八)存储上的大数据,Isilon大数据基础架构
(九)大数据保护,EMC企业级数据湖数据保护解决方案
(十)云端集成,VMAX3+Azure异地容灾解决方案
云计算篇
(十一)私有云案例,ECS + CTERA管理企业分支机构文件存储解决方案
(十二)云上云下,VMAX FAST.X集成EMC CloudArray解决方案
(十三)EMC Hybrid Cloud, 混合云部署SAP解决方案
(十四)PaaS落地,VBLOCK部署Cloud Foundry平台即服务解决方案
(十五)云端数据迁移与保护,ECS+DataTrust解决方案
(十六)选择性备份到云,EMC CloudBoost备份解决方案(中英文白皮书)
(十七) 数据复制即服务,EMC Data Domain安全多租户提供云计算数据保护解决方案
(十八)开源平台支持,VNX OpenStack Juno Cinder驱动最佳实践
(十九)EMC私有云部署参考架构,微软应用解决方案
(二十)EMC混合云3.1系列,白皮书15篇下载列表
大数据篇
(二十一) 大数据即服务,ECS的Hadoop企业级支持
(二十二)医疗行业大数据案例,在数据湖中预测未来
(二十三)Hadoop虚拟化,大规模部署案例
(二十四)Hadoop as Service,HaaS混合云部署解决方案
(二十五)Hadoop多租户部署,Isilon Access Zone功能与案例
(二十六) Hadoop数据存储,Isilon配置Hadoop最佳实践
(二十七)Hadoop数据安全,数据湖安全解决方案
中文白皮书篇
(二十八)EMC VNX 存储系统上结合 SAP HANA 定制数据中心集成(中文白皮书)
(二十九)使用EMC XtremIO 重新定义SAP基础架构(中文白皮书)
(三十)整合EMC XtremIO全闪存阵列上的SQL SERVER OLTP 工作负载(中文白皮书)
(三十一)EMC VSPEX 终端用户计算采用XtremIO 的Citrix和VMware(中文白皮书)


白皮书原文都在每篇文章的附件里可以下载!

3.2K 消息

2015年11月10日 07:00

长篇评书

2.1K 消息

2015年11月11日 22:00

(十八)开源平台支持,VNX OpenStack Juno Cinder驱动最佳实践

     OpenStack是当前非常流行的一个开源云计算平台。业界越来越多的IT公司开始加入到这个开源项目的开发与贡献中,当然EMC也是其中的一员。本篇白皮书着重介绍了EMC的VNX对于OpenStack Juno Cinder驱动支持的最佳实践。

     OpenStack在架构方面分为三个大部分,Compute、Networking、Storage。每个大类里面还分层不同的子项目,Cinder就是Storage类中针对block存储的子项目(Swift是针对object存储、Manila是针对文件存储)。 Juno是目前OpenStack的稳定版本,发布与2014年10月份。

Solution-18-1.png

     OpenStack Block存储Cinder是为OpenStack的计算单元(VM)提供持久块存储的容器。它对于可扩展的文件系统、最大性能、与企业存储服务的集成以及需要访问原生块级存储的应用程序而言是必需的。用户可以通过仪表盘来创建,添加,移除block设备,除了支持Linux服务器的本地存储之外,Cinder还能为大量的存储平台提供支持, 而EMC VNX也是其中之一。

     Cinder的架构如下,Cinder 的功能通过 REST API 展现给OpenStack仪表板和命令行调用。Cinder API解析所有传入的请求并将它们转发给消息队列,调度程序(Cinder Scheduler)和卷服务器(Cinder Volume)在该队列中执行实际的工作。在创建新的卷时,调度程序将会决定哪台主机应对该卷负责。默认情况下,它会选择拥有最多可用空间的节点。卷管理程序管理着可动态附加的块存储设备,这些设备也被称为卷。它们可用作虚拟实例的启动设备,或作为辅助存储进行添加。Cinder 还为快照(卷的只读副本)提供了一种设备。然后可以使用这些快照来创建新的卷,以供读写使用。默认情况下,该后端存储是本地卷组上的逻辑卷管理,但可以通过驱动程序将它扩展到外部存储阵列或设备。本篇白皮书中介绍的VNX Cinder Driver即负责,将Cinder Volume的指令进行转换成Navisphere CLI请求发送到VNX存储。

Solution-18-2.png

      VNX Cinder Driver支持VNX2和VNX1阵列,Block OE在5.32以上版本就可以。白皮书的第二部分提供了NaviSecCLI、Cinder-Volume安装步骤,以及Host Registration、MPIO、Cinder.conf的配置步骤。

VNX Cinder Driver除了支持Cinder本身的功能以外,提供了以下的高级功能:

  • 多协议验证安全支持:VNX Cinder Driver支持Gloal、LDAP和Local验证模式,并能够为不同的VNX存储阵列配置不同的安全文件。
  • 创建不同调配类型的卷:VNX Cinder Driver支持创建不同类型的VNX存储卷,例如Thin和Thick,包括Compression、Deduplication功能等等。
  • 创建不同存储层策略的卷:可以从OpenStack Cinder直接创建VNX的分层存储。
  • 创建使用FAST Cache的卷:直接从OpenStack Cinder创建使用到VNX Cache功能的卷。
  • iSCSI端口容错:可以在配置文件中指定iSCSI池,当Cinder链接的VNX iSCSI端口在网络不可用的情况自动进行切换。
  • 存储端的检查机制:例如Force Delete,Threshold Check等功能,让Cinder能与VNX更好地集成。
  • SP高可用配置:可以让Cinder利用到VNX的Active-Active Storage Processor架构。

     白皮书的第三部分还提供了有关于升级与数据迁移的操作与建议。包括HA Deployment、Volume Migration、Volume Retyping、Instance Migration等等。综合来看,VNX Cinder Driver可以让OpenStack平台与EMC存储阵列更好的集成。让原本Cinder的一些限制能够通过VNX阵列内部的诸多高级存储功能来进行补强。同时,用户也可以将VNX接入到OpenStack中作为数据存储的载体。

1个附件

2.1K 消息

2015年11月15日 22:00

(十九)EMC私有云部署参考架构,微软应用解决方案

     本篇解决方案是一个EMC结合微软应用 Microsoft Windows Azure Pack (WAP)、System Center、Hyper-V、Windows Server 2012 R2, SQL Server、SharePoint, and Exchange部署具有自助服务、灵活存储、可再利用、定制化、持续关注用户体验的私有云环境的参考架构。它能够为在快速业务变化下,通过全面虚拟化,管理自动化等特点为企业提供IT即服务,提升整体基础架构的性能、敏捷性与灵活性。

以下是解决方案架构:

Solution-19-1.png

架构中可以集成的组件包括:

  • Hyper-V for Windows Server 2012 R2 – 虚拟机Hypervisor,运行于Windows Server。
  • Microsoft System Center 2012 R2 – 其中SVCMM为主要管理Hyper-V虚拟机的软件
  • Windows Azure Pack – 提供云平台的管理与用户访问接口
  • EMC ViPR软件与存储硬件(VNX、VMAX、VPLEX)

     这个架构中以租户(tenant)为单位,能在最小化管理员干预的情况下,选择性部署例如SQL Server、Exchange、和SharePoint的应用即服务。私有云中通过Windows Azure Pack(WAP)为云管理员与租户提供了管理与使用的接口,这两种类型的用户在解决方案中,分别可以对针对微软SQL Server、Exchange、SharePoint创建应用虚拟机模板与定制化配置(云管理员)、订阅应用于提交应用部署请求(租户)。

     在存储层,通过EMC提供的软件定义存储平台ViPR为租户提供按需的存储配置,云管理员可以预先定义容量优先、性能优先、高可用优先等等的不同存储层,并在配置虚拟机模板的时候指定所对应的存储层。

Solution-19-2.png

     总的来说,这篇白皮书以一个概览的方式介绍了建立在微软应用基础上的私有云架构,其中EMC的ViPR软件在这个私有云解决方案中充当了存储层展现的角色。通过ViPR,无论是对上层的应用于虚拟机,或者是后端的实际存储设备,都能够提供更加灵活的配置,并实现租户自助服务,满足整个私有云的弹性存储的需求。

1个附件

2.1K 消息

2015年11月19日 00:00

(二十)EMC混合云3.1系列,白皮书15篇下载列表 - 附件6-10

5个附件

2.1K 消息

2015年11月19日 00:00

(二十)EMC混合云3.1系列,白皮书15篇下载列表 - 附件11-15

5个附件

2.1K 消息

2015年11月19日 00:00

(二十)EMC混合云3.1系列,白皮书15篇下载列表

    连载经过近两个月的时间,已经写到第二十篇。回顾一下第二阶段关于云计算的内容,从(十一)到(十九),分别介绍了EMC在数据存储、备份与恢复、容灾,公有云集成方面的相关内容。涵盖面还算比较广的,楼主在想第二十篇云计算有关的解决方案写什么内容的时候,不经意发现EMC Hybrid Cloud系列的白皮书又有更新了,而且一下子放出来很多。突然觉得这阶段最后一篇放个大招吧:把最新的混合云的白皮书整理一下,把整个系列的白皮书都翻出来作为这阶段十篇内容的压轴也不错。

所以,下面的表格就是混合云系列解决方案的下载列表了,楼主废话也不多说了,读者自己选喜欢的内容下载吧。有问题可以跟帖提。

白皮书

主要内容

下载链接

EMC Simple Support Matrix Federation Enterprise Hybrid Cloud 3.1

Hybrid Cloud 3.1支持的产品列表与版本

docu61151

Federation Enterprise Hybrid Cloud 3.1 Reference Architecture Guide

介绍了混合云解决方案的架构,关键组件的功能特点、资源规划样本等等内容

h14012-federation-enterprise-hybrid-cloud-ra

Federation Enterprise Hybrid Cloud 3.1 Concepts and Architecture Solution Guide

混合云解决方案的架构解决方案手册,这篇与参考架构不同的,其中包括的实际实施的单站点、多站点、网络与数据保护的拓扑结构

h14111-fehc-concepts-architecture-sg

Federation Enterprise Hybrid Cloud 3.1 Security Management Solution Guide

混合云部署中牵涉到安全的功能大全

h14104-federation-ehc-security-sg

Federation Enterprise Hybrid Cloud 3.1 Operation Solution Guide

这篇更偏向于部署时候的实际操作,里面有具体的配置步骤和案例

h14165-federation-3.1-operations-sg

Federation Enterprise Hybrid Cloud 3.1 Microsoft Application Solution Guide

混合云3.1针对部署微软应用的详细内容

h14134-federation-ehc-ms-apps-sg

Federation Enterprise Hybrid Cloud 3.1 Microsoft Application Protection and Availability Solution Guide

混合云3.1针对部署微软应用在数据保护方面的详细内容

h14418-fehc-msapps-protection-availability-sg

Federation Enterprise Hybrid Cloud 3.1 Hadoop Application Solution Guide

混合云3.1针对Hadoop部署的相信内容

h14235-fehc-31-hadoop-apps-sg

Federation Enterprise Hybrid Cloud 3.1 Oracle Database as a Service

混合云3.1部署Oracle的参考架构,着重与自助服务调配、自动化备份与恢复、监控等方面的内容

h14338-fehc3-1-oracle-dbaas-ra

Federation Enterprise Hybrid Cloud 3.1 Oracle Database as a Service Solution Guide

与上面一篇类似,更注重于实际的配置与操作

h14339-fehc3-oracle-dbaas-sg

Federation Enterprise Hybrid Cloud 3.1 Foundation for SAP

混合云3.1部署SAP的内容,针对自动化、安全、数据迁移、营运效率等重点进行介绍

h14265-fehc-3-1-sap-sg

Federation Enterprise Hybrid Cloud 3.1 Data Protection for SAP : Continuous Availability

混合云3.1部署SAP在业务连续性方面的内容

h14266-fehc-3-1-sap-ca-sg

Federation Enterprise Hybrid Cloud 3.1 Data Protection for SAP: Backup

混合云3.1部署SAP在数据备份与保护方面的内容

h14270-federation-sap-backup-sg

Federation Enterprise Hybrid Cloud 3.1 Data Protection for SAP: Disaster Recovery

混合云3.1部署SAP在灾难恢复方面的内容

h14563-fehc3-1-dr-sap-sg

EMC Simple Support Matrix Federation Enterprise Hybrid Cloud for SAP

Hybrid Cloud 3.1 部署SAP的软件支持列表

docu61825

    Hybrid Cloud 3.1的解决方案应该还会持续增加SDDCPivotal等等其他内容,现有的应用例如OracleMicrosoft也应该还会丰富一点,就像列表中SAP相关的那样,不过目前,楼主能找到的也就是上面这点,如果以后有增加的话,应该也会加入到其中的。

最后放关于Hybrid Cloud 的几张图:

Hybrid Cloud的主要功能

Solution-20-1.png

Hybrid Cloud主要组件:

Solution-20-2.png

EMC与VMware集成的矩阵:

Solution-20-3.png

更多内容都在白皮书正文里面,感兴趣的读者尽情下载吧!

5个附件

1.6K 消息

2015年11月19日 06:00

这么多,估计看完整个人都在云里了都

2.1K 消息

2015年11月22日 19:00

(二十一) 大数据即服务,ECS的Hadoop企业级支持

     EMC在转型为云计算公司之前,一直是一家领先的数据存储公司。而这种数十年的数据存储技术与产品积累让EMC在转型到云和大数据上的过程中,能充分利用原有的技术优势, EMC除了通过健壮的基础架构产品帮助客户IT向云计算转型之外(本篇连载的中之前的文章有比较详细的介绍)。EMC还帮助客户利用大数据获得更多的业务价值。通过EMC提供的技术与产品,用户能够在拥抱新技术所带来变化之外,还能充分利用现有的基础架构,让已有的IT基础架构快速地融入到新的技术浪潮中一直以来是EMC在大数据方面的一个发展方向。另外,EMC还迎合业界发展,在软件定义数据中心、软件定义存储等方面不断推出新的产品满足客户在数据分析方面新的需求。而这些创新同时也完全保留了EMC产品原有的高可用,企业级的特点。使得客户能够快速上手,方便部署于管理,并相比其他解决方案提供更多的附加功能,且更节省人力成本。本篇开始,楼主会介绍这些有关于EMC在大数据方面的解决方案。

     这部分的第一篇,我们先来看一下EMC弹性云存储(EMC Elastic Cloud Storage)针对Hadoop的企业级支持。Hadoop及其生态系统从诞生至今,一直是大数据分析中的主力军。HDFS则是Hadoop中数据存储的载体,Hadoop及其生态系统中的软件都需要通过这个分布式文件系统来获取数据,然后将处理后的数据再次存储到HDFS作为结果。

Solution-21-1.png

本篇白皮书对Hadoop及其生态系统进行了一个简短的介绍之后。列出了一些原生态HDFS在存储上的限制。它们是:

Solution-21-2.png

     可以看到,原生态的HDFS其实在高可用,多协议支持和存储效率及多租户支持上还是存在某些限制的,而这些功能对于企业用户又是必不可少的。所以,通过ECS,用则可以在享受Hadoop带来的大数据分析的业务优势之外,再获得更高的企业级存储的服务标准。ECS架构如下:

Solution-21-3.png

ECS能够为企业的Hadoop的数据存储提供以下的特点:

  • 大规模扩展:支持PB到EB级的数据,能够将计算与存储节点分开进行扩展。
  • 多协议支持:ECS中的数据不但可以通过HDFS为Hadoop访问,还能够通过对象API为其他应用服务,用户无需将HDFS中的数据再次拷贝其他地方供其它应用使用。
  • 支持跨地域保护:支持跨站点的灾难恢复。
  • 多站点访问:数据可以在异地第一时间被应用访问。
  • 效率与灵活:传输效率增加并且用户可以用不同供应商提供的Hadoop应用程序访问ECS中的一份数据拷贝

     总得来看,Hadoop是一个低成本、高扩展、分布式的分析引擎,可以降低处理大型数据集的时间与提升数据分析的效率,为企业提供有价值的业务见解。而通过结合ECS部署Hadooo,企业还能够充分享受到软件定义存储架构为大数据分析所带来的简易、灵活和快速的部署体验。

1个附件

2.1K 消息

2015年11月25日 23:00

(二十二)医疗行业大数据案例,在数据湖中预测未来

     这篇解决方案主要描述的是医疗组织如何在高性能的数据湖上构建与开发他们的数据分析基础架构、数据科学技巧、和数据管理流程。通过数据湖提供的前所未有的医疗数据整合能力与数据智能,医疗服务组织可以针对未来的业务,以数据驱动的方式提供服务。楼主在通读了整篇白皮书以后觉得以下内容值得高亮一下:

医疗行业是数字地球的领跑者

     白皮书提供了一篇IDC的研究报告(见附件),医疗行业数据的整体规模会从2013年的153EB发展到2020年的2314EB,年复合增长率达到48%。如果所有的数据都用128gb的ipad平板电脑来存储,并且跌起来,高度会超过8000英里,能有1/3 地球表明到月球的距离。(为什么不用硬盘来比喻,也许跌出来没那么高吧,IDC的研究员们也蛮物理的,反正比喻数据量会很大就是了)

Solution-22-1.png

     而截至2014年,只有3%的数据被分析,且提供了高附加值的信息。而相比57%的有价值的数据,超过54%的数据未被分析和利用。医疗数据所蕴含的价值还是巨大的。

Solution-22-2.png

数据湖是对未来预测的通道

     数据湖相比商业智能和数据科学能够发现更大业务价值与未来,以及对未来的预测。因为数据湖提供了所有医疗机构的所有相关数据,组织可以实时地对数据湖中的数据进行近线分析,这种实时的响应可以让医疗组织对实际的医疗案例进行实时决策,探索不同的解决方案的可能性结果。那是当然,整合越多,分析就能越精确,数据产生与得到分析结果越接近,就能越接近未来某个时间点的数据。看似很有道理,不过前提是有健壮的分析方法,当然数据绝对是基础,没有数据再好的方法也没用,所以数据湖的特点就在这里。

Solution-22-3.png

数据湖现实中的数据整合分析用例

     下面这张图中所展示的是数据湖在医疗行业中整合数据的实施案例。可以看到通过将所有相关的数据整合到数据湖,医疗组织就有能力针对一些特定的状况进行行动。文中举了一个例子,通过数据分析,医院发现在某一个楼层的病人出现手术感染的情况最高,并都是同一个临床医生在岗等等情况下。那么,医院就可以针对特定的人员进行消毒方面的培训来降低未来同样问题发生的情况。数据湖的数据还能够为病人的某些特征,结合外界影响与人口数据,定制不同的治疗计划等等。而且数据湖中的数据整合,还能够为大量病史的临床研究做出贡献,让这个人群都收益。

Solution-22-4.png

EMC为数据湖提供强健的基础架构支持

     EMC联邦提供的存储、虚拟化计算、大数据分析套件能够丰富数据湖,加速数据湖的部署,为医疗组织构建以数据驱动的大数据业务提供全方位的支持。这个已经谈了很多了,不具体展开了,详细看本连载的其他文章。

Solution-22-5.png

数据湖上扬帆

     白皮书中还介绍了在数据湖上大数据分析的方法与流程概览。开发了解业务的数据科学团队,规范化数据管理流程等等内容。文章没有详细展开,不过大概的流程基本上就是要数据、业务专家、数据科学专家、正确的方法,才能找到有价值的业务见解。其实数据湖上扬帆,工具就是船了,船长,大副,水水就是这些数据分析中的觉得,都要齐全才能安全行驶大数据分析这艘船,达到业务价值的彼岸。

Solution-22-6.png

     最后,这篇白皮书所牵涉到的技术内容不多,更多的是一些概念与方法、以及进行大数据分析流程上的东西。楼主觉得这篇白皮书对那些希望实施大数据分析项目的读者来说,参考一种实施的框架,了解一个实际的案例相比一大堆软件的功能来得更加有用。

2个附件

2.1K 消息

2015年11月30日 19:00

(二十三)Hadoop虚拟化,大规模部署案例

     这是一个行业中真实的部署案例,解决方案演示了如何在一个虚拟化且集中存储的基础架构中部署Hadoop,实现Hadoop即服务HDaaS(Hadoop as a Service),为企业处理大规模的数据分析工作负载。白皮书就案例介绍了基础架构设计、项目中遇到的障碍、和最终完成的流程内容。同时,还包括了规划、配置、和最佳实践方面的细节。作为实施的结果,白皮书还验证了在这样一个集成的、虚拟化的环境中,可以为Hadoop提供了一个高性能、高扩展性、高效运行架构。

     案例的背景是,技术运营部门原先使用传统的Hadoop集群架构为其他的几个业务部门提供例如日志分析、应用层的统计分析之类的大数据分析服务来帮助优化产品。其中,数字市场部门需要为客户的网站统计信息,这些数据的总量超过8PB,存储在EMC Isilon存储阵列中。数字市场部门需要对这些数据进行进行深入的分析来为客户的网站提升运行效率。但是如果要深入分析这些数据,传统的Hadoop架构存在这如下几种限制:

  • 数据成本高:分析任务需要一次性运行超过几百TB的数据,而将数据从现有的Isilon存储复制到Hadoop集群中是一件非常耗时的工作。
  • 扩展低效:为了满足大量数据处理的要求,在传统的架构中为现有的Hadoop集群添加更多的节点会比较低效。
  • 存在单点风险:而且传统的架构中的Hadoop Name Node只有两个(存储HDFS中元数据),这成为环境中的高可用瓶颈。

传统的Hadoop架构如下:

Solution-23-1.png

所以,为了解决这些问题,并让Hadoop环境可以以一种更加高扩展形式存在。他们决定构建一个集中化存储+虚拟化Hadoop集群节点的解决方案。架构如下:

Solution-23-2.png

解决方案的硬件拓扑结构:

Solution-23-3.png

其中:

  • Cisco UCS提供计算层与网络层的硬件。
  • EMC VNX提供Hadoop集群中VMware ESC Host和VM的存储。
  • EMC Isilon存储业务数据由Hadoop集群节点通过HDFS访问。
  • 借助VMware Big Data Extension(DBE)进行集成自动化管理。

试点项目的结果

     环境部署完成后,试点项目(POC)从相对小型的数据集测试开始,并逐渐扩展大数据的总量,从60GB一次的MapReduce任务到450GB,从450GB到10TB,再从10TB一直到60TB,最后到65TB的单次MapReduce任务也能够顺利完成。而实现一次65TB的MapReduce任务,花费的团队在调试环境中的很多时间,文中列出了有关于内存配置、Yarn设置、Mapper设置、存储规划建议、CPU规划建议等等的相关调优参数。感兴趣的读者可以在P8-P9和P11的最佳实践部分中找到。

     性能方面,团队对于将Isilon作为HDFS存储层集合虚拟化的Hadoop集群的表现非常满意。而且,这个解决方案中,用户可以简单地横向扩展虚拟Hadoop节点,帮助几何数级别提升任务的运行时间。而且这个过程比向传统的Hadoop添加节点来得省时省力。下面的图表中给出了一组以相同的物理运算资源,通过虚拟化分配更多的运行节点,所提升的性能的例子。图中的有关256 worker数据,每个节点分别只分配的1vCPU和7.25GB的内存,30GB的空间。而32 worker的配置是8 vCPU、58GB RAM、450GB空间。可以看到整体相同的计算资源,运行的性能却提升了超过一千倍。

Solution-23-4png.png

     存储效率方面,通过Isilon存储能够有效地节省数据空间,例如传统的Hadoop架构中,需要存储3份数据拷贝,那么如果是存储8PB的数据重消耗则是24PB。而通过Isilon存储8PB的数据只需要大约9.6PB的裸磁盘空间,空间节省率超过60%。除了空间方面,这种集中式的存储还能够有效的解决信息孤岛问题。通过启用Isilon数据湖,数据不单单只能通过HDFS访问,还能够支持其他NFS, FTP, SMP, HTTP, NDMB, SWIFT, 和OBJECT满足更多的企业需求。

     综合来看,这篇解决方案验证了Hadoop可以在虚拟化和集中存储环境中的表现,并且虚拟化境中的管理与成本优势使得这种架构很易进行横向扩展,适合大规模部署的大数据分析Hadoop环境。

1个附件

2.1K 消息

2015年12月2日 20:00

(二十四)Hadoop as Service,HaaS混合云部署解决方案

     这篇解决方案主要介绍了如何在现有的EMC联邦的混合云环境中快速部署Hadoop即服务。HaaS的实现是通过在EMC联邦混合云提供的IaaS基础上,集成VMware Big Data Extensions、Pivotal HD、和EMC Isilon,并通过VMware vRealize Automation进行控制的、可供最终用户自助服务、自动化的Hadoop部署解决方案。

Solution-24-1.png

白皮书的主要内容介绍了这些实现HaaS的组件的具体操作与配置的步骤,分别是:

VMware Big Data Extensions(BDE)

     Serengeti是一个VMware的开源项目,它让Hadoop可以在VMware vCenter管理的环境中运行。而VMware Big Data Extensions是Serengeti的商业版本,它运行于Serngeti Management Server之上,提供了额外的诸如针对vSphere Web Client的GUI、优化vSphere中物理计算资源的分配等等企业级HaaS功能。而这些功能需要配合Pivotal HD(PHD)安装后才能够实现。白皮书中第三章提供了详细的安装PHD与配置BDE的过程。安装完BDE和PHD之后,用户可以通过在GUI中创建虚拟的Hadoop集群(关于虚拟化Hadoop集群的优势可以参考:)、定义发布版本、拓扑、计算规模、节点的类型等等。

Solution-24-2.png

支持HDFS的Isilon存储阵列

     Isilon作为数据存储的载体,当通过BDE结合Isilon创建Hadoop集群的时候,Hadoop的数据节点可以根据配置创建在Isilon阵列上,并通过Secure Access Zone URL实现安全隔离。Isilon的横向扩展架构能够与Hadoop紧密集成,方便计算端和存储端都可以横向扩展。白皮书的第四章提供了Isilon配置HDFS的详细步骤以及设置Secure Access Zone的方法。

自定义的VMware vRealize Automation工作流

     通过VMware vCloud Orchestrator中自定义的工作流,可以实现Hadoop集群的自动化,并通过自助服务门户提供给最终用户,将经过预先配置好的Hadoop部署,根据不同情形让用户在目录中进行选择并部署。白皮书的第5章提供了创建工作流的步骤。

总的来看,这篇白皮书花了大部分内容介绍了在EMC的混合云中实现HaaS的三个组件的具体配置过程,是一篇很好的配置参考文档。

1个附件

2.1K 消息

2015年12月7日 01:00

(二十五)Hadoop多租户部署,Isilon Access Zone功能与案例

     多租户是模式是企业云计算服务的必要条件,也是云计算的核心原则。它在企业在不同的业务单元间共享基础架构和数据信息中扮演者着关键角色。在数据存储层面,多租户意味着存储平台可以根据不同的需求,让数据以不同数据访问协议,应用,将业务单元、数据、应用之间实现隔离,且同时提供服务。Hadoop是目前行业内主要的数据分析平台,它由HDFS、MapReduce以及其他Hive、Pig、Sqoop、Flume等生态系统组成。在Hadoop环境中应用多租户的一大优势是可以为无论是内部或外部的客户提供数据分析即服务、Hadoop即服务,让IT组织可以更好地应对云计算转型。本篇白皮书介绍了EMC Isilon存储阵列的Access Zone功能面向Hadoop大数据分析应用的多租户支持与案例。

     本篇白皮书的主要内容从企业数据分析的需求入手,描述了多租户功能特点,并着重介绍了Isilon的Access Zone多租户功能如何满足这些需求。主要分为以下4个部分:

企业数据分析中遇到的问题

     原生态的Hadoop本身是不支持多租户的,而且它有一个最最主要的限制是,储在Hadoop集群中HDFS上的数据只能被所在Hadoop集群的相关应用所访问,如果其他应用需要访问存储在Hadoop集群中的数据,需要额外的ETL流程。而且,对于Hadoop集群中本身的计算来说,数据扩展起来成本相对比较高,而且不灵活。白皮书中详细描述了这些问题,并通过存储效率、可用性、数据获取、安全、性能等方面描述了这些需求。


多租户的需求与Isilon如何满足这些需求

     这部分内容列出满足多租户的需求和Isilon横向扩展整理的 Access Zone如何实现这些需求。主要有以下几点:

  • 支持多租户:通过Access Zone隔离用户数据和租户(用户和用户组)。
  • 每个Access Zone支持混合的负载:包括Hadoop、R、HAWQ、Pig、Hive和其他应用,并且还支持不同供应商的Hadoop应用,例如Cloudera、Pivotal HD、Apache Hadoop,Horonworks等等,而且数据允许被Hadoop 1.0和2.0同时访问。
  • 一个Access Zone中存储不同的类型数据集:包括视频、图片、半结构化数据、非结构化数据等大量不同类型的数据。
  • 支持多协议访问:同一份数据可以支持多协议NFS、HTTP、SMB等混合应用负载。
  • Access Zone安全验证:支持多种验证方式、支持配额、存储池和其他企业级应用。

Access Zone的细分功能介绍

     白皮书的后半部分根据隔离租户与数据集、混合应用负载支持、管理数据集几个方面介绍了Access Zone的细节功能。


用例

     最后白皮书例举了两个用例,一个是某大学通过Isilon解决数据孤岛的案例,另外一个是让一份数据服务于不同Hadoop集群的例子。

     综合来看,这篇白皮书和以往的解决方案白皮书略有不同,它是一篇功能性介绍的文章,就Isilon的Access Zone这一个功能展开比较详细的介绍,并提供一些配置的案例与用户案例。为希望了Hadoop多租户部署的读者提供参考。

1个附件

2.1K 消息

2015年12月9日 22:00

(二十六) Hadoop数据存储,Isilon配置Hadoop最佳实践

     本篇白皮书介绍了在EMC Isilon 集群中配置与管理HDFS服务来优化Hadoop分析数据存储的最佳实践。白皮书从以下几个角度介绍了配置与管理Hadoop数据存储的内容:

Isilon存储Hadoop架构概览

     这部分对Isilon存储HDFS进行了概要性的介绍。EMC Isilon是一款横向扩展的NAS存储阵列,借助Isilon的操作系统OneFS和其完全分布式的Sharing Nothing全冗余架构,能够为Hadoop提供高性能、高可用、可扩展、灵活访问的、且便于管理的HDFS数据服务。利用Isilon作为HDFS存储,每个Isilon集群中的节点都能同时充当NameNode和DataNode,为File Block请求和数据流提供服务的同时还提供了高冗余。文中SmartConnect网络连接配置的部分介绍如何配置相应的DNS达成无单点故障的架构。Isilon支持将节点配置为存储池,可以与数据集关联,满足特定的性能需求。Isilon还能为Hadoop集成Kerberos验证。文中后面几个部分分别介绍了这些配置细节。

HDFS安装

     第二部分HDFS安装提供了集成Isilon到Hadoop环境中的步骤,根据Hadoop规模规划Isilon节点,以及Isilon 中关于HDFS设置的命令、日志,创建目录与设置权限的命令等等。

不同Hadoop发布版的支持

     描述了使用两个不同版本的Hadoop发布版(Cloudera和Pivotal HD)的时候要注意到的事项。

根据HDFS对Isilon进行调优

     介绍了具体的参数设置,包括Block Size、HDFS Thread的数量、获取性能参数统计,配置MapReduce中间结果的存储,处理空间瓶颈,HDFS V2中的双NameSpace的配置等内容

SmartConnect网络连接配置

     Isilon SmartConnect使用round-robin算法来分布Hadoop NameNode的会话,当Hadoop客户端第一次尝试连接到NodeNode的时候,OneFS将请求路由到为客户端提供服务的NodeNode上,当第二个客户端发送请求的时候,Isilon会将服务请求路由到另外一个集群中的节点上。以此类推,Isilon会将服务请求均匀的分布到集群中的所有节点上从而提高整体的服务性能。白皮书的这部分内容介绍了SmartConnect中的一些相关概念、NameNode和DataNode的失效处理配置、访问接口的多IP地址设置、子网与DNS配置等等。

存储池配置

     通过Isilon的SmartPool,用户可以创建节点池、文件策略、存储层等功能。节点池允许用户将一组Isilon节点放入一个组中并于数据集关联,满足性能方面的需求。文件策略允许用户按照文件类型、路径,大小等数据在存储与隔离数据。分层优化数据访问,将访问频繁的数据移动到更高性能的存储层中。本部分内容提供了SmartPool的配置建议,目录与文件的优化设置等内容。

配置Kerberos验证

     这部分介绍Isilon如何配置Kerberos验证,包括与Active Directory集成、使用MIT Kerberos 5,以及Kerberos验证中所遇到典型问题的处理方法。

     综合来看,这篇白皮书很好地介绍了在Isilon上配置Hadoop存储HDFS的详细步骤。适合需要部署Hadoop的用户参考。

1个附件

2.1K 消息

2015年12月14日 01:00

(二十七)Hadoop数据安全,数据湖安全解决方案

     数据湖对于大数据分析业务和企业集中存储数据的优势已经在前面几篇解决方案中详细介绍过了。作为大数据分析的主流应用Hadoop,是很多企业在大数据布局上都会部署的应用之一。利用Hadoop+数据湖的架构,当企业完成数据整合之后,存储在数据湖中的数据会面临一个必须要解决的问题,那就是“数据安全”。而这恰恰是原生态Hadoop所缺失的,虽然Hadoop能够与类似Active Directory之类的应用集成,但是这种集成的功能也只限于Hadoop应用,数据湖中的数据并没有获得比较好的保护,如果数据湖的安全不够强健,很可能会造成数据流失的风险。这篇白皮书描述了如何在EMC Isilon横向扩展NAS平台中对Hadoop的数据进行保护,包括身份管理、验证、访问控制、文件界别权限、WORM、Data-at-Rest、审计等诸多安全功能。

数据安全的政策,对于不同的行业有着不同的要求。白皮书中的列出了几个行业的数据安全标准:

Solution-27-1.png

PCI DSS标准的具体要求:

Solution-27-2.png

利用Isilon构建数据湖,Isilon可以提供如下的安全特性:

  • 基于角色的管理访问控制(RBAC):RBAC可以让管理员以角色来定义数据湖中的管理权限,管理员可以根据所分配的角色的最小权限来委派一些管理任务的权限。例如,让备份管理员获得的管理权限与系统管理员是不同的,只能执行备份任务。
  • WORM:WORM是Write Once Read Many的缩写。顾名思义,就是数据写入以后只读,不能被修改。通过Isilon的Smartlock功能,可以通过在整个Isilon系统级别或者目录级别应用WORM。
  • 身份管理、Kerberos验证、ID Mapping与User Mapping的控制Hadoop数据访问:Isilon可以通过集成例如Active Directory等身份管理服务,根据特定的用户或群主,实现目录或文件级别的访问控制。

Solution-27-3.png

  • Access Zone:可以实现多租户,在Hadoop多租户部署,Isilon Access Zone功能与案例中有详细介绍。
  • Data at Rest加密:支持离线数据的加密。
  • 访问端数据加密:根据访问数据的客户端的不同,Isilon可以通过与Vormetric Encryption Agent在Windows、Linux、Unix的客户机上支持数据传输前加密。
  • 审计与监控:Isilon的审计功能会跟踪文件的创建于删除,打开文件,以及管理上的配置变更等等。
  • 集成SIEM工具:Isilon允许集成Varonis DaAdvantage、Symantec Data Insight和其他事件监控工具。

更多详细内容见附件:

1个附件

2.1K 消息

2015年12月16日 22:00

     从本篇开始,楼主会分别介绍一些针对特定应用的解决方案。到目前为止,本篇连载中所分享的白皮全是英语的。而这部分的针对行业应用的解决方案,楼主会尽量找一些EMC已经翻译好中文的白皮书,放在帖子里面供大家下载。由于白皮书的内容基本上都是英语了,楼主在贴子正文中只会包含介绍白皮书中内容的概要。具体的内容读者可以直接下载看原文,当然有问题也可以随时跟帖提问。

(二十八)EMC VNX 存储系统上结合 SAP HANA 定制数据中心集成

业务案例

     客户在许多最重要的任务关键型职能(包括制造、财务会计、库存管理以及销售和营销)部署了 SAP HANA 数据库和集成的应用程序。这些职能及其他职能是企业的生命线,如果发生数据中断或丢失,可能会造成灾难性的后果。为确保企业所依赖的这些系统的可用性,需要有一种综合的业务连续性规划和执行方法。在发生灾难时恢复这些数据库,或者定期测试此恢复过程的有效性以满足业务和审核要求,这是 SAP 等联合系统的独特要求。

解决方案概述

     EMC VNX 系列广泛应用于 SAP 环境和任务关键型应用程序,并且可与传统数据库配合使用。EMC VNX 系列现在可针对 SAP HANA 数据库的软件和硬件层提供与传统数据库相同的可靠性平台。在此解决方案中,通过将包含一致性技术的 EMCMirrorViewTM 与 EMC SnapViewTM 快照组合使用,SAP 客户可针对整体 SAP 环境中的许多业务职能执行一致的复制以及可靠的恢复或测试。利用 MirrorView 和SnapView,可针对任务关键型环境提供同步和异步数据保护,从而实现完整的高可用性和业务连续性。

主要成果

     本白皮书中的使用情形提供了在 EMC VNX 系列阵列上使用多种经验证并且已被客户广泛应用的工具来实施 SAP HANA 存储复制的最佳做法。这些使用情形描述了使用 MirrorView 和 SnapView 的恢复操作,并展示了如何实施可恢复且可重启的远程数据库复制副本。

6个用例:

白皮书中提供了6个解决方案使用的情形用例已经配合操作步骤。

1. 建立用于灾难保护的远程镜像(同步或异步)

Solution-28-1.png

2. 到辅助站点的计划内故障切换(维护)

Solution-28-2.png

3. 到辅助站点的计划外故障切换(灾难)

Solution-28-3.png

4. 到主站点的回切

5. 跨多个 VNX 阵列的异步远程镜像

Solution-28-4.png

6. 在辅助站点创建可重启且可写入的数据库快照以用于重新调整用途

Solution-28-5.png

具体内容见附件:

1个附件

找不到事件!

Top