大数据存储方案为教育信息化提速_数据分析师考试
在大数据时代,大数据在教育领域有了越来越广泛的应用,学校拥有可用的、高质量的海量数据逐渐成为现实,但如何保护这些海量、非结构化的用户数据,并时时进行信息挖掘,给未来教育带来更大的可能,则对教育研究者的想象力提出了挑战。正如上海易班发展中心主任、易班网CEO朱明伦所言:“易班的海量数据需要安全可靠的存储,帮我们解决数据存储问题,同时在数据安全性、容灾备份给与更多帮助。
大数据需求凸现
易班全称“易班学生网络互动社区”,其前身是“上海大学生在线”,是中国第一家面向大学生的实名互动平台。该网站不仅提供BBS、SNS、博客、微博、手机互联等多种新型互联网应用,同时根据高校的特点,研发了话题、日程表等基于班级的特色应用,交流大量的优质教育资源。
作为上海市高校师生互动交流的主要平台,基本覆盖了上海的全部大学生,60余所高校里,现有55所学校基本上100%进易班,用户量已达50多万,日均访问IP超过25万,日均点击率达到80万次。目前用户数据量已经达到30TB,并且每天以GB数量级激增。庞大的数据已经造成现有硬件存储设备严重欠负载状态,就目前的负载情况来看,易班仅能为二万左右的新用户提供服务。易班数据来源复杂而且拥有大量非结构化数据,整体数据管理工作面临很大压力,因此需要一个专业的规划师来帮助建设虚拟数据中心,以解燃眉之急。
不久前,易班采用了EMC Celerra NS-480 存储系统作为主存储,构建第一个虚拟化数据中心,EMC方案的应用很好解决了原有盘柜存储的若干问题,主要表现在改善系统扩容,对磁盘运行情况实现智能预警,提升响应速度,节约成本等方面。很值得众多方案商借鉴。
实效:显著改善数据管理水平
EMC的Isilon NL 系列为第二数据中心提供了非结构化数据的高性能承载,为将来的无缝扩容提供了保障。Isilon能自动根据存储对象扩容,透明方便。整个存储空间有较大的平行扩展能力,使客户不再担心空间容量问题,是诸如易班这类网站用于存储海量非结构化数据的理想选择。
EMC统一存储把读写频繁的数据放在闪存里,读写不频繁的依次往下排列,实现了自动化、智能化的数据存储和管理,改善了以前盘柜形式单一、难以整合的情况。同时,在价格上比全部使用盘柜闪存更低,读写速率也比单独使用SAS或SATA更快,达到了真正的经济高效。相比于原有的盘柜来说,相同一个网页页面处理时间为60毫秒,现在使用EMC统一存储系统后,只需40多毫秒就可以实现,速率提升至少20%以上,整体上比机架加盘柜形式处理效率更高。
之前,由于易班网站对磁盘的读写频率很高,所以碰到磁盘故障的概率较高,如未及时处理,将面临数据丢失的风险。之前易班都通过人工定期检查,不仅费时费力,还不能及时发现问题。EMC解决方案有完善的管理软件,还有一个预警机制,一旦磁盘出现故障,可以实时发现并自动报警。同时,EMC工程师经验丰富,在几次帮助易班系统升级时表现都很专业,降低了数据丢失以及不完整的风险,保证数据在升级过程中平稳安全。
使用EMC解决方案后,易班数据中心不再像之前一样配备较多人员,还经常出现手忙脚乱的局面了。现在虽然数据量增加了,但数据中心运维部仍然只有四个人,负责管理网络、服务器、存储和应用软件。存储方面节省了大量人力。
EMC方案可以对关键的数据集(如 MS SQL 数据库)提供容灾保护,实现起来并不复杂。EMC VNX5500可以提供超过30TB的容量,结合RecoverPoint软件,有效实现了两个数据中心内的连续数据保护,如下图,在VNX5500出现问题时,自动连接到另一数据中心的Celerra NS-480,保证了网站稳定运行。
图1 易班数据中心部署架构示意图
方案保障数据高效运转
易班对于数据存储的总体要求非常高,但这些需求对EMC来说都不是难事儿,在易班截至目前三期的项目中,EMC先后提供了Celerra NS-480 + VNX5500 +RecoverPoint+Isilon一整套精英利器,这些武器功能非凡,整合在一起,可以完美解决易班数据管理问题。
EMC Celerra NS-480 统一存储系统最先出场。Celerra为多协议环境提供了高级故障切换和全自动存储分层功能。最多可扩展到480 个磁盘,超越直连存储限制。使用 EMC Unisphere管理软件简化了常见管理任务,通过文件系统重复数据消除、FAST 缓存、虚拟资源调配和自动化卷管理实现更高的效率。
VNX5500统一存储是EMC虚拟应用程序优化的高性能统一存储平台,存储容量超过30TB,其自我优化的存储分层和以应用程序为中心的复制能力,可以优化闪存、SAS 和近线 SAS 驱动器中的数据。它的应用无疑是为易班更好驾驭这些大数据,提升混合工作负载的运行速度,极大提升性能。
易班现在除了数据库服务器外,其余都将运行在虚拟化软件。现在物理机有8个刀片,虚拟机数量有30多台。在项目三期里预计将增加十几块刀片,虚拟机的数量达到300多个。EMC RecoverPoint可利用多个恢复点将应用程序即时恢复到特定时间点,从而提供连续数据保护,这一点可以很好满足客户对业务连续性、数据安全性方面的高要求。
横向扩展存储专家EMC Isilon具备极高的存储处理通量,部署简单而又具有高扩展性。它能够加速用户对数字内容和非结构化数据的存取,极大地减少存储系统的复杂性,降低存储成本,同时可线性扩展其性能和容量,是易班用于存储海量非结构化数据的优先选择。
另外,由 EMC、Cisco、VMware 三方联盟所提供的最优化IT 基础设施VCE构架参考方案,VCE构架吞吐量比盘柜的更大,服务器和阵列之间的交换速率能达4GB/s,这样的处理速度,是易班之前无法达到的。
数据分析咨询请扫描二维码
数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20在现代社会的快速变迁中,选择一个具有长期增长潜力的行业显得至关重要。了解未来发展前景好的行业不仅能帮助我们进行职业选择, ...
2024-11-20统计学专业的就业方向和前景非常广泛且充满机遇。随着大数据、人工智能等技术的快速发展,统计学的重要性进一步凸显,相关人才的 ...
2024-11-20