Hunk/Hadoop: 性能最佳实践
文 | Jonathan Allen
翻译 | 李建盛
无论有没有使用Hunk,当运行Hadoop时,有很多种方式导致偶尔的性能底下。多数时候人们是增加更多的硬件来解决问题,但是有时候只需要简单更改下文件的名称就可以解决问题。
运行Map-Reduce任务[Hunk]
Hunk运行在Hadoop之上,但是这并不意味着一定做到有效的使用。如果Hunk运行在“复杂模式”,而不是“智能模式”的话,它就没有真正的用到Map-Reduce。相反它会直接将所有的Hadoop数据拉到Splunk引擎,并在那里处理它。
HDFS存储[hadoop]
在Hadoop的很多事项和Hunk有关联时如何部署文件?你需要在文件路径中包含时间戳,Hunk可以使用目录结构来当作一个过滤器,可以极大的减少被拉到Splunk的数据量。
在文件名称中包含时间戳也可以生效,但是效果较差,因为Hunk仍然会读取所有的文件名。
为了更好的性能,你可以在文件路径中包含一个健-值对。例如 “…/2015/3/2/app=webserver/…” 。在遍历目录时查询指令会将包含键-值对的过滤掉,再次减少了被拉到Splunk的数据量。
基于时间戳的VIX/indexs.conf[hunk]
当文件存储模式对于任何的Hadoop Map-Reduce有利时,你就需要修改indexs.conf,以让Hunk可以识别目录结构。
文件格式[Hunk]
诸如JSON和CSV这样的自我描述的文件,对于Hunk来说是很容易读取的,它们更加的详细,且消除了代价昂贵的映射操作。
压缩类型/文件大小 [Hdaoop]
要避免过大的文件,例如500MB的GZ压缩且没有分片的文件。(诸如LZO压缩的分片文件也是可以接受的。)对于没有分片的文件来说,在core和文件之间是一对一的映射关系,这就意味着只能有一个core来处理大文件,而其它定core只能空转等待。也就是说处理没有分片的文件花费了大量的时间,那么Map-Reduce的任务就无法快速的处理。
同样,你也应该避免使用大量的大小在几十KB到几百KB之间的碎文件。如果文件太小,你会在启动和管理任务花费大量的时间,而不是真正的用在处理数据本身之上。
报告加速[hunk]
Hunk现在可以利用Splunk的报告加速功能了,这会在HDFS中缓存搜索的结果,减少或消除了需要从主的Hadoop集群中读取数据量。
在你启用此功能之前,请确保你的Hadoop集群拥有足够的空间来存储缓存。
硬件[Hadoop]
确保你拥有合适的硬件。虽然Hadoop是能够运行在甚至是双核的笔记本电脑中,但是你要真正使用它,还是需要每个节点拥有至少4颗4个核的CPU,为了能够确保拥有足够的暂存空间,你须配置至少12GB的内存,两块本地磁盘(10K或固态)
搜索Head Clustering[Hunk]
搜索Head Clustering在Splunk 6.2中是相对较新的一个特性,在Splunk6.3中,对于基于Hunk的查询将是一个可行的属性。
来自InfoQ
数据分析咨询请扫描二维码
数据收集与整理 - 从各种来源收集数据,清洗和整理以确保数据质量和可用性。 数据分析与建模 - 运用统计学方法和机器学习模型对 ...
2024-11-26技术技能 - 编程能力: 数据分析师需要掌握至少一门编程语言,如Python、R或SQL。这些语言对于数据处理、建模和分析至关重要。例 ...
2024-11-26数据分析领域涵盖多样性岗位,根据工作职责和技能需求划分。这些角色在企业中扮演关键角色,帮助组织制定战略、优化流程并实现商 ...
2024-11-26数据分析是一种通过收集、处理、解释和展示数据,以获得见解和决策支持的过程。这个领域涉及使用统计学、计算机科学和商业智能等 ...
2024-11-26数据分析领域正日益成为当今商业世界中不可或缺的一环。随着数据量的爆炸式增长,企业越来越需要能够从这些海量信息中提炼出宝贵 ...
2024-11-26数据分析师需要学习的课程内容非常广泛,涵盖了从基础理论到实际应用的多个方面。在追求这一职业道路上,合适的教育和培训至关重 ...
2024-11-26数据分析师作为当今信息时代中关键的职业之一,扮演着解释、预测和推动决策的重要角色。他们需要多方位技能来处理各种复杂的数据 ...
2024-11-26数据分析师在今天的商业环境中扮演着至关重要的角色。他们需要应对各种复杂的数据分析任务和业务需求,这要求他们具备广泛的技能 ...
2024-11-26在当今快速变化的技术和市场环境中,数字化转型是企业利用数字技术全面重新设计和改造业务的重要过程。这一转型旨在通过整合云计 ...
2024-11-26数字化转型: 是企业在现代技术和市场环境不断变化的背景下,利用数字技术对其业务进行全面的重新设计和改造的过程。其核心目标是 ...
2024-11-26理论基础与高级学习 数学专业理论基础: 学生首先需要掌握数学的基础理论,包括数学分析、高等代数、几何学、常微分方程、实变函 ...
2024-11-26数字化转型:现代企业蜕变的引擎 数字化转型已然成为当今企业持续发展的关键支柱。这一过程并非简单的技术升级,更是涉及企业文 ...
2024-11-26# 数据科学与大数据技术专业学什么?就业前景与行业需求 **数字化转型:引领企业进步的关键** 数字化转型是现代企业发展的必经 ...
2024-11-26理论部分 - 基础数学理论: - 学生首先需要掌握数学的基础理论,包括数学分析、高等代数、几何学、常微分方程等。 - 这些课程 ...
2024-11-26在选择数据科学和大数据技术专业时,了解不同领域的职责和技能需求至关重要。数据治理工程师是这一领域中不可或缺的角色之一,承 ...
2024-11-26基础课程 统计学基础 - 统计学是数据分析的基石,包括概率、假设检验、回归分析等基本知识,有助于理解数据背后的意义。 - ...
2024-11-26数据分析是一门综合性学科,涉及多个领域的知识和技能。要全面掌握数据分析,需要学习以下内容: 基础课程 统计学基础:统计学 ...
2024-11-26数据治理工程师在当今信息时代扮演着至关重要的角色,负责确保组织内数据的质量、安全性和可用性。他们需要具备一系列技能和才能 ...
2024-11-26在当今数字化时代,数据被誉为新的石油,是企业最有价值的资产之一。因此,建立有效的数据战略规划对于企业的成功至关重要。数据 ...
2024-11-26<section id=
2024-11-26