大数据下的用户行为分析
1. Consumer behaviour is the study of when,why,how
and where people do or don't buy a product。
用户行为一般指用户通过中间资源,购买、使用和评价某种产品的记录。同时辅以用户、资源、产品自身及环境的信息。
用户行为记录一般可以表示一组属性的集合:{属性1,属性2,...,属性N}
2. 用户行为分析主要是研究对象用户的行为。数据来源包括用户的日志信息、用户主体信息和外界环境信息。通过特定的工具对用户在互联网/移动互联网上的行为进行记录,记录的信息通常称为用户日志。
数据内容:
(1)网站日志:用户在访问某个目标网站时,网站记录的用户相关行为信息;
(2)搜索引擎日志:搜索引擎日志系统所记录的用户在搜索引擎上的相关行为信息;
(3)用户浏览日志:通过特定的工具和途径记录用户所记录的用户在该搜索引擎上的相关行为信息;
(4)用户主体数据:如用户群的年龄、受教育程度、兴趣爱好等;
(5)外界环境数据:如移动互联网流量、手机上网用户增长、自费套餐等;
数据特点:
(1)大数据量/海量数据,big data;
(2)实时分析/准实时分析、离线分析;
(3)由于用户日志包含大量用户个人信息,为避免涉及过多的用户隐私,日志工具通常对用户个人信息进行加密,不涉及具体用户行为的细节内容,保护用户隐私;
(4)日志信息通常含有较多的噪音,因此,基于个人行为信息分析得到的结论常常存在着很大的不可靠性。
3. 用户行为分析平台主要面临海量数据处理困难、分析模型算法复杂、建设和运营成本高昂等方面的技术难点和挑战。
海量数据处理困难:
(1)问题:面临TB甚至PB级的海量数据,传统关系数据库存储尚可,但对OLAP分析效仿低下;
(2)难点:如何可实现可扩展的数据存储、灵活快捷的数据访问?
(3)思路:利用Nosql数据库解决大数据存储,通过水平扩展读写负载提高访问性能;
分析模型算法复杂:
(1)问题:分析需要运用预警预测、聚类、协同过滤等数据挖掘算法,算法的编程复杂度和计算复杂度都非常大;
(2)难点:如何实现分析模型,并提供实时高速的复杂分析;
(3)思路:改造开源的数据挖掘模型库,并运用Hadoop等并行计算框架;
建设和运维成本高昂:
(1)问题:传统数据库和分析软件进行海量数据分析将导致天价的软件授权许可费用;外部数据分析服务同样价格昂贵,并且面临安全性和灵活性局限;
(2)难点:如何低成本高效率的建设和运维系统?
(3)思路:基于可靠的开源解决方案构建独立自主经济灵活的分析平台。
4. Hadoop是基于Google有关大数据的论文实现的开源项目,最初的框架由Doug
Cutting在2005年提出,目前是由Apache维护的开源项目。从最初到现在,Hadoop系统在7年中开发完成了一系列重要的子项目,已经形成了一个涵盖数据存储、管理和分析功能的较为完整的大数据生态系统,成为大数据存储与处理领域地位最重要、应用最广泛的开源框架。
核心组件:
(1)MapReduce:
· Hadoop的分析式并行处理框架;
· 实现对HDFS上海量数据的批量分析;
(2)HDFS:
· Hadoop的一个分布式文件系统;
· 高容错性,部署在低廉商业硬件;
· 提供高吞吐量,适合批量处理;
Hadoop是运行在大量通常计算单位上提供海量数据存储与并行计算的平台框架:
· 基于x86集群水平可扩展;
· 基于MapReduce的并行计算能力;
· 设计规模:PB级的数据量,数千台计算节点;
5. Hadoop的优势:
(1)高可靠性:
· 按位存储和处理数据的能力值得信赖;
(2)高扩展性:
· 可以管理数以千计的存储和计算节点;
(3)高性能:
· 实现数千计算节点的并行计算;
(4)高容错性:
· 自动备份和自动失败任务重起;
Hadoop的不足:
(1)性能可优化:
· 与硬件的理论性能存在差距,具有优化空间;
(2)可扩展性和可靠性:
· 受单一Namenode,单一Jobtracker的设计严重制约,存在明显的单点故障源;
· 单一的Namenode的内容容量和性能有限,使得Hadoop集群的节点数量被限制到2000个左右,能支持的文件系统被限制在10-50PB,最多支持的文件数量大约为1.5亿;
(3)欠缺各种企业特性:
· 企业的个性化需求、定制化开发和可靠的运营维护服务;
企业版Hadoop改进主要方向:
(1)消除单点故障制约;
(2)改进MapReduce;
(3)完善数据管理和数据源整合;
(4)镜像、快照等容灾能力;
(5)可靠的服务支持;
6.
数据挖掘算法的编程复杂度和计算复杂度都非常大,往往称为制约分析项目按期完成的瓶颈,精细化运营分析平台利用支持Hadoop并行计算框架的开源数据挖掘模型数据库Mahout,实现了数据挖掘算法的快速实施和高效表现。基于这些经验,未来我们将研究整合其他的开源算法库(如Weka和R等),以及商业算法库,以保证分析的精确性和性能。
利用Mahout的聚类和协同过滤算法库的实现价值评估分析和智能推荐引擎。
7. 用户行为分析平台建立了大量的分析主题,分析结果的呈现能力对平台的应用效能影响重大。利用研制管理决策支持系统的经验,我们可以提供灵活可制定的报表编制和数据展现方式,并建立了主动推送和移动跨平台访问结合的数据访问能力,提高分析材料的生成和呈现速度。
数据分析咨询请扫描二维码
需求持续增长 - 未来数据分析师需求将持续上升,企业对数据驱动决策的依赖加深。 - 预测到2025年,中国将需要高达220万的数据人 ...
2024-11-22《Python数据分析极简入门》 第2节 4 Pandas条件查询 在pandas中,可以使用条件筛选来选择满足特定条件的数据 importpanda ...
2024-11-22数据分析师的工作内容涉及多个方面,主要包括数据的收集、整理、分析和可视化,以支持商业决策和问题解决。以下是数据分析师的一 ...
2024-11-21数据分析师必须掌握的技能可以从多个方面进行归纳和总结。以下是数据分析师需要具备的主要技能: 统计学基础:数据分析师需要 ...
2024-11-21数据分析入门的难易程度因人而异,总体来看,入门并不算特别困难,但需要一定的学习和实践积累。 入门难度:数据分析入门相对 ...
2024-11-21数据分析是一项通过收集、整理和解释数据来发现有用信息的过程,它在现代社会中具有广泛的应用和重要性。数据分析能够帮助人们更 ...
2024-11-21数据分析行业正在迅速发展,随着技术的不断进步和数据量的爆炸式增长,企业对数据分析人才的需求也与日俱增。本文将探讨数据分析 ...
2024-11-21数据分析的常用方法包括多种技术,每种方法都有其特定的应用场景和优势。以下是几种常见的数据分析方法: 对比分析法:通过比 ...
2024-11-21企业数字化转型是指企业利用数字技术对其业务进行改造和升级,以实现提高效率、降低成本、创新业务模式等目标的过程。这一过程不 ...
2024-11-21数据分析作为一个备受追捧的职业领域,吸引着越来越多的女性加入其中。对于女生而言,在选择成为一名数据分析师时,行业选择至关 ...
2024-11-21大数据技术专业主要学习计算机科学、数学、统计学和信息技术等领域的基础理论和技能,旨在培养具备大数据处理、分析和应用能力的 ...
2024-11-21《Python数据分析极简入门》 第2节 3 Pandas数据查看 这里我们创建一个DataFrame命名为df: importnumpyasnpi ...
2024-11-21越老越吃香的行业主要集中在需要长时间经验积累和专业知识的领域。这些行业通常知识更新换代较慢,因此随着年龄的增长,从业者能 ...
2024-11-20数据导入 使用pandas库的read_csv()函数读取CSV文件或使用read_excel()函数读取Excel文件。 支持处理不同格式数据,可指定分隔 ...
2024-11-20大数据与会计专业是一门结合了大数据分析技术和会计财务理论知识的新型复合型学科,旨在培养能够适应现代会计业务新特征的高层次 ...
2024-11-20要成为一名数据分析师,需要掌握一系列硬技能和软技能。以下是成为数据分析师所需的关键技能: 统计学基础 理解基本的统计概念 ...
2024-11-20是的,Python可以用于数据分析。Python在数据分析领域非常流行,因为它拥有丰富的库和工具,能够高效地处理从数据清洗到可视化的 ...
2024-11-20在这个数据驱动的时代,数据分析师的角色变得愈发不可或缺。他们承担着帮助企业从数据中提取有价值信息的责任,而这些信息可以大 ...
2024-11-20数据分析作为现代信息时代的支柱之一,已经成为各行业不可或缺的工具。无论是在商业、科研还是日常决策中,数据分析都扮演着至关 ...
2024-11-20数字化转型已成为当今商业世界的热点话题。它不仅代表着技术的提升,还涉及企业业务流程、组织结构和文化的深层次变革。理解数字 ...
2024-11-20