R语言常用数学函数 sum()、max()、min()、mean()、median() prod(x) 对x中的元素都连乘 which.max(x) 返回x中最大元素的下标 which.min(x) 返回x中最小元素的下标 range(x) 值域 rev(x) 对x中的 ...
2018-03-03R语言实现常用多重比较方法 在单因素方差分析ANOVA中,如果该因素影响比较显著,那么需要进一步利用多重比较方法比较该因素不同水平的影响,确定不同水平下该因素的影响是否显著。常见的多重比较方法主要有两种 ...
2018-03-03R语言中的引号 1单引号和双引号 两者都可以用于表示字符串分隔,用法和意义没有差别 如果字符串包含有分隔符本身,字符串内的分隔符引号需要转义(使用反斜杠) R语言字符串的打印/显示都是用双引号的 ...
2018-03-02
大数据分析整体技术流程及架构 本文对项目中所用到的大数据分析整体流程技术及其架构进行简要的总结,以供大家在大数据分析平台对数据处理流程更加明确 1.1数据处理流程 该项目是一个纯粹的数据分析项目 ...
2018-03-02
R语言进行单因素方差分析 方差分析(analysis of variance,ANOVA),能够找到类别独立变量和连续非独立变量之间的关系,主要用于检测不同的数据集的均值是否相同。如果样本中仅包含了一个变量作为独立变量,我 ...
2018-03-01
数据统计分析常用指标 在进行数据分析时,经常会遇到一些分析指标或术语。这些术语是帮助我们打开思路,通过多个角度对数据进行深度解读,可以说是前人已经总结和使用的数据分析方法。下面是数据统计分析常用的 ...
2018-03-01
大数据处理之道(预处理方法) 一:为什么要预处理数据? (1)现实世界的数据是肮脏的(不完整,含噪声,不一致) (2)没有高质量的数据,就没有高质量的挖掘结果(高质量的决策必须依赖于高 ...
2018-02-28Python编写检测数据库SA用户的方法 本文讲述一个用Python写的小程序,用于有注入点的链接,以检测当前数据库用户是否为sa,详细代码如下: # Code by zhaoxiaobu Email: little.bu@hotmail.com ...
2018-02-28
各种排序算法的时间复杂度 选择排序、快速排序、希尔排序、堆排序不是稳定的排序算法,冒泡排序、插入排序、归并排序和基数排序是稳定的排序算法。 排序算法不稳定的含义是: 在排序之前,有两个数相等. 但 ...
2018-02-27
常用几种排序算法的时间复杂度和空间复杂度 常用的排序算法的时间复杂度和空间复杂度 1、时间复杂度 (1)时间频度一个算法执行所耗费的时间,从理论上是不能算出来的,必须上机运行测试才能知道。 ...
2018-02-27R语言-统计学 描述性统计 描述定量数据的数值方法:中心趋势度量 变异的度量 相对位置的度量。 1.中心趋势度量 : 算数平均 中位数 众数 1.1在R中计算平均数的函数 mean( ) 常规的mean() 函数用法 ...
2018-02-26使用python实现生成用户信息 今天练习的时候要展示一个从用户信息列表,就想把他做成信息和修改在一起的一个网页,方便用户修改内容 考虑到要把信息和值分开放,那么肯定是字典了,因为需要保证位置不变,使用有 ...
2018-02-26常用的4种大数据分析方法 本文主要讲述数据挖掘分析领域中,最常用的四种数据分析方法:描述型分析、诊断型分析、预测型分析和指令型分析。 当刚涉足数据挖掘分析领域的分析师被问及,数据挖掘分析人员最重要的 ...
2018-02-25
关于描述性统计分析 在数据分析的时候,一般首先要对数据进行描述性统计分析(Descriptive Analysis),以发现其内在的规律,再选择进一步分析的方法。描述性统计分析要对调查总体所有变量的有关数据做统计性 ...
2018-02-25统计分析学习之数值分析方法 最近补了一些统计学的知识,大多都在这些年的学习中接触过,这里做个总结,以便回头方便看。 从以下几个方面对数值进行分析: 数值的位置 平均数与中位数 这个最常 ...
2018-02-24
R中基本统计分析方法整理 面对一大堆的数据,往往会让人眼花缭乱。但是只要使用一些简单图形和运算,就可以了解数据更多的特征。R提供了很多关于数据描述的函数,通过这些函数可以对数据进行一个简单地初步分 ...
2018-02-24
R语言基础语法 学习一个新编程语言的惯例是什么?,当然是编写一个“Hello,World!”,下面我们将演示如何使用R编程编写一个“Hello,World!”程序。根据需要,您可以在R命令提示符下编程,也可以使用R脚本 ...
2018-02-23Python使用defaultdict读取文件各列的方法 这篇文章主要介绍了Python使用defaultdict读取文件各列的方法,涉及Python针对文件相关读取、遍历操作技巧,需要的朋友可以参考下 具体如下: #!/usr/bin/python \" ...
2018-02-23Python读取文件内容的三种常用方式及效率比较 本文实例讲述了Python读取文件内容的三种常用方式。分享给大家供大家参考,具体如下: 本次实验的文件是一个60M的文件,共计392660行内容。 程序一: def one(): ...
2018-02-22数据分析老司机给新人们的四点建议 曾经面试过很多家公司,面试过很多岗位,如今沉淀一下仔细想想,有很多地方可以给一些建议,这一篇写给想入门、想转行的同学。 一、职业方向 谈面试之前,先聊聊数 ...
2018-02-22在数据工作的全流程中,数据清洗是最基础、最耗时,同时也是最关键的核心环节,无论后续是做常规数据分析、可视化报表,还是开展 ...
2026-03-20在大数据与数据驱动决策的当下,“数据分析”与“数据挖掘”是高频出现的两个核心概念,也是很多职场人、入门学习者容易混淆的术 ...
2026-03-20在CDA(Certified Data Analyst)数据分析师的全流程工作闭环中,统计制图是连接严谨统计分析与高效业务沟通的关键纽带,更是CDA ...
2026-03-20在MySQL数据库优化中,分区表是处理海量数据的核心手段——通过将大表按分区键(如时间、地域、ID范围)分割为多个独立的小分区 ...
2026-03-19在商业智能与数据可视化领域,同比、环比增长率是分析数据变化趋势的核心指标——同比(YoY)聚焦“长期趋势”,通过当前周期与 ...
2026-03-19在数据分析与建模领域,流传着一句行业共识:“数据决定上限,特征决定下限”。对CDA(Certified Data Analyst)数据分析师而言 ...
2026-03-19机器学习算法工程的核心价值,在于将理论算法转化为可落地、可复用、高可靠的工程化解决方案,解决实际业务中的痛点问题。不同于 ...
2026-03-18在动态系统状态估计与目标跟踪领域,高精度、高鲁棒性的状态感知是机器人导航、自动驾驶、工业控制、目标检测等场景的核心需求。 ...
2026-03-18“垃圾数据进,垃圾结果出”,这是数据分析领域的黄金法则,更是CDA(Certified Data Analyst)数据分析师日常工作中时刻恪守的 ...
2026-03-18在机器学习建模中,决策树模型因其结构直观、易于理解、无需复杂数据预处理等优势,成为分类与回归任务的首选工具之一。而变量重 ...
2026-03-17在数据分析中,卡方检验是一类基于卡方分布的假设检验方法,核心用于分析分类变量之间的关联关系或实际观测分布与理论期望分布的 ...
2026-03-17在数字化转型的浪潮中,企业积累的数据日益庞大且分散——用户数据散落在注册系统、APP日志、客服记录中,订单数据分散在交易平 ...
2026-03-17在数字化时代,数据分析已成为企业决策、业务优化、增长突破的核心支撑,从数据仓库搭建(如维度表与事实表的设计)、数据采集清 ...
2026-03-16在数据仓库建设、数据分析(尤其是用户行为分析、业务指标分析)的实践中,维度表与事实表是两大核心组件,二者相互依存、缺一不 ...
2026-03-16数据是CDA(Certified Data Analyst)数据分析师开展一切工作的核心载体,而数据读取作为数据生命周期的关键环节,是连接原始数 ...
2026-03-16在用户行为分析实践中,很多从业者会陷入一个核心误区:过度关注“当前数据的分析结果”,却忽视了结果的“泛化能力”——即分析 ...
2026-03-13在数字经济时代,用户的每一次点击、浏览、停留、转化,都在传递着真实的需求信号。用户行为分析,本质上是通过收集、整理、挖掘 ...
2026-03-13在金融、零售、互联网等数据密集型行业,量化策略已成为企业挖掘商业价值、提升决策效率、控制经营风险的核心工具。而CDA(Certi ...
2026-03-13在机器学习建模体系中,随机森林作为集成学习的经典算法,凭借高精度、抗过拟合、适配多场景、可解释性强的核心优势,成为分类、 ...
2026-03-12在机器学习建模过程中,“哪些特征对预测结果影响最大?”“如何筛选核心特征、剔除冗余信息?”是从业者最常面临的核心问题。随 ...
2026-03-12