常用排序算法比较与分析-CDA数据分析师官网

常用排序算法比较与分析

2018-01-09

常用排序算法比较与分析

一、常用排序算法简述

下面主要从排序算法的基本概念、原理出发,分别从算法的时间复杂度、空间复杂度、算法的稳定性和速度等方面进行分析比较。依据待排序的问题大小(记录数量 n)的不同，排序过程中需要的存储器空间也不同，由此将排序算法分为两大类：【内排序】、【外排序】。

内排序：指排序时数据元素全部存放在计算机的随机存储器RAM中。

外排序：待排序记录的数量很大，以致内存一次不能容纳全部记录，在排序过程中还需要对外存进行访问的排序过程。

先了解一下常见排序算法的分类关系(见图1-1)

图1-1 常见排序算法

二、内排序相关算法

2.1 插入排序

核心思想：将一个待排序的数据元素插入到前面已经排好序的数列中的适当位置，使数据元素依然有序，直到待排序数据元素全部插入完为止。

2.1.1 直接插入排序

核心思想：将欲插入的第i个数据元素的关键码与前面已经排序好的i-1、i-2 、i-3、 … 数据元素的值进行顺序比较，通过这种线性搜索的方法找到第i个数据元素的插入位置，并且原来位置的数据元素顺序后移，直到全部排好顺序。

直接插入排序中，关键词相同的数据元素将保持原有位置不变，所以该算法是稳定的，时间复杂度的最坏值为平方阶O(n2)，空间复杂度为常数阶O(l)。

Python源代码：

#-------------------------直接插入排序--------------------------------
def insert_sort(data_list):
#遍历数组中的所有元素，其中0号索引元素默认已排序，因此从1开始
for x in range(1, len(data_list)):
#将该元素与已排序好的前序数组依次比较，如果该元素小，则交换
#range(x-1,-1,-1):从x-1倒序循环到0
for i in range(x-1, -1, -1):
#判断：如果符合条件则交换
if data_list[i] > data_list[i+1]:
temp = data_list[i+1]
data_list[i+1] = data_list[i]
data_list[i] = temp

2.1.2 希尔排序

核心思想：是把记录按下标的一定增量分组，对每组使用直接插入排序算法排序;随着增量逐渐减少，每组包含的关键词越来越多，当增量减至1时，整个文件恰被分成一组，算法便终止。

希尔排序时间复杂度会比O(n2)好一些，然而，多次插入排序中，第一次插入排序是稳定的，但在不同的插入排序过程中，相同的元素可能在各自的插入排序中移动，所以希尔排序是不稳定的。

Python源代码：

#-------------------------希尔排序-------------------------------
def insert_shell(data_list):
#初始化step值，此处利用序列长度的一半为其赋值
group = int(len(data_list)/2)
#第一层循环：依次改变group值对列表进行分组
while group > 0:
#下面：利用直接插入排序的思想对分组数据进行排序
#range(group,len(data_list)):从group开始
for i in range(group, len(data_list)):
#range(x-group,-1,-group):从x-group开始与选定元素开始倒序比较，每个比较元素之间间隔group
for j in range(i-group, -1, -group):
#如果该组当中两个元素满足交换条件，则进行交换
if data_list[j] > data_list[j+group]:
temp = data_list[j+group]
data_list[j+group] = data_list[j]
data_list[j] = temp
#while循环条件折半
group = int(group / 2)

2.2 选择排序

核心思想：每一趟扫描时，从待排序的数据元素中选出关键码最小或最大的一个元素，顺序放在已经排好顺序序列的最后，直到全部待排序的数据元素排完为止。

2.2.1 直接选择排序

核心思想：给每个位置选择关键码最小的数据元素，即：选择最小的元素与第一个位置的元素交换，然后在剩下的元素中再选择最小的与第二个位置的元素交换，直到倒数第二个元素和最后一个元素比较为止。

根据其基本思想，每当扫描一趟时，如果当前元素比一个元素小，而且这个小元素又出现在一个和当前元素相等的元素后面，则它们的位置发生了交换，所以直接选择排序时不稳定的，其时间复杂度为平方阶O(n2)，空间复杂度为O(l)。

Python源代码：

#-------------------------直接选择排序-------------------------------
def select_sort(data_list):
#依次遍历序列中的每一个元素
for i in range(0, len(data_list)):
#将当前位置的元素定义此轮循环当中的最小值
minimum = data_list[i]
#将该元素与剩下的元素依次比较寻找最小元素
for j in range(i+1, len(data_list)):
if data_list[j] < minimum:
temp = data_list[j];
data_list[j] = minimum;
minimum = temp
#将比较后得到的真正的最小值赋值给当前位置
data_list[i] = minimum

2.2.2 堆排序

堆排序时对直接选择排序的一种有效改进。

核心思想：将所有的数据建成一个堆，最大的数据在堆顶，然后将堆顶的数据元素和序列的最后一个元素交换;接着重建堆、交换数据，依次下去，从而实现对所有的数据元素的排序。完成堆排序需要执行两个动作：建堆和堆的调整，如此反复进行。

堆排序有可能会使得两个相同值的元素位置发生互换，所以是不稳定的，其平均时间复杂度为0(nlog2n)，空间复杂度为O(l)。

Python源代码：

#-------------------------堆排序--------------------------------
#**********获取左右叶子节点**********
def LEFT(i):
return 2*i + 1
def RIGHT(i):
return 2*i + 2
#********** 调整大顶堆 **********
#data_list:待调整序列 length: 序列长度 i:需要调整的结点
def adjust_max_heap(data_list,length,i):
#定义一个int值保存当前序列最大值的下标
largest = i
#执行循环操作：两个任务：1 寻找最大值的下标；2.最大值与父节点交换
while 1:
#获得序列左右叶子节点的下标
left, right = LEFT(i), RIGHT(i)
#当左叶子节点的下标小于序列长度并且左叶子节点的值大于父节点时，将左叶子节点的下标赋值给largest
if (left < length) and (data_list[left] > data_list[i]):
largest = left
#print('左叶子节点')
else:
largest = i
#当右叶子节点的下标小于序列长度并且右叶子节点的值大于父节点时，将右叶子节点的下标值赋值给largest
if (right < length) and (data_list[right] > data_list[largest]):
largest = right
#print('右叶子节点')
#如果largest不等于i 说明当前的父节点不是最大值，需要交换值
if (largest != i):
temp = data_list[i]
data_list[i] = data_list[largest]
data_list[largest] = temp
i = largest
#print(largest)
continue
else:
break
#********** 建立大顶堆 **********
def build_max_heap(data_list):
length = len(data_list)
for x in range(int((length-1)/2),-1,-1):
adjust_max_heap(data_list,length,x)
#********** 堆排序 **********
def heap_sort(data_list):
#先建立大顶堆，保证最大值位于根节点；并且父节点的值大于叶子结点
build_max_heap(data_list)
#i：当前堆中序列的长度.初始化为序列的长度
i = len(data_list)
#执行循环：1. 每次取出堆顶元素置于序列的最后(len-1,len-2,len-3...)
# 2. 调整堆，使其继续满足大顶堆的性质，注意实时修改堆中序列的长度
while i > 0:
temp = data_list[i-1]
data_list[i-1] = data_list[0]
data_list[0] = temp
#堆中序列长度减1
i = i-1
#调整大顶堆
adjust_max_heap(data_list, i, 0)

2.3交换排序

核心思想：顾名思义，就是一组待排序的数据元素中，按照位置的先后顺序相互比较各自的关键码，如果是逆序，则交换这两个数据元素，直到该序列数据元素有序为止。

2.3.1 冒泡排序

核心思想：对于待排序的一组数据元素，把每个数据元素看作有重量的气泡，按照轻气泡不能在重气泡之下的原则，将未排好顺序的全部元素自上而下的对相邻两个元素依次进行比较和调整，让较重的元素往下沉，较轻的往上冒。

根据基本思想，只有在两个元素的顺序与排序要求相反时才将调换它们的位置，否则保持不变，所以冒泡排序时稳定的。时间复杂度为平方阶O(n2)，空间复杂度为O(l)。

Python源代码：

#-------------------------冒泡排序--------------------------------
def bubble_sort(data_list):
length = len(data_list)
#序列长度为length，需要执行length-1轮交换
for x in range(1,length):
#对于每一轮交换，都将序列当中的左右元素进行比较
#每轮交换当中，由于序列最后的元素一定是最大的，因此每轮循环到序列未排序的位置即可
for i in range(0,length-x):
if data_list[i] > data_list[i+1]:
temp = data_list[i]
data_list[i] = data_list[i+1]
data_list[i+1] = temp

2.3.2 快速排序

快速排序是对冒泡排序本质上的改进。

核心思想：是一个就地排序，分而治之，大规模递归的算法。即：通过一趟扫描后确保基准点的这个数据元素的左边元素都比它小、右边元素都比它大，接着又以递归方法处理左右两边的元素，直到基准点的左右只有一个元素为止。

快速排序时一个不稳定的算法，其最坏值的时间复杂度为平方阶O(n2)，空间复杂度为O(log2n)。

Python源代码：

#-------------------------快速排序--------------------------------
#data_list：待排序的序列；start排序的开始index,end序列末尾的index
#对于长度为length的序列：start = 0;end = length-1
def quick_sort(data_list,start,end):
if start < end:
i , j , pivot = start, end, data_list[start]
while i < j:
#从右开始向左寻找第一个小于pivot的值
while (i < j) and (data_list[j] >= pivot):
j = j-1
#将小于pivot的值移到左边
if (i < j):
data_list[i] = data_list[j]
i = i+1
#从左开始向右寻找第一个大于pivot的值
while (i < j) and (data_list[i] < pivot):
i = i+1
#将大于pivot的值移到右边
if (i < j):
data_list[j] = data_list[i]
j = j-1
#循环结束后，说明 i=j，此时左边的值全都小于pivot,右边的值全都大于pivot
#pivot的位置移动正确，那么此时只需对左右两侧的序列调用此函数进一步排序即可
#递归调用函数：依次对左侧序列：从0 ~ i-1//右侧序列：从i+1 ~ end
data_list[i] = pivot
#左侧序列继续排序
quick_sort(data_list,start,i-1)
#右侧序列继续排序
quick_sort(data_list,i+1,end)

2.4归并排序

核心思想：把数据序列递归地分成短序列，即把1分成2、2分成4、依次分解，当分解到只有1个一组的时候排序这些分组，然后依次合并回原来的序列，不断合并直到原序列全部排好顺序。

合并过程中可以确保两个相等的当前元素中，把处在前面的元素保存在结果序列的前面，因此归并排序是稳定的，其时间复杂度为O(nlog2n)，空间复杂度为O(n)。

Python源代码：

#-------------------------归并排序--------------------------------
#这是合并的函数
# 将序列data_list[first...mid]与序列data_list[mid+1...last]进行合并
def mergearray(data_list,first,mid,last,temp):
#对i,j,k分别进行赋值
i,j,k = first,mid+1,0
#当左右两边都有数时进行比较，取较小的数
while (i <= mid) and (j <= last):
if data_list[i] <= data_list[j]:
temp[k] = data_list[i]
i = i+1
k = k+1
else:
temp[k] = data_list[j]
j = j+1
k = k+1
#如果左边序列还有数
while (i <= mid):
temp[k] = data_list[i]
i = i+1
k = k+1
#如果右边序列还有数
while (j <= last):
temp[k] = data_list[j]
j = j+1
k = k+1
#将temp当中该段有序元素赋值给data_list待排序列使之部分有序
for x in range(0,k):
data_list[first+x] = temp[x]
# 这是分组的函数
def merge_sort(data_list,first,last,temp):
if first < last:
mid = (int)((first + last) / 2)
#使左边序列有序
merge_sort(data_list,first,mid,temp)
#使右边序列有序
merge_sort(data_list,mid+1,last,temp)
#将两个有序序列合并
mergearray(data_list,first,mid,last,temp)
# 归并排序的函数
def merge_sort_array(data_list):
#声明一个长度为len(data_list)的空列表
temp = len(data_list)*[None]
#调用归并排序
merge_sort(data_list,0,len(data_list)-1,temp)

2.5 基数排序

核心思想：首先是低位排序，然后收集;其次是高位排序，然后再收集;依次类推，直到最高位。

Python源代码：

#-------------------------基数排序--------------------------------
#确定排序的次数
#排序的顺序跟序列中最大数的位数相关
def radix_sort_nums(data_list):
maxNum = data_list[0]
#寻找序列中的最大数
for x in data_list:
if maxNum < x:
maxNum = x
#确定序列中的最大元素的位数
times = 0
while (maxNum > 0):
maxNum = (int)(maxNum/10)
times = times+1
return times
#找到num从低到高第pos位的数据
def get_num_pos(num,pos):
return ((int)(num/(10**(pos-1))))%10
#基数排序
def radix_sort(data_list):
count = 10*[None] #存放各个桶的数据统计个数
bucket = len(data_list)*[None] #暂时存放排序结果
#从低位到高位依次执行循环
for pos in range(1,radix_sort_nums(data_list)+1):
#置空各个桶的数据统计
for x in range(0,10):
count[x] = 0
#统计当前该位(个位，十位，百位....)的元素数目
for x in range(0,len(data_list)):
#统计各个桶将要装进去的元素个数
j = get_num_pos(int(data_list[x]),pos)
count[j] = count[j]+1
#count[i]表示第i个桶的右边界索引
for x in range(1,10):
count[x] = count[x] + count[x-1]
#将数据依次装入桶中
for x in range(len(data_list)-1,-1,-1):
#求出元素第K位的数字
j = get_num_pos(data_list[x],pos)
#放入对应的桶中，count[j]-1是第j个桶的右边界索引
bucket[count[j]-1] = data_list[x]
#对应桶的装入数据索引-1
count[j] = count[j]-1
# 将已分配好的桶中数据再倒出来，此时已是对应当前位数有序的表
for x in range(0,len(data_list)):
data_list[x] = bucket[x]

三、排序算法实测

图3-1 常用排序算法测试统计

四、排序算法对比与分析

表4-1各个排序算法比较

[直接插入排序]是对冒泡排序的改进，比冒泡排序快，但是只适用于数据量较小(1000 ) 的排序

[希尔排序]比较简单，适用于小数据量(5000以下)的排序，比直接插入排序快、冒泡排序快，因此，希尔排序适用于小数据量的、排序速度要求不高的排序。

[直接选择排序]和冒泡排序算法一样，适用于n值较小的场合，而且是排序算法发展的初级阶段，在实际应用中采用的几率较小。

[堆排序]比较适用于数据量达到百万及其以上的排序，在这种情况下，使用递归设计的快速排序和归并排序可能会发生堆栈溢出的现象。

[冒泡排序]是最慢的排序算法，是排序算法发展的初级阶段，实际应用中采用该算法的几率比较小。

[快速排序]是递归的、速度最快的排序算法，但是在内存有限的情况下不是一个好的选择;而且，对于基本有序的数据序列排序，快速排序反而变得比较慢。

[归并排序]比堆排序要快，但是需要的存储空间增加一倍。

[基数排序]适用于规模n值很大的场合，但是只适用于整数的排序，如果对浮点数进行基数排序，则必须明确浮点数的存储格式，然后通过某种方式将其映射到整数上，最后再映射回去，过程复杂。

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试详情；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试详情；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇2018年数据分析雇主所需技能清单

下一篇未来物联网、人工智能无法迈过的技术是什么

常用排序算法比较与分析

CDA考试动态

CDA报考指南

热门栏目

最新资讯

【CDA干货】互联网运营必看：私域用户质量数据分析 ...

【CDA持证人案例分享】用 Excel 精准监控电商及推广 ...

【CDA持证人干货分享】13年国企财务：如何借助DeepS ...

【CDA持证人案例分享】Excel动态报表设计：基于业务 ...

【CDA干货】字节大佬：如何通过动态分级快速提升转 ...

Windows 系统和 MacOS 系统下的 Anaconda 安装教程 ...

数据运营的工作内容、技能要求及发展前景 ...

【干货】字节大佬：教培行业销售运营全景作战地图【 ...

四大一线城市约50%人口租房，数据分析能挖出哪些 “ ...

Python 实战案例 —RFM 客户价值分析模型 ...

【案例】奥利奥坚果新品与蒙牛“数字牧场”的成功经 ...

美关税政策下的全球金融市场动荡：深度数据分析与洞 ...

【重磅】苹果捐赠3000万给浙大这专业，透露未来就业 ...

非专业，怎么才能证明自己的数据分析能力？ ...

保姆级教程！一文读懂数据分析师的职业发展路径 ...

【干货】用DeepSeek三步骤搞定Excel数据清洗，效率 ...

被统计公式劝退？这门极简课程让你14天学会用Python ...

【干货】如何用RFM模型精准识别高价值客户？ ...

CDA数据分析师就业班3月29日开班，仅剩1个名额 ...

【案例】网飞Netflix流量漏斗分析案例 ...