一、排序的概念及常见算法
1.1 排序的概念
排序: 所谓排序,就是使一串记录,按照其中的某个或某些关键字的大小,递增或递减的排列起来的操作。
稳定性: 假定在待排序的记录序列中,存在多个具有相同的关键字的记录,若经过排序,这些记录的相对次序保持不变,即在原序列中,r[i]=r[j],且r[i]在r[j]之前,而在排序后的序列中,r[i]仍在r[j]之前,则称这种排序算法是稳定的;否则称为不稳定的。
内部排序: 数据元素全部放在内存中的排序。
外部排序: 数据元素太多不能同时放在内存中,根据排序过程的要求不断在内外存之间移动数据的排序。
1.2 常见的排序算法
二、插入排序
2.1 基本思想
直接插入排序是一种简单的插入排序法,其基本思想是:
把待排序的记录按其关键码值的大小逐个插入到一个已经排好序的有序序列中,直到所有的记录插入完为止,得到一个新的有序序列 。 实际中我们玩扑克牌时,就用了插入排序的思想。
2.2 直接插入排序
当插入第 i (i>=1)个元素时,前面的array[0],array[1] … array[i-1] 已经排好序,此时用array[i] 的排序码与 array[i-1],array[i-2]…的排序码顺序进行比较,找到插入位置即将array[i]插入,原来位置上的元素顺序后移。
代码实现:
public class TestSort {
public static void insertSort(int[] array){
for (int i = 1; i < array.length; i++) {
int tmp = array[i];
int j = i-1;
for ( ;j >= 0; j--){
if(array[j] > tmp){
array[j+1] = array[j];
}else{
// array[j+1] = tmp;
break;
}
}
array[j+1] = tmp;
}
}
public static void main(String[] args) {
int[] array = {1,2,19,34,29,15};
insertSort(array);
System.out.println(Arrays.toString(array));
}
}
时间复杂度:
最坏情况:逆序:O(N2) (等差数列求和)
最好情况:有序:O(N)
得到一个结论:当数据量不多,且基本上趋于有序的时候,直接插入排序是非常快的!
空间复杂度:O(1)
稳定性:稳定
(一个本身就稳定的排序,可以实现为不稳定的排序;但是一个本身就不稳定的排序能实现为稳定的排序吗?当然不能)
2.3 希尔排序( 缩小增量排序 )
希尔排序法又称缩小增量法。希尔排序法的基本思想是:先选定一个整数gap,把待排序文件中所有记录分成gap个组,所有距离为gap的记录分在同一组内,并对每一组内的记录进行插入排序。然后缩小增量gap,重复上述分组和排序的工作。当到达gap=1时,所有记录在统一组内排好序。
预排序: 跳跃式分组,会使数组趋于有序。
最后一次进行插入排序: 数组已趋于有序,此时插入排序合适。
代码实现:
public static void shell(int[] array,int gap){
for (int i = gap; i < array.length; i++) {
int tmp = array[i];
int j = i - gap;
for ( ;j >= 0; j -= gap){
if(array[j] > tmp){
array[j+gap] = array[j];
}else{
break;
}
}
array[j+gap] = tmp;
}
}
public static void shellSort(int[] array){
int gap = array.length;
while(gap > 1){
gap /= 2;
shell(array,gap);
}
}
希尔排序的特性总结:
- 希尔排序是对直接插入排序的优化。
- 当 gap > 1 时都是预排序,目的是让数组更接近于有序。当 gap == 1 时,数组已经接近有序的了,这样就会很快。这样整体而言,可以达到优化的效果。我们实现后可以进行性能测试的对比。
- 希尔排序的时间复杂度不好计算,因为gap的取值方法很多,导致很难去计算,因此在好些书中给出的希尔排序的时间复杂度都不固定:
《数据结构(C语言版)》— 严蔚敏
《数据结构-用面向对象方法与C++描述》— 殷人昆
因为我们的gap是按照Knuth提出的方式取值的,而且Knuth进行了大量的试验统计,我们暂时就按照:O(n1.25) 到 O(1.6*n1.25) 来算。(记 O(n1.3) 也行)
- 空间复杂度:O(1)
- 稳定性:不稳定。
三、选择排序
3.1 基本思想
每一次从待排序的数据元素中选出最小(或最大)的一个元素,存放在序列的起始位置,直到全部待排序的数据元素排完 。
3.2 直接选择排序
- 在元素集合 array[i]—array[n-1] 中选择关键码最大(小)的数据元素;
- 若它不是这组元素中的最后一个(第一个)元素,则将它与这组元素中的最后一个(第一个)元素交换;
- 在剩余的array[i]–array[n-2](array[i+1]–array[n-1])集合中,重复上述步骤,直到集合剩余1个元素。
代码实现:
public static void selectSort(int[] array){
for (int i = 0; i < array.length; i++) {
int minIndex = i;
for (int j = i+1; j < array.length; j++) {
if(array[j] < array[minIndex]){
// 更新minIndex的值
minIndex = j;
}
}
if(i != minIndex) {
swap(array, i, minIndex);
}
}
}
private static void swap(int[] array,int i,int j){
int tmp = array[i];
array[i] = array[j];
array[j] = tmp;
}
或者每走一趟记录下minIndex和maxIndex,然后分别与left和right交换:
细节:若maxIndex == left,注意left位置在上一步会被换走到minIndex位置。
代码实现:
public static void selectSort2(int[] array){
int left = 0;
int right = array.length-1;
while(left < right){
int minIndex = left;
int maxIndex = left;
for (int i = left+1;i <= right;i++){
if(array[i] < array[minIndex]){
minIndex = i;
}
if(array[i] > array[maxIndex]){
maxIndex = i;
}
}
// 把最小值交换到前面
swap(array,left,minIndex);
// 把最大值交换到后面
// 若maxIndex为left,上一步使位置发生了变化:
if(maxIndex == left){
maxIndex = minIndex;
}
swap(array,right,maxIndex);
left++;
right--;
}
}
直接选择排序思考非常好理解,但是效率不是很好。实际中很少使用。
时间复杂度:O(N2) (和数据是否有序无关)
空间复杂度:O(1)
稳定性:不稳定。
3.3 堆排序
堆排序即利用堆的思想来进行排序,总共分为两个步骤:
-
建堆
升序:建大堆;降序:建小堆。
例如升序:
小根堆是不可以实现的,原因:
每次弹出的是最小的,没问题,但是,弹出去之后,放到哪里?
此时你的空间复杂度就是最大了:O(N) !!! -
利用堆删除思想来进行排序
从后往前逐渐有序!!!
建堆和堆删除中都用到了向下调整,因此掌握了向下调整,就可以完成堆排序。
代码实现:
public static void heapSort(int[] array){
int size = array.length;
// 1.先建立大根堆
createHeap(array);
// 2.然后排序
int end = size - 1;
while(end > 0){
swap(array,0,end);
shiftDown(array,0,end);
end--;
}
}
private static void createHeap(int[] array){
int size = array.length;
// 找倒数第一个非叶子节点,从该节点位置开始往前一直到根节点,遇到一个节点,应用向下调整
for (int parent = (size-1-1)/2; parent >= 0 ; parent--) {
// 统一的调整方案
shiftDown(array,parent,size);
}
}
private static void shiftDown(int[] array,int parent,int len){
int child = 2*parent+1;
// 必须保证有左孩子
while(child < len){
// 有右孩子时才判断(下行语句的顺序不能变!)
if(child+1 < len && array[child+1] > array[child]){
child++;
}
// 到这里,child下标一定是左右孩子最大值的下标
if(array[child] > array[parent]){
swap(array,child,parent);
parent = child;
child = 2*parent+1;
}else{
// 因为是从下面调上来的,所以若符合大根堆下面一定也符合,可以直接break
break;
}
}
}
时间复杂度:建堆+排序:O(N+N*log2N) ,约等于 O(Nlog2N)
空间复杂度:O(1)
稳定性:不稳定。
四、交换排序
4.1 基本思想
基本思想:所谓交换,就是根据序列中两个记录键值的比较结果来对换这两个记录在序列中的位置,交换排序的特点是:将键值较大的记录向序列的尾部移动,键值较小的记录向序列的前部移动。
4.2 冒泡排序
代码实现:
public static void bubbleSort(int[] array){
// 最外层控制的是趟数
for (int i = 0; i < array.length-1; i++) {
boolean flag = false;
for (int j = 0; j < array.length-1-i; j++) {
if(array[j] > array[j+1]){
swap(array,j,j+1);
flag = true;
}
}
if(flag == false){
break;
}
}
}
时间复杂度:O(N2) (不考虑优化)
空间复杂度:O(1)
稳定性:稳定
4.3 快速排序
快速排序是Hoare于1962年提出的一种二叉树结构的交换排序方法,其基本思想为:任取待排序元素序列中的某元素作为基准值,按照该排序码将待排序集合分割成两子序列,左子序列中所有元素均小于基准值,右子序列中所有元素均大于基准值,然后最左右子序列重复该过程,直到所有元素都排列在相应位置上为止。
public static void quickSort(int[] array){
quick(array,0,array.length-1);
}
private static void quick(int[] array,int start,int end){
// 能不能不写大于号?
// 不能!!!预防有些情况可能会出现大于1,2,3,4,5,6......直接没有左树/右树。
if(start >= end){
return;
}
int pivot = partitionHoare(array,start,end);
quick(array,start,pivot-1);
quick(array,pivot+1,end);
}
private static int partitionHoare(int[] array,int left,int right){
}
上述为快速排序递归实现的主框架,发现与二叉树前序遍历规则非常像,同学们在写递归框架时可想想二叉树前序
遍历规则即可快速写出来,后序只需分析如何按照基准值来对区间中数据进行划分的方式即可。
将区间按照基准值划分为左右两半部分的常见方式有:
- Hoare版
private static int partitionHoare(int[] array,int left,int right){
int i = left;
int pivot = array[left];
while(left < right){
// left < right && 这个条件不能少,预防后面都比基准大
// 右边先走,找小
while(left < right && array[right] >= pivot){
right--;
}
// 左边再走,找大
while(left < right && array[left] <= pivot){
left++;
}
swap(array,left,right);
}
// 相遇位置和原来的left交换
swap(array,left,i);
return left;
}
两个疑问:
1.为什么必须右边先走?
如果左边作key,那么必须右边先走。如果先走左边,那么相遇之后的数据会比基准大,交换后就不符合了。
2.array[right] >= pivot 为什么不能去掉等号?
若去掉等号,即 array[right] > pivot ,下面这种情况:
6 和 6 会一直进行交换!!!不对!
- 挖坑法
private static int partition(int[] array,int left,int right){
int pivot = array[left];
while(left < right){
// left < right && 这个条件不能少,预防后面都比基准大
// 右边先走,找小
while(left < right && array[right] >= pivot){
right--;
}
array[left] = array[right];
// 左边再走,找大
while(left < right && array[left] <= pivot){
left++;
}
array[right] = array[left];
}
// 把pivot值放入相遇位置的坑
array[left] = pivot;
return left;
}
- 前后指针法(用得不多)
private static int partition(int[] array,int left,int right){
int prev = left;
int cur = left+1;
while(cur <= right){
if(array[cur] < array[left] && array[++prev] != array[cur]){
swap(array,cur,prev);
}
cur++;
}
swap(array,prev,left);
return prev;
}
最好的情况下:
时间复杂度:每一层都走了N个数据,走了log2N层,所以时间复杂度:O(Nlog2N)
空间复杂度:就是树的高度:O(log2N) (真正消耗空间的就是递归调用,栈开辟空间,因为每次递归就要保存一些数据)
稳定性:不稳定。
最差的情况下: 退化为类似冒泡排序的情况,即本来就是顺序或逆序的情况:
时间复杂度:O(N2)
空间复杂度:O(N)
4.4 快速排序优化
所以:当数据有序的时候,快速排序的时间复杂度会达到最大,而且空间复杂度也会随之变大。
怎么解决呢?
4.4.1 三数取中法
修改代码:
private static int findMidValOfIndex(int[] array,int start,int end){
int midIndex = (start+end) / 2;
if(array[start] < array[end]){
if(array[midIndex] < array[start]){
return start;
}else if(array[midIndex] > array[end]){
return end;
}else{
return midIndex;
}
}else{
if(array[midIndex] > array[start]){
return start;
}else if(array[midIndex] < array[end]){
return end;
}else{
return midIndex;
}
}
}
private static void quick(int[] array,int start,int end){
// 能不能不写大于号?
// 不能!!!预防有些情况可能会出现大于1,2,3,4,5,6......直接没有左树/右树。
if(start >= end){
return;
}
// 在执行partition找基准之前进行三数取中法,尽量能去解决划分不均匀的问题
int index = findMidValOfIndex(array,start,end);
swap(array,start,index);
int pivot = partition(array,start,end);
quick(array,start,pivot-1);
quick(array,pivot+1,end);
}
但是若元素全部相同,此时也无法改善性能!!!
4.4.2 递归到子区间,考虑插入排序
递归到小的子区间时,可以考虑使用插入排序,原因:
修改代码:
private static void quick(int[] array,int start,int end){
// 能不能不写大于号?
// 不能!!!预防有些情况可能会出现大于1,2,3,4,5,6......直接没有左树/右树。
if(start >= end){
return;
}
if(end-start+1 <= 7){
// 对start和end区间范围内使用插入排序,然后直接return
insertSort(array,start,end);
return;
}
// 在执行partition找基准之前进行三数取中法,尽量能去解决划分不均匀的问题
int index = findMidValOfIndex(array,start,end);
swap(array,start,index);
int pivot = partition(array,start,end);
quick(array,start,pivot-1);
quick(array,pivot+1,end);
}
/**
* 对指定区间的数据进行插入排序
* @param array
* @param left
* @param right
*/
public static void insertSort(int[] array,int left,int right){
for (int i = left+1; i <= right; i++) {
int tmp = array[i];
int j = i-1;
for ( ;j >= left; j--){
if(array[j] > tmp){
array[j+1] = array[j];
}else{
// array[j+1] = tmp;
break;
}
}
array[j+1] = tmp;
}
}
4.4.3 优化后:快速排序总结
快速排序整体的综合性能和使用场景都是比较好的,所以才敢叫快速排序。
时间复杂度:O(N*logN)
空间复杂度:O(logN)
稳定性:不稳定
4.5 快速排序非递归
栈和队列都可以实现;快排的非递归是在模拟递归的过程,所以时间复杂度并没有本质的变化,但是没有递归,可以减少栈空间的开销。
思路:先进行一次partition,然后建立一个栈,依次放入四个边界的下标,每次出两个下标分别给end和start……
注意:1.当左边或者右边只剩下一个元素的时候就不用进行入栈操作了;2.注意存放的顺序和取出数据的顺序。
代码实现:
private static int partition(int[] array,int left,int right){
int pivot = array[left];
while(left < right){
// left < right && 这个条件不能少,预防后面都比基准大
// 右边先走,找小
while(left < right && array[right] >= pivot){
right--;
}
array[left] = array[right];
// 左边再走,找大
while(left < right && array[left] <= pivot){
left++;
}
array[right] = array[left];
}
// 把pivot值放入相遇位置的坑
array[left] = pivot;
return left;
}
public static void quickSort(int[] array){
Stack<Integer> stack = new Stack<>();
int start = 0;
int end = array.length-1;
int pivot = partition(array,start,end);
// 判断左边是不是有2个元素
if(pivot > start+1){
stack.push(start);
stack.push(pivot-1);
}
// 判断右边是不是有2个元素
if(pivot < end-1){
stack.push(pivot+1);
stack.push(end);
}
while(!stack.empty()){
end = stack.pop();
start = stack.pop();
pivot = partition(array,start,end);
// 判断左边是不是有2个元素
if(pivot > start+1){
stack.push(start);
stack.push(pivot-1);
}
// 判断右边是不是有2个元素
if(pivot < end-1){
stack.push(pivot+1);
stack.push(end);
}
}
}
4.6 快速排序例题
排序过程中,对尚未确定最终位置的所有元素进行一遍处理称为一趟排序。
五、归并排序
5.1 基本思想
归并排序(MERGE-SORT)是建立在归并操作上的一种有效的排序算法,该算法是采用分治法(Divide and Conquer)的一个非常典型的应用。将已有序的子序列合并,得到完全有序的序列;即先使每个子序列有序,再使子序列段间有序。若将两个有序表合并成一个有序表,称为二路归并。
归并排序核心步骤:
5.2 归并排序实现
public static void mergeSort(int[] array){
mergerSortChild(array,0,array.length-1);
}
private static void mergerSortChild(int[] array,int left,int right){
if(left == right){
return;
}
int mid = (left+right) / 2;
mergerSortChild(array,left,mid);
mergerSortChild(array,mid+1,right);
// 合并
merge(array,left,mid,right);
}
private static void merge(int[] array,int left,int mid,int right){
int s1 = left;
int e1 = mid;
int s2 = mid+1;
int e2 = right;
int[] tmpArr = new int[right-left+1];
int k = 0; // 表示tmpArr的下标
while(s1 <= e1 && s2 <= e2){
if(array[s1] <= array[s2]){
tmpArr[k++] = array[s1++];
}else{
tmpArr[k++] = array[s2++];
}
}
while(s1 <= e1){
tmpArr[k++] = array[s1++];
}
while(s2 <= e2){
tmpArr[k++] = array[s2++];
}
// tmpArr 当中的数据是 left -- right 之间有序的数据
for (int i = 0; i < tmpArr.length; i++) {
array[i+left] = tmpArr[i];
}
}
归并排序的操作方式类似二叉树的后序遍历。
归并的缺点在于需要O(N)的空间复杂度,归并排序的思考更多的是解决在磁盘中的外排序问题。
时间复杂度:O(N*logN)
空间复杂度:O(N) (创建了临时数组)
稳定性:稳定
5.3 归并排序非递归
思路:
以 gap个 来分组,gap 越来越大:
每两组都要有 left、mid、right 位置下标:
left = i;mid = left + gap – 1;right = mid + gap;
考虑越界!若大于等于 length,调整到 length-1;
代码实现:
private static void merge(int[] array,int left,int mid,int right){
int s1 = left;
int e1 = mid;
int s2 = mid+1;
int e2 = right;
int[] tmpArr = new int[right-left+1];
int k = 0; // 表示tmpArr的下标
while(s1 <= e1 && s2 <= e2){
if(array[s1] <= array[s2]){
tmpArr[k++] = array[s1++];
}else{
tmpArr[k++] = array[s2++];
}
}
while(s1 <= e1){
tmpArr[k++] = array[s1++];
}
while(s2 <= e2){
tmpArr[k++] = array[s2++];
}
// tmpArr 当中的数据是 left -- right 之间有序的数据
for (int i = 0; i < tmpArr.length; i++) {
array[i+left] = tmpArr[i];
}
}
public static void mergeSort(int[] array){
int gap = 1;
while(gap < array.length){
for (int i = 0; i < array.length; i += gap*2) {
int left = i;
int mid = left+gap-1;
int right = mid+gap;
if(mid >= array.length){
mid = array.length-1;
}
if(right >= array.length){
right = array.length-1;
}
merge(array,left,mid,right);
}
gap *= 2;
}
}
5.4 海量数据的排序问题
外部排序:排序过程需要在磁盘等外部存储进行的排序
例如:内存只有 1G,需要排序的数据有 100G ?
因为内存中因为无法把所有数据全部放下,所以需要外部排序,而归并排序是最常用的外部排序:
- 先把文件切分成 200 份,每个 512 M;
- 分别对 512 M 排序,因为内存已经可以放得下,所以任意排序方式都可以;
- 进行 2路归并,同时对 200 份有序文件做归并过程,最终结果就有序了。
六、其他非基于比较排序(了解)
- 计数排序
思想:计数排序又称为鸽巢原理,是对哈希直接定址法的变形应用。 操作步骤:- 统计相同元素出现次数
- 根据统计的结果将序列回收到原来的序列中
计数后直接从小到大放入,或者:
【计数排序的特性总结】
1.计数排序在数据范围集中时,效率很高,但是适用范围及场景有限。
2.时间复杂度:O(MAX(N,范围)) ; 直接放 是 O(范围+N)
3.空间复杂度:O(范围)
4.稳定性:稳定 ;直接放:不稳定
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌侵权/违法违规的内容, 请发送邮件至 举报,一经查实,本站将立刻删除。
文章由极客之音整理,本文链接:https://www.bmabk.com/index.php/post/118601.html