先开个文章保存点找到的资料,写完作业后再写。
利用GPU进行局部排序,提高内存带宽利用的实现版本,intel的系统性介绍文章中有进行引用,intel文章中只详细介绍了CPU实现:
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=5161005
非常经典的资料,大多相关优化文章都有引用里面提到的基础技术,GPU实现SIMD式局部排序时,用到的相关算法就是里面的split radix sort示例:
https://www.cs.cmu.edu/~guyb/papers/Ble90.pdf