概述

做了几个月的gpu的性能优化,一直没来得及总结,先把大概要点总结一下,后面有空进行进一步完善。

开发环境

tesla v100 + cuda 9.0 + linux C

优化点

1. 数据格式

数据格式要进行设计,把每个部分精简至最小,减少对gpu显存的占用,同时缩小数据的比对时间。

2. 内存拷贝

从内存load到缓存,减少load的时间消耗,可采用mmap。

3. 显存拷贝

host缓存到device显存之间的拷贝很慢,减少拷贝次数和数据大小。

4. 多线程优化

采用多线程能让host端的处理程序并行,减少部分处理开销。

5. gpu异步处理API

异步处理,不多说。

6. gpu流并行

使数据拷贝时间和数据处理时间部分重叠,从而实现对处理时间的“隐藏”。

7. gpu处理逻辑优化

多使用寄存器变量,gpu处理时使用的数据不要存在交叉,线程个数是SM的整数倍。

Logo

CSDN联合极客时间,共同打造面向开发者的精品内容学习社区,助力成长!

更多推荐