Cuda cluster
自cuda9.0后,cuda的并行抽象多了一层cuda cluster。原来只有thread-block-grid的分层,如图:
加入cluster抽象后,变成了thread-block-cluster-grid,如图:
cluster的好处是,一个cluster内所有block可以互相共享shared memory,即一个block可以“远程”访问同cluster下的另一个block的shared memory。代价是block之间需要同步,因为shared memory的寿命周期从block共享变成了全cluster。如果隔壁有block还没用完本block的shared memory,那么本block就不能结束。
使用教程可见文档

