最新发布的相关软件:
CUDA MEMTEST 0.50A_CUDA MemTest 0.50a
CUDA-Z 0.6.163
CUDAfy.NET 1.4
CUDA SDK 4.2.9
CUDA的JPEG解码器0.2 PreAlpha_Cuda Jpeg Decoder 0.2 PreAlpha
CUDA的Visual Profiler 1.1.6 Beta版/ 1.0.11_CUDA Visual Profiler 1.1.6 Beta / 1.0.11
CUDALucas 2.0.3 / 2.04 Beta版_CUDALucas 2.0.3 / 2.04 Beta
一个有用的CUDA工具NVIDIA
CUDA的Visual Profiler是一个专用的工具与NVIDIA?(英伟达?)GPU卡,使用专用的工具包。
以下是“CUDA可视化探查器”的一些主要特点:
执行的CUDA程序,,启用分析和查看表的探查器输出。下表为每个GPU的
神器出山:www.shenqi73.com方法有以下几列:
·时间戳:开始时间戳记
·方法:GPU方法的名称。这可以是“的存储器复制”内存拷贝或GPU的内核的名称。
·GPU时间
·CPU时间
·流编号:流标识号
列只为内核的方法:
·入住
事件探查器计数器:
·非联合政府物流服务署:未合并的全局内存负载的数量
·政府物流服务署联合起来:联合起来的全球内存负载
·非联合的商品及服务税(GST):未合并的全局内存中存储的数
·商品及服务税(GST)聚结聚结的全局内存中存储的数
·本地负载的本地内存负载的数量
·本地存储:本地存储器存储的号码
·分支的分支事件(指令和/或同步堆栈)
·不同的分支:一个warp块内的不同分行数目
·说明:动态指令数(取)
·经编序列化:序列化的基础上的一个warp中的线程数地址(GRF或常量)
·CTA推出:PM TPC推出的CTA数
·网格大小X:沿尺寸X在网格中的块编号
·网格尺寸Y:沿维Y网格中的块数
·块大小X:沿X维块中的线程数
·块大小Y:沿维Y块中的线程数
·块大小Z:沿尺寸Z块中的线程数
·的DYN SMEM每块:动态共享内存,每块大小(以字节为单位)
·站SMEM:静态,每块,每块共享内存的大小(以字节为单位)
·章每一个线程:每个线程的寄存器数
列的存储器复制方法仅适用于:
·灰熊转移目录:内存传输方向,0:主机到设备,设备到主机
·MEM传输大小:内存传输大小(以字节为单位)
·分析器计数器的更多信息,请参阅“解释事件探查器计数器”一节。请注意,探查计数器也被称为作为探查信号。
显示摘要剖析表。它为每个GPU的方法有以下几列:
·方法:方法名
·电话的电话号码
·GPU微秒:总计GPU的时间在微秒
·CPU微秒:在微秒的总CPU时间
·U时间:百分比GPU时间
·每个Profiler计数器总计数
显示各种情节:
·总结分析数据条形图
·GPU时间高度图
·GPU时间宽度图
·探查吧台图
·Profiler输出表列巴图
·比较总结阴谋
分析探查器输出列出了数高的方法:
·语无伦次店
·不连贯的负载
·经编序列化
·比较探查器输出为同一程序的多个程序运行不同的程序。
·每个程序运行被称为“会话”。
·分析数据保存为多个会话。一组会话是指作为一个项目。
·导入/导出CUDA探查CSV格式的数据。
要求:
·CUDA兼容的NVIDIA?(英伟达?)GPU卡
·< CUDA工具包
此版本中的新功能:
添加新的列内核的方法:
·大小的块网格(网格大小为X,网格尺寸Y)
·一个线程块大小(块大小X,Y,块大小的块尺寸Z)
·每个线程的寄存器数量
·静态共享内存的大小,每块
·动态共享内存的大小,每块
·StreamID的内核推出
添加新列的存储器复制的方法:
·字节数
·方向传输(主机到主机到设备或设备)
·CPUTIME
新的查看选项:
·比较总结剧情:这个曲线可以用来两会比较简要的分析数据。
·内核表:列出的电话,网格大小,块大小,每块共享内存的大小和每线程,每个内核寄存器数量。
·存储器复制表:列出调用次数,内存传输大小(以字节为单位)和内存的传输方向为每个存储器复制。
·cudaprof现在检测是否支持CUDA功能的设备是系统上可用。如果没有找到CUDA设备会显示以下消息:“无法加载CUDA库。CUDA VISU ...