注册 | 登录

游侠NETSHOW论坛





游侠NETSHOW论坛 游侠NETSHOW论坛 游侠硬件信息交流发布区 吐槽一下,带你们认识一下,为什么费米有32亿,而开普勒 ...
查看: 7772|回复: 14
打印 上一主题 下一主题

[原创] 吐槽一下,带你们认识一下,为什么费米有32亿,而开普勒只有35亿晶体管 [复制链接]

帖子
45
精华
0
积分
33
金钱
342
荣誉
1
人气
0
评议
0
跳转到指定楼层
楼主
发表于 2012-4-23 20:27:46 |只看该作者 |倒序浏览
开普勒的出现,很多测试都表明了Gtx680有强悍的性能。比HD7970的性能更加优异同时,功耗却出奇地低!!!这个秘密可以从GTX680的晶体管数量说起,另外开普勒相对fermi的架构也发生了很大变化。下面说说我对开普勒架构修改的一些见解,希望大家多多交流。虽然我不是N粉或A粉,不过我用的N卡的时间确实比较多。所以对N卡的一些变化也比较敏感。

从N卡历代架构的变化看来,可以看到了GK104相对GF110有一个奇特的改变。就是32亿晶体管增加到35.4亿晶体管。两代产品如此接近,十分罕见,另外GTX680相对于GTX580性能不但有很大提升,而且功耗更加低了。其实从我以前对GPU观察来说,芯片的性能增加了1倍,往往需要1倍甚至更多的晶体管数量为代价。那么开普勒需要提升了8.5%的晶体管,却带来了23-40%的性能提升?

为何开普勒高效,可以先从GPU和CPU架构区别来很好说明。可以看到CPU真正产生算数运算的部件只有很少一部分,绿色部分。而其余大部分都让控制单元以及高速缓存占据了。因此,CPU的架构在峰值算数性能会远远低于同期的GPU芯片。加上高速缓存也占据了巨大的晶体管数量,因此发热量会更大。也说明了GPU的峰值算数性能功耗比会更高。

峰值吞吐量的比较

这是Westmere 架构CPU的芯片。可以看出处理器是6核,且两个对称的3核组成。不过芯片中真正作运算的单元不多。大多数用在内存管理器,各种IO控制器以及高级3级缓存,2级,1级缓存,指令控制器等。

AMD APU llano芯片,4个圈出是核心单元

AMD的巴塞罗那处理器,同样可以看出大面积晶体管在高速缓存以及控制单元的设计当中。

Intel的SNB处理器,共享3级缓存,各种IO控制器等,只剩下少量的晶体管是真正用于算数性能的设计。
在NV的GPU设计上。NV不断地改进架构,优化了图形处理器中的控制单元以及高速缓存等。同时,据我了解,GPU里面的寄存器比CPU的更多,因此更加适合多线程执行的上下文切换效率。

Sp是真正的执行单元,从G80到GT200的进化可以看出浮点,整型执行单元暂居的比例越来越高。

GF100到GF104的进化可以看出,CUDA CORE在芯片的比例数量逐步增加。也成就了GF104的高效的表现。GF100的每个SM有32个核心升级为每SM有48个核心。


到GTX680更激进地提升了192个CORE核心。SM也更名为SMxtreme了。可以看到GF100是2个warp调度器来协调32个CUDA,GF104是2个warp协调48个CUDA。到了GK104就是4个warp调度器协调192个CUDA核心,比GF100的比例提高到了3倍。也就是说,控制单元优化后,用来设计控制单元的晶体管少了,因此可以设计更多真正的执行单元。这里顺便说说SFU单元,对于这个单元很多文章都没详细说明。它也出现在AMD之前5VLIW架构里面,所谓的比较大块的一个执行单元。SFU直接翻译是超越函数单元。就是专门用来硬件执行例如COS,SIN,log(x)这些超越函数运算。懂得应用可以节省很多其他资源的额外输出。譬如一个cox可以用SFU在一个到数个时钟周期完成,如果变成软指令,则需要编译器翻译成多个普通CUDA核心的浮点运算来组合,可能会花费几百上千个时钟周期。

Fermi的执行单元示意图

很明显开普勒的执行单元比例相对于费米来有了增加。

为了优化效能,开普勒大刀阔斧对smx进行调整。其中最重要是对warp调度器的硬件优化。开普勒的smx里面的4个warp调度器。Warp在nv说来是一个执行线程的宽度,一个warp包含32个线程。warp调度器的作用就是把指令高效地发放到CUDA核心,Sfu,LD单元执行,它的发射宽度是32,其中前16个和后16个是串行执行,因此允许线程私有编号是0-15和16-31实现分支。一个warp指令的调度,需要一些列复杂的硬件单元。其中核心部分是用来标记高延时操作指令的寄存器,warp硬件排序,线程块级别的调度(线程块可以包含1或多个warp块,是共享share memory等资源的基本线程级别)。开普勒相对于费米最大的改进是修正了多通道寄存器队列和多通道寄存器标记优先级的硬件部分。开普勒直接从指令编译端进行排序,因此避免了费米大量的硬件开支。

开普勒芯片的另外一个提高效能的理念是以空间为代价,降低异步频率带来的功耗增加。当然在28纳米的工艺下芯片的面积可以更小,抵消了3倍CUDA核心带来的代价。Fermi的2倍异步频率增加了2倍硬件流水线,因此可以带来4倍的功耗提升。开普勒则增加了3倍执行单元拟补频率的降低,同时功耗每个执行单元的功耗降低了1倍数。

可以看到经过几方位精准的优化后,开普勒的效能是fermi的1.5-2倍左右。当然,从架构的一下了解里面可以相信GK104是GF104的升级版本。通过分析,GK104在高速缓存高速缓存和寄存器模块没有重点提及。因此相信GK100才nv的一个隐藏的神秘物种。

附件: 你需要登录才可以下载或查看附件。没有帐号?注册

使用道具 举报

帖子
45
精华
0
积分
33
金钱
342
荣誉
1
人气
0
评议
0
沙发
发表于 2012-4-23 20:28:46 |只看该作者
发了几个站 就PConline还有个人可以看的懂,不知道游侠还有高手么可以探讨下{:18:}

使用道具 举报

炽天使·候斯级魔兵·任天堂
高级硬件工程师

白金会员勋章活跃勋章

帖子
13474
精华
1
积分
8135
金钱
915
荣誉
119
人气
80
评议
0

板凳
发表于 2012-4-23 21:07:37 |只看该作者
不懂,打酱油的撸过{:2:}         

使用道具 举报

帖子
2677
精华
0
积分
1349
金钱
3141
荣誉
1
人气
2
评议
0
地板
发表于 2012-4-23 23:10:02 来自手机 |只看该作者
妖,乱吹牛x,工艺先进了自然发热小频率高,把680降频到7xx就一580,只能算是上代的成熟产物,真有本事就同频大幅领先,lz还是回p洋种小白菜吧

使用道具 举报

天使
AMD Tahiti XTL R9 280X

白金会员勋章活跃勋章

帖子
21066
精华
1
积分
11168
金钱
5122
荣誉
24
人气
1819
评议
12

5#
发表于 2012-4-23 23:24:59 |只看该作者
看完了。。但不懂,LZ可能只能和风叔探讨了。。

使用道具 举报

帖子
2677
精华
0
积分
1349
金钱
3141
荣誉
1
人气
2
评议
0
6#
发表于 2012-4-23 23:47:33 来自手机 |只看该作者
越看越气,把680忽悠成新架构还说没人看慬,基本上680支持的580都有,真正革命性产物是同频大幅领先,就像p4>扣肉>i系 ,98gt>280>480,认真上来680只能算是480的同系高端成熟产品,真正的下代产物是新指令集,pci3.0和dx12,估计要到2015年左右才问世

使用道具 举报

帖子
2618
精华
0
积分
1312
金钱
4060
荣誉
0
人气
20
评议
0
7#
发表于 2012-4-24 01:19:06 |只看该作者
看懂了能让我用2000元买一张680吗{:2:}

使用道具 举报

帖子
45
精华
0
积分
33
金钱
342
荣誉
1
人气
0
评议
0
8#
发表于 2012-4-24 16:27:10 |只看该作者
hello3012 发表于 2012-4-23 23:47
越看越气,把680忽悠成新架构还说没人看慬,基本上680支持的580都有,真正革命性产物是同频大幅领先,就像p ...

问下这位朋友 你是不是认为680比580频率高太多了 性能提升是很正常的  没什么奇怪是这样的观点吗{:18:}我喜欢吐槽的人 不吐槽写帖子就没意思了{:30:}

使用道具 举报

帖子
180
精华
0
积分
90
金钱
1167
荣誉
0
人气
0
评议
0
9#
发表于 2012-4-26 10:47:58 |只看该作者
NV这个小核心策略确实挺成功的 功耗控制实在优秀 性能也轻松压倒HD7000

使用道具 举报

帖子
2
精华
0
积分
1
金钱
17
荣誉
0
人气
0
评议
0
10#
发表于 2012-5-15 14:59:51 |只看该作者
你直接说渲染频率比以前低 渲染核心比以前多 所以1500SP也不会是500SP性能的三倍不就完了...话说GTX680 才32个光栅和费米的光栅效率不同么

使用道具 举报

帖子
989
精华
0
积分
495
金钱
872
荣誉
0
人气
2
评议
0
11#
发表于 2012-5-15 15:10:51 |只看该作者
简单点说就是现在晶体管的数量不重要了,重要是提升渲染核心数量?
古墓得不到满足,天堂容不下真相;
地狱管不住狂傲,人间止不了卑微。
圣界因吾而降生~

使用道具 举报

魔界象棋之相
电脑城菜鸟销售员

帖子
9942
精华
8
积分
7513
金钱
15235
荣誉
83
人气
1113
评议
2
12#
发表于 2012-5-15 16:48:05 |只看该作者
这个嘛,不太清楚,可能按摩店不给力的原因吧。。。

使用道具 举报

银河究极星爆
游侠元老版主
『PC游戏综合区』
VEGAS☆龙之旋风の870MCS
医院骑士团教士
★★★★★★★★★

2014年优秀版主勋章元老版主勋章版主勋章资深版主勋章勤劳之证

帖子
9642
精华
2
积分
5518
金钱
86341
荣誉
27
人气
266
评议
6

13#
发表于 2012-5-15 17:04:55 |只看该作者
看架构,gk104和gf114很像,专门的游戏显卡架构,gf110却不一样,芯片里有大面积的计算单元。gk104在gf114的基础上大幅度的添加sp单元,造就了680。但是个人感觉这样反倒造成了一个性能障碍,680有560ti3倍的sp,但性能却没有560ti的3倍,而且频率还更高了,个人看法,nv再这样堆下去,会遇到5870的那样的瓶颈。

使用道具 举报

帖子
9
精华
0
积分
5
金钱
68
荣誉
0
人气
0
评议
0
14#
发表于 2012-5-22 11:04:54 |只看该作者
我是来见世面的,见到三分走人,大家继续

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

手机版|Archiver|游侠NETSHOW论坛 ( 苏ICP备2023007791号 )

GMT+8, 2025-8-28 06:41 , Processed in 0.322576 second(s), 12 queries , Gzip On, Memcache On.

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

分享到