注册 | 登录

游侠NETSHOW论坛





游侠NETSHOW论坛 游侠NETSHOW论坛 游侠硬件信息交流发布区 缓存真有那么神?Haswell GT3e架构深究
查看: 2060|回复: 5
打印 上一主题 下一主题

[转贴] 缓存真有那么神?Haswell GT3e架构深究 [复制链接]

游侠剑阁工作组【美工】
三國志 美圖士
懷鈴鳥羽•錦帆遊俠
♥萌神四糸乃♥

大头像勋章白金会员勋章活跃勋章荣誉勋章特色头衔勋章高级荣誉勋章综合区荣誉会员勋章剑阁工作组资深组员勋章

帖子
73553
精华
5
积分
44465
金钱
326336
荣誉
666
人气
277
评议
0

跳转到指定楼层
楼主
发表于 2013-6-7 18:18:38 |只看该作者 |倒序浏览
转自:http://news.mydrivers.com/1/265/265868.htm

Intel集成显卡一直是个比较纠结的话题。它占据着全球最大的图形市场份额(常年60%以上),但性能却被大多数玩家嗤之以鼻;每一代都宣传进步神速,但结果只是PPT制胜;硬件规格就算上来了,驱动程序却始终糟糕透顶。

不过说实话,至少这三年来,Intel集显的进步还是有目共睹的,规格、性能都有了长足的进步,联合AMD APU已经真的让低端独显失去了意义。Haswell这一代更猛,直接祭出了eDRAM嵌入式缓存,一时间被吹得神乎其神,什么秒杀APU、媲美GT650M。

从实测成绩看,带缓存的顶级型号GT3e Iris Pro 5200的确已经具备了叫板AMD APU、GeForce GT 650M/640的资本,表现抢眼,但问题在于,配备它的处理器目前只有区区几款型号,其中三款是笔记本上的Core i7-4x50HQ系列,价格高达468-657美元(约合人民币2870-4000元),只有高端笔记本才会用它,另一半是R系列,BGA整合封装,仅供OEM而不零售。

这样一来,GT3e的牛逼很大程度上就没什么意义了,因为一般用户,尤其是主流级别的消费者,根本就买不到它,或者说买不起,而舍得银子买游戏本的又怎么好意思用集显?再者说,价格上也完全不可同日而语,APU和低端独显只要几百块钱,GT3e是它们的好几倍。

按说低端和入门级用户才需要更好的集显,不过Intel的做法恰恰相反,越高端集显越强,历代都是如此,显得不可理喻。Intel对此从来没有明确阐述过,想来是出于成本、利润方面的考虑,毕竟越强大的集显越耗费晶体管、核心面积,成本也越高,自然不可能放在奔腾、赛扬上,而在高端型号上增加一些成本可以接受(尽管GT3e据传需要50美元),利润空间也大得多。

好了,开始说“正事儿”。

Haswell GPU的底层架构其实和Ivy Bridge上是完全一样的,只是做了一些增强和扩充,尤其是执行单元数量大增。就像AMD CU(计算单元)、NVIDIA SMX(流处理器阵列)那样,Intel Haswell GPU也有自己的基础模块“Sub-Slice”(子切片),由10个执行单元(UE)组成,而每个执行单元都是双发射的SIMD,有两个四宽度的矢量ALU,远远没有A/N的那么宽。

而且Intel的这种架构还存在着并发(co-issue)问题,上一代的Ivy Bridge在此做了大量改进但依然存在不少局限。


Haswell GPU架构图


Intel、AMD、NVIDIA GPU基础模块对比

Haswell GPU的规模也大大扩充了。此前的HD 4000只有16个执行单元,现在的HD 4600就有两个子切片、20个执行单元,GT3 Iris 5200/5100、HD 4600更是翻番为四个子切片、40个执行单元,1.3GHz加速频率下峰值浮点性能可达832GFlops,已经超过了GeForce GT 750M。


峰值浮点性能对比


带宽对比

但毕竟是集成显卡,在像素填充率、纹理填充率、三角形生成率方面还是没法和独立显卡相比,距离GeForce GT 650M都差距不小,不过总体上基本超过了Trinity A10-5800K。


峰值理论性能对比

已有 1 人评分金钱 收起 理由
JangJaeHo + 5 感谢分享~

总评分: 金钱 + 5   查看全部评分

使用道具 举报

游侠剑阁工作组【美工】
三國志 美圖士
懷鈴鳥羽•錦帆遊俠
♥萌神四糸乃♥

大头像勋章白金会员勋章活跃勋章荣誉勋章特色头衔勋章高级荣誉勋章综合区荣誉会员勋章剑阁工作组资深组员勋章

帖子
73553
精华
5
积分
44465
金钱
326336
荣誉
666
人气
277
评议
0

沙发
发表于 2013-6-7 18:19:08 |只看该作者

【嵌入式缓存解决带宽问题】

无论什么整合GPU,都必须面临内存带宽不足的问题。这一次,Intel的终极解决方案是128MB eDRAM嵌入式缓存,代号“Crystalwell”。这是由Intel自己设计的,采用P1271 22nm SoC工艺制造。注意这不同于P1270 CPU工艺,因为Intel需要更低的晶体管漏电率,而不是一味的高频率——最高为1.6GHz。

这些缓存并没有直接和CPU整合在一起,而是一颗独立的Die,共同封装在一起。这么做的原因也很简单,首先是工艺不完全一样,其次是可以很容易根据需要做调整。如果大家都很喜欢这种缓存配置,Intel就可以多造一些,反之亦然。

下一代的14nm Broadwell上仍然会有这种缓存,但可能还会是22nm SoC工艺制造,毕竟既能利用老工厂产能,还没必要急着扩大容量。

那么会不会有一天跟处理器彻底整合到一起呢?Intel说现在碳这个还为时过早(84平方毫米确实不容易放进去),但可能会有16-32MB eDRAM的整合版本,用于特定目的。

但是不同于以往游戏主机中的eDRAM,Crystalwell又是内存体系中真正的四级缓存,扮演三级缓存替补缓冲器的角色,任何从三级缓存中被赶出来的数据都会到这里边来。

因为是缓存而非缓冲,Intel发现Crystalwell的命中率很少低于95%。三级缓存未命中后的访问延迟为30-32纳秒,介于三级缓存和系统内存之间。


内存延迟:GT3e确实低很多

它可以同时处理CPU、GPU缓存,还能在二者之间动态定位。如果你安装了独显,完全不需要使用整合GPU,Crystalwell就会去全力处理CPU请求。

对于Crystalwell和其它部分的互连,Intel语焉不详,只说是一条很窄的串行总线,双向带宽50GB/s,再加上128-bit DDR3-1600内存的25.6GB/s,还是很可观的。GT 650M 128-bit 5GHz GDDR5也才不过80.3GB/s。

事实上,eDRAM容量超过32MB之后就用处不是很大了(微软Xbox One里就是32MB eSRAM),Crystalwell却有多达128MB,而且就这一个版本。Intel的意图是先翻番来应对任何可能的游戏复杂度,再翻番以确保万无一失。借用Intel自己的话说就是“要么128MB,要么就没有”。

至于为什么选择eDRAM,Intel看重了它的高带宽和低功耗。Intel宣称,Crystalwell的带宽曲线非常平稳,不像GDDR5那样依赖于负载。待机状态下,Crystalwell只需要简单地刷新已存储数据,功耗0.5-1W,全带宽负载下则是3.5-4.5W。

它还和其它所有模块一样,受到了电源控制单元(PCU)的监控。根据散热、负载甚至是eDRAM的命中率,PCU可以在CPU、GPU、eDARM之间平衡功耗。

很可惜,Crystalwell只会搭配高端四核心,出现在H、R系列部分型号中,要是K系列也有肯定会大受追捧。至于为何不用于低端,主要是GT1/GT2用不着那么多带宽。Intel还解释说,一旦热设计功耗达到18W,GT3e就会很有用,但又必须顾及内核面积。


缓存/内存带宽

使用道具 举报

游侠剑阁工作组【美工】
三國志 美圖士
懷鈴鳥羽•錦帆遊俠
♥萌神四糸乃♥

大头像勋章白金会员勋章活跃勋章荣誉勋章特色头衔勋章高级荣誉勋章综合区荣誉会员勋章剑阁工作组资深组员勋章

帖子
73553
精华
5
积分
44465
金钱
326336
荣誉
666
人气
277
评议
0

板凳
发表于 2013-6-7 18:19:30 |只看该作者

【小机箱里的移动平台】

看到这个你肯定认为不过是个普通的中塔小机箱,但事实上,它里边是Intel的移动客户参考主板(CRB),里边是完全针对移动平台优化的,只是为了方便测试诊断而做成了这样。

处理器是顶级的Core i7-4950HQ 47W,图形核心正是待缓存的Iris Pro 5200。

因为Intel对内核面积数据捂得很严实,AnandTech在跑完测试后就把散热器拿了下来,发现Intel并未使用散热顶盖。这就好说了,擦掉硅脂,就可以看到处理器、缓存的真容了。右边那个小点的Die就是缓存。

经过测量,Crystalwell缓存的面积大约为7×12=84平方毫米,而四核心加GT3的面积为16.2×16.3=264平方毫米,合计328平方毫米

Intel官方公布的四核心加GT2的内核面积为177平方毫米,所以GT3相比于GT2多了87平方毫米,乘以2应该就是40个执行单元GPU的大致面积了:174平方毫米。

这就意味着,四核心GT3内核里会有大约65%的面积用在了GPU上,远远大于四核心GT2 33%左右。Intel对待GPU也是越来越认真了。

使用道具 举报

游侠高级DIYER

帖子
5623
精华
1
积分
3120
金钱
11149
荣誉
8
人气
280
评议
0

地板
发表于 2013-6-7 22:02:31 |只看该作者
intel的这种GPU 如果架构不改 再去扩大规模就会带来调度问题 虽然现在看来效率较高 但是和核心规模成大比例反比 eDRAM是好东西 IBM的power7+也在用类似的缓存 AMD实际上也是很需要的 特别是对带宽和延迟要求很高的APU 只是不知道技术和专利上是不是有限制

游侠网硬件区群  887280710                                 
      操作系统       Microsoft Windows 11 Home China
    主板:
      处理器名称     16-Core AMD Ryzen 9 5950X, 5041 MHz (50.5 x 100)
      主板名称       Asus ROG Crosshair VIII Hero
      系统内存       DDR4-3200 ECC DDR4 SDRAM  32678 MB
    存储设备:
      硬盘驱动器     Samsung SSD 990 Pro 2TB (2048 GB, PCI-E 4.0 x4)
      硬盘驱动器     Samsung SSD 860 EVO 1TB  (1000 GB, SATA-III)   
    显示设备:
      显示适配器     AMD Radeon RX 6900 XT  (16368 MB)
      显示器         ViewSonic VX2719-2K-Pro [NoDB]  (VZC204400311)

使用道具 举报

帖子
2186
精华
0
积分
1104
金钱
28780
荣誉
1
人气
8
评议
0
5#
发表于 2013-6-8 00:20:49 |只看该作者
在核显领域性能确实顶级!但与低端无缘!然而高端又看你不上眼!
CPU:Intel I7 2600
主板:技嘉H67MA-UD2H   
显卡:GTX980冰龙
内存:黑龙条  DDR3-1333 4GX4
硬盘:固态硬盘512G*2 机械硬盘2TB*3
键盘+鼠标:罗技+机械键盘
显示器:三星23.6LED

使用道具 举报

帖子
1548
精华
0
积分
775
金钱
2852
荣誉
0
人气
5
评议
0
6#
发表于 2013-6-8 06:39:35 |只看该作者
本帖最后由 kingandq 于 2013-6-8 07:44 编辑

我看了原帖的对比图,从对比图中可以看出 intel 主攻15寸笔记本, 因为15寸笔记本一般是1300x7**左右的分辨率,  很少有1688之类.

笔记本去除独立显卡后, 价格应该和无5100/5200的cpu+独立显卡接近. 另外还可以进一步打击n卡和a卡.

如果我笔记本坏了, 我就买15寸带5100的i7 cpu 无独立显卡.

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

手机版|Archiver|游侠NETSHOW论坛 ( 苏ICP备2023007791号 )

GMT+8, 2025-10-29 22:15 , Processed in 0.367847 second(s), 13 queries , Gzip On, Memcache On.

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

分享到