注册 | 登录

游侠NETSHOW论坛





查看: 4086|回复: 9
打印 上一主题 下一主题

[转贴] Intel下一代AVX指令集 [复制链接]

帖子
1190
精华
0
积分
595
金钱
1135
荣誉
0
人气
4
评议
0
跳转到指定楼层
楼主
发表于 2010-1-2 09:18:55 |只看该作者 |倒序浏览
AVX(Advanced Vector Extensions)是下一代Intel CPU中一个重要的新技术,抽空看了一点,记一些笔记。

增加了256-bit的SIMD寄存器,YMM0~YMM15, 其中低128-bit即 以前的XMM。

新增了FMA(fused-multiply-add)等指令以加强浮点运算能力, 如VFMADD132PD ymm0, ymm1, ymm2/256将 ymm0和ymm2/mem中双精度浮点数相乘和ymm1相加并存入ymm0中。两步并一步。该指令有相应的Intrinsic VFMADD132PD_m256d_mm234_fmadd_pd(_m256d a, _m256d b, _m256d c);  Intel Compiler V11.1已支持AVX指令集。

新增了PCLMULQDQ等指令以加强对AES(Advanced Encryption Standard)算法支持,如PCLMULQDQ xmm1, xmm2/m128, imm8将xmm1的高或低64bit乘xmm2的高或低64bit并存回xmm1, imm8决定xmm1和xmm2的高低64bit。

内存对齐,一个老话题。前几代CPU的性能或多或少得受它影响,AVX中以VEX前缀编码的算术指令和内存访问指令在访问内存时更灵活,即可访问对齐的或未对齐数据,当然访问未对齐数据,会有惩罚(penalty),具体多少参考未说,想必要小。 在Core i7访问跨行未对齐的数据的惩罚为4~5cycles,不跨行的为2cycles。

顺便提一下,Nehalem的store-forwarding对数据对齐的要求也宽松了许多,起始地址不是数据长度整数倍的数据也可被forward了。

原文 http://software.intel.com/zh-cn/blogs/2009/12/29/avx/

使用道具 举报

帖子
1171
精华
0
积分
585
金钱
648
荣誉
0
人气
0
评议
0
沙发
发表于 2010-1-2 09:47:02 |只看该作者
又AV又X的,不知道压TOKYO HOT比AMD有没有优势。

使用道具 举报

帖子
3356
精华
0
积分
1679
金钱
1580
荣誉
0
人气
2
评议
0
板凳
发表于 2010-1-2 09:51:15 |只看该作者
搞掉AMD那是相当的没问题。。。。。。。

使用道具 举报

帖子
1653
精华
0
积分
838
金钱
5253
荣誉
1
人气
0
评议
0
地板
发表于 2010-1-2 09:54:46 |只看该作者
2L你...  intel和amd都要膜拜你..

使用道具 举报

帖子
3820
精华
0
积分
1920
金钱
278
荣誉
1
人气
0
评议
0
5#
发表于 2010-1-2 10:40:25 |只看该作者
路过 进来看看下限帝 指令集已经能秒杀了。。。
凯酷87白白 108热升华绿白轴 鸭子S2 绿青 G80 黑茶 G9X SSMYM RAW G700 IE3 SK
二奶MACPRO17寸 DELL8135

使用道具 举报

帖子
1190
精华
0
积分
595
金钱
1135
荣誉
0
人气
4
评议
0
6#
发表于 2010-1-2 10:52:08 |只看该作者
AMD也会支持AVX的
AVX是自MMX、SSE后又一巨大的改变

使用道具 举报

→發憤忘食∞樂以忘憂←
『欧美角色扮演区』
游侠MOD组【工兵】
天際 · 帝國大法師

白金会员勋章活跃勋章勤劳之证

帖子
43427
精华
0
积分
22366
金钱
66810
荣誉
59
人气
621
评议
6
7#
发表于 2010-1-2 11:21:58 |只看该作者
技術含量太高
沒心機看......

使用道具 举报

帖子
248
精华
0
积分
125
金钱
307
荣誉
0
人气
0
评议
0
8#
发表于 2010-1-2 11:32:33 |只看该作者
矢量运算一直都有, 就不知道这个advanced高级在哪里, 也没心情看技术, 观望吧.

使用道具 举报

帖子
1190
精华
0
积分
595
金钱
1135
荣誉
0
人气
4
评议
0
9#
发表于 2010-1-2 11:44:54 |只看该作者
原帖由 yeg001 于 2010-1-2 11:32 发表
矢量运算一直都有, 就不知道这个advanced高级在哪里, 也没心情看技术, 观望吧.

MMX 同时2个运算,64bit 寄存器8个
SSE 同时4个运算 ,128bit 寄存器8个
x64 SSE 同时4个运算,128bit 寄存器16个
AVX 同时8个运算,256bit寄存器16个

使用道具 举报

帖子
1065
精华
0
积分
533
金钱
1044
荣誉
0
人气
0
评议
0
10#
发表于 2010-1-2 11:46:48 |只看该作者
很早尝试写SSE和SSE2优化就发现,虽然也可以自己写Intrinsic指令,不过intel 的C++Compiler,足够智能进行优化,你只要把标准代码写清楚就行了。

所以只要拿到intel编译器的license,可以用就ok了。

使用道具 举报

您需要登录后才可以回帖 登录 | 注册

手机版|Archiver|游侠NETSHOW论坛 ( 苏ICP备2023007791号 )

GMT+8, 2025-10-9 14:53 , Processed in 0.345357 second(s), 12 queries , Gzip On, Memcache On.

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

分享到