游侠NETSHOW论坛

游侠NETSHOW论坛 › 游侠NETSHOW论坛 › 游侠硬件信息交流发布区 › Intel下一代AVX指令集

发新帖

查看: 4086|回复: 9

上一主题

下一主题

[转贴] Intel下一代AVX指令集 [复制链接]

帖子: 1190
精华: 0
积分: 595
金钱: 1135
荣誉: 0
人气: 4
评议: 0

电梯直达

跳转到指定楼层

楼主

发表于 2010-1-2 09:18:55 |只看该作者 |倒序浏览

AVX(Advanced Vector Extensions)是下一代Intel CPU中一个重要的新技术，抽空看了一点，记一些笔记。

增加了256-bit的SIMD寄存器，YMM0~YMM15, 其中低128-bit即以前的XMM。

新增了FMA(fused-multiply-add)等指令以加强浮点运算能力, 如VFMADD132PD ymm0, ymm1, ymm2/256将 ymm0和ymm2/mem中双精度浮点数相乘和ymm1相加并存入ymm0中。两步并一步。该指令有相应的Intrinsic VFMADD132PD_m256d_mm234_fmadd_pd(_m256d a, _m256d b, _m256d c); Intel Compiler V11.1已支持AVX指令集。

新增了PCLMULQDQ等指令以加强对AES(Advanced Encryption Standard)算法支持，如PCLMULQDQ xmm1, xmm2/m128, imm8将xmm1的高或低64bit乘xmm2的高或低64bit并存回xmm1, imm8决定xmm1和xmm2的高低64bit。

内存对齐，一个老话题。前几代CPU的性能或多或少得受它影响，AVX中以VEX前缀编码的算术指令和内存访问指令在访问内存时更灵活，即可访问对齐的或未对齐数据，当然访问未对齐数据，会有惩罚(penalty)，具体多少参考未说，想必要小。在Core i7访问跨行未对齐的数据的惩罚为4～5cycles，不跨行的为2cycles。

顺便提一下，Nehalem的store-forwarding对数据对齐的要求也宽松了许多，起始地址不是数据长度整数倍的数据也可被forward了。

原文 http://software.intel.com/zh-cn/blogs/2009/12/29/avx/

分享0 收藏0

使用道具举报

帖子: 1171
精华: 0
积分: 585
金钱: 648
荣誉: 0
人气: 0
评议: 0

沙发

发表于 2010-1-2 09:47:02 |只看该作者

又AV又X的，不知道压TOKYO HOT比AMD有没有优势。

使用道具举报

帖子: 3356
精华: 0
积分: 1679
金钱: 1580
荣誉: 0
人气: 2
评议: 0

板凳

发表于 2010-1-2 09:51:15 |只看该作者

搞掉AMD那是相当的没问题。。。。。。。

使用道具举报

帖子: 1653
精华: 0
积分: 838
金钱: 5253
荣誉: 1
人气: 0
评议: 0

地板

发表于 2010-1-2 09:54:46 |只看该作者

2L你... intel和amd都要膜拜你..

使用道具举报

帖子: 3820
精华: 0
积分: 1920
金钱: 278
荣誉: 1
人气: 0
评议: 0

5^#

发表于 2010-1-2 10:40:25 |只看该作者

路过进来看看下限帝指令集已经能秒杀了。。。

凯酷87白白 108热升华绿白轴鸭子S2 绿青 G80 黑茶 G9X SSMYM RAW G700 IE3 SK
二奶MACPRO17寸 DELL8135

使用道具举报

帖子: 1190
精华: 0
积分: 595
金钱: 1135
荣誉: 0
人气: 4
评议: 0

6^#

发表于 2010-1-2 10:52:08 |只看该作者

AMD也会支持AVX的
AVX是自MMX、SSE后又一巨大的改变

使用道具举报

→發憤忘食∞樂以忘憂←
『欧美角色扮演区』
游侠MOD组【工兵】
天際 · 帝國大法師

白金会员勋章活跃勋章勤劳之证

帖子: 43427
精华: 0
积分: 22366
金钱: 66810
荣誉: 59
人气: 621
评议: 6

7^#

发表于 2010-1-2 11:21:58 |只看该作者

技術含量太高
沒心機看......

使用道具举报

帖子: 248
精华: 0
积分: 125
金钱: 307
荣誉: 0
人气: 0
评议: 0

8^#

发表于 2010-1-2 11:32:33 |只看该作者

矢量运算一直都有, 就不知道这个advanced高级在哪里, 也没心情看技术, 观望吧.

使用道具举报

帖子: 1190
精华: 0
积分: 595
金钱: 1135
荣誉: 0
人气: 4
评议: 0

9^#

发表于 2010-1-2 11:44:54 |只看该作者

原帖由 yeg001 于 2010-1-2 11:32 发表
矢量运算一直都有, 就不知道这个advanced高级在哪里, 也没心情看技术, 观望吧.

MMX 同时2个运算，64bit 寄存器8个
SSE 同时4个运算，128bit 寄存器8个
x64 SSE 同时4个运算，128bit 寄存器16个
AVX 同时8个运算，256bit寄存器16个

使用道具举报

帖子: 1065
精华: 0
积分: 533
金钱: 1044
荣誉: 0
人气: 0
评议: 0

10^#

发表于 2010-1-2 11:46:48 |只看该作者

很早尝试写SSE和SSE2优化就发现，虽然也可以自己写Intrinsic指令，不过intel 的C++Compiler，足够智能进行优化，你只要把标准代码写清楚就行了。

所以只要拿到intel编译器的license，可以用就ok了。

使用道具举报

发新帖

手机版|Archiver|游侠NETSHOW论坛 ( 苏ICP备2023007791号 )

GMT+8, 2025-10-9 14:53 , Processed in 0.345357 second(s), 12 queries , Gzip On, Memcache On.

Powered by Discuz! X2

© 2001-2011 Comsenz Inc.

分享到