游侠NETSHOW论坛

标题: ARM CPU的浮点运算上万分了，突然想到，CPU浮点强有啥用啊 [打印本页]

作者: welo010 时间: 2013-9-5 19:23:45 标题: ARM CPU的浮点运算上万分了，突然想到，CPU浮点强有啥用啊

浮点运算不是该交给显卡么，CPU这方面过得去就行了，没想到ARM的浮点性能居然比整数几乎高出一倍，这节奏是不是出错了啊

作者: samuil_yu1 时间: 2013-9-5 19:35:18

浮点代表运算的精确度~~~~~~~~~ 未来的趋势~~~~~~~~~ 什么东西只是过得去还发展个毛~~~~

作者: welo010 时间: 2013-9-5 19:47:52

samuil_yu1 发表于 2013-9-5 19:35
浮点代表运算的精确度~~~~~~~~~ 未来的趋势~~~~~~~~~ 什么东西只是过得去还发展个毛~~~~ ...

消费级关注个毛发展

作者: mvp2005 时间: 2013-9-5 20:26:46

双精度 32位现在台式机还没玩转，浮点性能还需要进一步提升

浮点运算不是完全交给GPU的，只是图形运算给了GPU

作者: niveous 时间: 2013-9-5 20:37:09

不过未来的趋势到确实是GPU和CPU合并...

作者: niveous 时间: 2013-9-5 20:53:05

老王八发表于 2013-9-5 20:49
我买了amd的apu发现最大问题是画质抗干扰不行，有时候有些线条什么的，明显没有独立显卡那种抗干扰能力。 ...

所以说到目前为止还只是趋势...............................

作者: welo010 时间: 2013-9-5 20:53:58

mvp2005 发表于 2013-9-5 20:26
双精度 32位现在台式机还没玩转，浮点性能还需要进一步提升

浮点运算不是完全交给GPU的，只是图形运算给了 ...

问下目前CPU浮点基本工作做啥，不是很明白ARM堆浮点意义在哪里？X86似乎是整数大于浮点的吧

作者: mvp2005 时间: 2013-9-5 21:10:43

本帖最后由 mvp2005 于 2013-9-5 21:24 编辑

welo010 发表于 2013-9-5 20:53
问下目前CPU浮点基本工作做啥，不是很明白ARM堆浮点意义在哪里？X86似乎是整数大于浮点的吧
...

大量运算都是浮点的，多媒体大量使用浮点运算，比如说声音、视频，放个MP3还不至于调用GPU，当年INTEL的MMX CPU就是强化了多媒体的常用运算指令以提高多媒体的运算效率，现在INTEL和AMD的CPU都内置了MMX第N代的指令（AMD部分MMX指令不是INTEL的，当初有过版权争议）

浮点运算都可以转化为整数运算，但是效率方面就差得不像话了

整数强还是浮点强，取决于具体的CPU设计，X86只是指令集结构。不过，因为X86是繁指令集，如果其它方面相同的情况下，X86在很多方面的执行效率不如ARM这种精简指令集，包括浮点运算性能。但在实际的复杂运用中，因为牵涉到的方面很多（比如说制程），也很难说X86和ARM就一定哪个更强悍

INTEL在设计CPU中，还是学习了很多精简指令集的东西的

现在INTEL其实我觉得受制于X86了，INTEL曾经想抛弃X86，但是如果抛弃X86，就意味着INTEL没有了相对其它厂商的巨大优势（OS、大量软件），这个INTEL很难割舍，所以INTEL现在面临ARM的攻势基本没有还手之力，不排除INTEL会走NOKIA的老路。。。

作者: welo010 时间: 2013-9-5 21:27:30

mvp2005 发表于 2013-9-5 21:10
大量运算都是浮点的，多媒体大量使用浮点运算，比如说声音、视频，放个MP3还不至于调用GPU，当年INTEL的M ...

有AC97这种标准配置，声音不需要CPU
视频的话，高码率没GPU参与可能么？占用肯定过70%！低码率的连P4级别都能上

所以，我实在找不到消费级市场里，“过高”的浮点到底要干什么

作者: welo010 时间: 2013-9-5 22:07:48

mvp2005 发表于 2013-9-5 21:36
物理运算么，如果不是NV显卡的话

图形运算里面，目前还是有一部分给CPU的，AI方面也得CPU运算

所以，我才会有疑问啊，这ARM拼命堆浮点干什么

作者: ksd 时间: 2013-9-5 22:09:28

welo010 发表于 2013-9-5 21:27
有AC97这种标准配置，声音不需要CPU
视频的话，高码率没GPU参与可能么？占用肯定过70%！低码率的连P4级别 ...

首先现在cpu如果不玩游戏，作图，玩视频，做音乐之类的别说浮点性能，任何一方面的性能都算过剩。

另外一个程序想要通过GPU加速，需要按照一定规范对代码进行修改。但还没有任何一种API或规范能够对市面上所有显卡进行完整兼容，包括现在AMD力推的OPENCL。

GPU浮点运算能力之所以强，在于其拥有极多的浮点运算单元能够大量并行，适合图像这种运算之间关联性不大，总量又十分庞大的数据。而CPU处理的数据往往要求能够快速返回结果进行下一步运算，如果用FPU只需从缓存或内存中读取数据，存入FPU寄存器，并从寄存器中返回结果；如果用GPU，需要从内存通过pci-e传输到GPU或显存，运算完成再通过pci-e传到内存，CPU再从内存中取得结果，延时极大，更别说GPU的浮点运算单元本身的延迟有可能比CPU大，精度也往往比不上CPU。

作者: welo010 时间: 2013-9-5 22:29:10

ksd 发表于 2013-9-5 22:09
首先现在cpu如果不玩游戏，作图，玩视频，做音乐之类的别说浮点性能，任何一方面的性能都算过剩。

另外 ...

需要用到双精度，往往会倾向于专业级领域，这时候CPU不够看了，还是要上专业显卡

作者: ksd 时间: 2013-9-5 22:36:49

welo010 发表于 2013-9-5 22:29
需要用到双精度，往往会倾向于专业级领域，这时候CPU不够看了，还是要上专业显卡

首先双精度并不只有专业领域在用。再其次我上面都说了用显卡运算浮点与FPU相比的不足之处了。当运算之间有很强的关联性时，或者对于延时要求较高时，GPU反而不如FPU，更别说开发的复杂程度。

作者: welo010 时间: 2013-9-5 22:40:27

ksd 发表于 2013-9-5 22:36
首先双精度并不只有专业领域在用。再其次我上面都说了用显卡运算浮点与FPU相比的不足之处了。当运算之间 ...

只有专业领域才要求这么高的精度，消费级领域单精度已经满足需求了，而且，需要用到双精度时，一般的CPU也无法承受，还是要堆核数量

作者: ksd 时间: 2013-9-5 22:45:58

welo010 发表于 2013-9-5 22:40
只有专业领域才要求这么高的精度，消费级领域单精度已经满足需求了，而且，需要用到双精度时，一般的CPU ...

首先你要知道ARM不止用在消费领域，更别说x86。再其次CPU增强浮点运算能力主要靠的并不是堆核。

作者: 死鱼眼银他妈 时间: 2013-9-6 08:11:36

好专业的说

作者: welo010 时间: 2013-9-6 08:26:50

ksd 发表于 2013-9-5 22:45
首先你要知道ARM不止用在消费领域，更别说x86。再其次CPU增强浮点运算能力主要靠的并不是堆核。 ...

X86你不堆核你能堆什么

作者: 高桥亮政 时间: 2013-9-6 10:36:17

niveous 发表于 2013-9-5 20:37
不过未来的趋势到确实是GPU和CPU合并...

然道你说的是APU！！那货，太坑爹了

作者: ksd 时间: 2013-9-6 11:53:18

welo010 发表于 2013-9-6 08:26
X86你不堆核你能堆什么

改进FPU算法，增加指令集使功能能够以更短的周期完成。改进运行机制使得数据流量更大。

酷睿2和奔腾D，核数一样频率还低，浮点性能却大大增加，你觉得靠得是什么？

作者: welo010 时间: 2013-9-6 16:07:37

本帖最后由 welo010 于 2013-9-6 16:10 编辑

ksd 发表于 2013-9-6 11:53
改进FPU算法，增加指令集使功能能够以更短的周期完成。改进运行机制使得数据流量更大。

酷睿2和奔腾D， ...

这种是嘴炮了，算法不是说改进就能改进的，要不AMD怎么会被英特尔压着打，更何况，改进算法也不可能使浮点性能百倍的增长，而堆核却是目前提高性能最快最有效的方式，比如服务器

作者: xueyl 时间: 2013-9-6 17:13:06

解压，解码啥的，都要用的

作者: niexuchina 时间: 2013-9-6 21:48:28

老王八发表于 2013-9-6 11:38
不坑啊，搭配hd6000系列的好像，玩游戏比gt520还快。只是有时候有些干扰的波纹而已。
...

波紋應該是驅動需要完善。

作者: ksd 时间: 2013-9-6 23:07:06

本帖最后由 ksd 于 2013-9-6 23:25 编辑

welo010 发表于 2013-9-6 16:07
这种是嘴炮了，算法不是说改进就能改进的，要不AMD怎么会被英特尔压着打，更何况，改进算法也不可能使浮点 ...

这也不是你说嘴炮就嘴炮的。AMD被英特尔压着打正是它内核设计和软件优化的缺陷，要不也不会高频8模块还比不过低频i7，而这正是你说的堆核，你觉得很有效么？理论性能提高了，编程用不到多线程只能白费。另外还有我说的酷睿和PD的对比。还有就拿ARM来说，你知道A9光是使用NEON就比传统的VFPv3强多少么？

而且堆核才更需要改进算法，让原来只能用到一个核的任务拆开平均分配下去。超算，服务器正是如此，数据的传输存储，任务的调度，更别说天河这种带异构的集群。买一大堆机柜有钱就行，能让它们一起跑起来的就不多了，效率能跑高的更是少。

作者: welo010 时间: 2013-9-7 08:34:15

本帖最后由 welo010 于 2013-9-7 08:51 编辑

ksd 发表于 2013-9-6 23:07
这也不是你说嘴炮就嘴炮的。AMD被英特尔压着打正是它内核设计和软件优化的缺陷，要不也不会高频8模块还比 ...

请稍微了解一下服务器软件部分关键在哪里，不要乱放炮，你根本就是说多少错多少----说算法。稍微了解一下数学的发展行么

算法再改进用的还是数学界的那一套，再拆分还是用那一整个模型，服务器关键是资源分配和众核设备协调运作，不懂你闹什么闹，初中政治课本和历史课本都说过咱科学家在造银河时解决分层数据链被大奖特奖了一番，你上课都在睡觉吧

还平均分配，你让那些没工作休眠的CPU情何以堪------我就没见过在服务器和超算上有平均分配的机制，只知道需要多少资源就激活多少个集群CPU，不需要的休眠，人家商用超算都是这样卖资源的

作者: 惜花六如 时间: 2013-9-7 08:50:38

浮点数是精确度貌似。。

作者: qingke 时间: 2013-9-7 09:23:56

现在很多程序都会进行小数计算，这个时候就是浮点体现价值的时候了

作者: tuhungyuan 时间: 2013-9-7 09:40:10

這玩意絕不是這麼簡單的～

作者: welo010 时间: 2013-9-7 10:34:45

qingke 发表于 2013-9-7 09:23
现在很多程序都会进行小数计算，这个时候就是浮点体现价值的时候了

但是堆太高没意义啊，想堆高，芯片面积和功耗都会上去，得不尝试，要不A15怎么功耗会这么高，全是堆浮点堆出来的，完全就是照着服务器市场去设计，消费级不但用不上，还影响体验

作者: ksd 时间: 2013-9-7 15:48:12

welo010 发表于 2013-9-7 08:34
请稍微了解一下服务器软件部分关键在哪里，不要乱放炮，你根本就是说多少错多少----说算法。稍微了解一下 ...

“而且堆核才更需要改进算法，让原来只能用到一个核的任务拆开平均分配下去”这是我的第二段第一句的原话，指的是对于cpu堆核来讲的。服务器超算什么的是后来加的，没有另起一段外加“正是如此”让你理解成超算服务器需要“平均分配”是我的错。

回到帖子的主题。不能否认如果只是上上网，看看视频什么的A15完全就是浪费，但对于游戏，图片处理，音频处理，界面特效都很重要。而这恰好是手机都要用到的。有些可以使用GPU完成加速，但一方面想使用GPU需要单独编程，另一方面不管是移动还是传统GPU也没有一个成熟统一的标准来做这件事。而且很多任务（关联性较强的，需要快速返回结果的）用GPU反而不如CPU。所以还是需要增强CPU的浮点能力。但单纯的堆核并不能很好的提升实际的性能，所以CPU提升浮点任务的性能主要还是靠改进FPU方面。以ARM为例，A8加入NEON支持向量运算，A9VFP升级为流水线，A15位宽128Bbit原生支持FMA。另外指令处理方面的改进也能间接增强浮点任务的处理能力。

vfp在A15中的比重并不算大，和加长流水线，取指能力提升，缓存增大带来的晶体管数量上升相比，VFP的影响并不是决定性的。A15功耗高也与ARM对半导体工艺进展过分乐观有关。总之将A15功耗高归结为提升浮点能力是偏颇的。另外对于手机，A15提升浮点还是有用的，支持硬件虚拟化和地址扩展才是瞄着服务器市场完全没用的东西。

作者: umbrella 时间: 2013-9-7 16:12:05

看来还是有懂的~~

作者: qingke 时间: 2013-9-7 16:15:36

welo010 发表于 2013-9-7 10:34
但是堆太高没意义啊，想堆高，芯片面积和功耗都会上去，得不尝试，要不A15怎么功耗会这么高，全是堆浮点 ...

所谓消费级用不上那是自己骗自己

这不过常见的是自己设一个悖论，由他人反驳自己辩解而已

作者: welo010 时间: 2013-9-7 18:48:06

ksd 发表于 2013-9-7 15:48
“而且堆核才更需要改进算法，让原来只能用到一个核的任务拆开平均分配下去”这是我的第二段第一句的原话 ...

我的意思是：以目前的浮点性能来看，无论是游戏还是什么别的，都是极大的浪费，性能是极其过剩的，反而功耗上去了不少，与其堆浮点，还不如把部分功耗对应堆在提升整数上面，A15目前来说还没有什么软件是可以发挥它的浮点性能的，而整数性能却又不足

作者: welo010 时间: 2013-9-7 18:51:52

qingke 发表于 2013-9-7 16:15
所谓消费级用不上那是自己骗自己

这不过常见的是自己设一个悖论，由他人反驳自己辩解而已

反着来说，你不也是自己安慰自己么，一天两充莫非很爽？白白浪费的电量完全用在了根本用不到的地方，有时间堆浮点搞服务器，还不如多堆点整数，稳固消费市场

作者: ksd 时间: 2013-9-7 20:16:08

welo010 发表于 2013-9-7 18:48
我的意思是：以目前的浮点性能来看，无论是游戏还是什么别的，都是极大的浪费，性能是极其过剩的，反而功 ...

整数方面，A15对应A9的提升也是有的，比如加入了硬件除法器。而且指令拾取和执行方面的提升也直接影响到整数性能。不过这方面当然提升小确实是事实。

作者: 鬼之魇 时间: 2013-9-7 20:24:34

嗯，不懂，用英特尔加英伟达的飘过

欢迎光临游侠NETSHOW论坛 (https://game.ali213.net/)