为你还原一个真实的GF100》（原创无图）

taizer 发表于 2010-5-1 16:09

为GF100说2句
GF100白皮书披露的时候，我看了下，NVIDIA的大手笔让我惊讶，而且我对其预期性能曾经极度期待，但目前的情况是GTX480在D10甚至D11里所展现的性能与其庞大的规格完全不成比例。
那么问题在哪？GF100真的只是一个失败品么？

时间回到2006年底，对于即将到来的D10，ATI信心满满，凭借着在cell上积攒的统一架构经验，ATI很是期待D10时代的到来。反观当时的NVIDIA，甚至拿出一个36渲染管12顶点的GPU去给加工商做卡，当然这只是他们的诡诈。在ATI频繁改动RV580产品线的时候，NVIDIA突然推出了性能极度超前的GPU，也就是G80。在统一架构上毫无经验的NVIDIA凭借自己多年的CUDA阵列式核心技术储备，做出了一个在结构和指令算法上完全不同于cell的GPU，并且以90nm的技术将6.8亿的晶体管做进了GPU，其巨大的发热和功耗不亚于现在的GF100。相同的是G70到G80经历了核心架构的巨变，G100也是。不同的在于上次延迟6个月铺货的是ATI，这次换做了NVIDIA，而且GF100的性能远不及G80那么嚣张。

问题1：GF100的规格到底在什么程度？
结构分析一之指令单元：
与渲染管能处理1D到4D不同的是，NVIDIA的流处理器只能处理1D指令，为了不影响效率，NVIDIA的CUDA频率是核心的2倍以上，这种分频技术实际来自于G70。我们来对比RV870的流处理方式以及数量看看GF100的指令效率在理论上是否有超出。
（自RV600ringbus结构失败后，ATI就一直使用crossbar总线，实际上在RV870上的外部总线可以看做是ringbus，这是题外话。）
RV870的流处理器为5个一组，其中以1D单元+4*辅助单元，与一个仲裁单元合并封装，并且将所遇到指令以2D+3D 1D+4D等组合方式组合成5D交由流处理器组。需要注意的是，全部的1600个SP不能同时工作，只能同时启动其中的80%-90%，应该有具体的算法，我没有找到。假如同时给GF100和V870输入2400个4D指令(目前暂不考虑2者核心频率因素），GF100需要调用其480个SP（暂不考虑未来512版本），运行4个周期，考虑其2倍于核心的频率，所以处理2400个4D指令需要2400/480*2 =10个周期，换做RV870，则需要2400/1600*5=需要7.5个周期。这是对于过GF100最不利的情况，也就是4D指令较多，当1D 2D 3D指令较多，GF100就会优势明显，这是考虑到ATI指令组合分配的情况。实际在G200中，拥有240SP的G200在综合指令效率上要远高于拥有160组SP的RV770，GTX480恰好是2倍于G200的CUDA数量，RV870也恰好是RV770的2倍，所以实际上GF100并不存在指令单元的短板问题。而且实际上NVIDIA是刻意保持了512个SP数量，以保证其新架构不能发挥效能的时候，依然可以凭借传统的指令能力来达到预期的性能。只是NVIDIA没有预料到新的架构带来了毁灭性的发售延迟。

结构分析二之：新的材质通道
在GF100中原本的TPC结构消失，其功能实际被原本的SM继承，这是一个巨大的改动，一方面NVIDIA出于对物理单元的考虑，另一方面则是NVIDIA误判了D11游戏特性，导致了TPC结构改动没能带来性能上升，反倒是损失。原本的纹理单元由TPC封装改由进入了SM阵列，（值得注意的是GF100的纹理单元数量是64，这实际是纹理拾取，其操作单元是256个，这也是继G80之后首次不同数量的纹理拾取与纹理操作，G80是1：2.这次是1:4. 纹理拾取和纹理操作二者并不是同步进行，在G92时代回归到1：1后，纹理效率有了小幅度提升，这次使用1：4大落差比率，估计是考虑到D11的新纹理压缩技术所做的改进。也就说其实际纹理能力相对于80个纹理的G200还是有很大优势的）并且为SM增加了新的片上缓存以缓解指令首发压力。对此做一个进一步的解释，SM的数量是非常重要的，ATI一直不放弃ringbus就是为了能建立更对的TPC继而建立更多的SM封装。我个人的猜测是，在TPC结构中存在一个指令列表结构，当然是顺序执行结构，这些指令列表由总线提供，进而由TPC交由SM来逐一完成。SM封装内的所有SP单元只能同时进行像素或者顶点操作，所以从另一方面说TPC的数量关乎GPU在复杂指令环境下的效率问题。而到了G100，这个指令列表进也入了SM阵列，NVIDIA原本是为了在D11复杂的特效下让指令拥有更低的延迟，为SM配比了高达32CUDA的恐怖数量也是为了这个(G80仅有8个）。结果目前的D11游戏并没有将D11的着色器发挥到极致，导致了GF100的这一结构面对并行非复杂指令环境反倒力不从心。
从某种意义上讲，目前的测试以D9,D10为主，而且在D11的纹理特效和细分曲面又没有大范围应用，这对已G100是不公平的，而且ATI似乎非常清楚这一点，最近的测试对GF100也非常不利。
结构分析之三：飞跃的物理性能和其他改进
1.GPC、Polymorph Engines、Raster Engines
GPC的存在实际为了Polymorph Engines、Raster Engines的封装以及调用。Polymorph Engines与原本Z-Cull处于同一封装和功能位置，与其功能类似的单元在G80时代就有其参与物理加速运算。与之前不同的是，GF100将Polymorph Engines的数量增加到了极致达到了16个，RV870和以前维持了相同的水平，考虑到其外部总线结构，Polymorph Engines应该是2个。Polymorph Engines将帮助GPU进行Tessellation技术，将原本没有顶点经行分割和构建，Raster Engines将参与后期实际运算。Raster Engines每GPC封装1个，总数量为4.这些单元也会帮助分解Tessellation技术对ROP的压力，从而降低Tessellation+AA双重开启下的性能损失。GPC结构也正是ATI所最害怕的，RV870在这一方面远不及GF100的性能，而目前的科林麦克雷及尘埃晴空的Tessellation还只是涉及阶段，未能对rv870的物理短板造成影响，从这一角度说，GF100又面临了测试中所遇到的不公问题。关于Tessellation，各大网站介绍了太多太多了，重复的话我不多说，我就谈谈Tessellation目前在游戏里的实际情况。Tessellation的原理是为原本的多边形划分新的顶点进而拆分更多的三角形以实现物体的“光滑”线条。（原本的顶点信息是游戏本身决定的，并且有CPU交由GPU进行运算，但GPU不能对多边形进行额外的顶点运算。Tessellation技术就是实现GPU对顶点的额外处理）如果我们面对的是一个正方形的箱子，Tessellation会不会对内部经行顶点拆分呢？如果有一把枪枪管由于多边形太少而显得线条“硬”，而枪身原本就是“硬”线条，Tessellation技术又如何判定它那里应该增加顶点呢？实际是如果不加以限制，正方形的盒子也会内部加以顶点，你在外面看不出任何区别，而你的GPU确面临大量无用的运算，而你手上的枪，会变的形似法国棍式面包。此种仲裁依靠API和GPU本身都无法完美规避，实际应用中应该是游戏引擎就限制了哪些部分可以细分曲面，而哪些又不可以。而目前支持Tessellation的游戏根本没有将Tessellation大范围应用，这也就导致了GF100的优势无法发挥，短板又在测试中无法规避，功耗热量以及高价导致了GF100在RV870面前毫无性价比可言，活脱一个优秀技术的悲剧。
在G94上积累的经验让GF100能在ROP像素处理效率上略超RV870，这对于万年ROP短板的NVIDIA着实不易，加上物理单元的帮助，GF100的抗锯齿下的性能损失也确实很小，当然D11优秀的调用也功不可没。

正是由于GF100巨大的改进和复杂的结构导致了其难产，加上其冒险的在API换代之时对阵列结构作了巨大的改动，导致了性能的“本末倒置”。良品率，功耗而且无法提升的核心频率导致了384BIT的位宽在RV870 256BIT前面毫无优势（这主要只的是ROP带来的像素能力，而不是显存带宽）。主流游戏测试中单卡性能没能超越RV870太多，导致其屏蔽打中端以平均成本的策略化为泡影。

我们唯一可以肯定的是，GF100实际摸准了改进的方向，未来应该会有很好的表现，而且512SP版本还没有到来，一切都是未知数。而目前的测试又充满了刻意的规避，可以预见在AP1第二代NVIDIA还会沿用GF100的基本架构，并带来完美的性能。

yisulongte 发表于 2010-5-1 16:57

最多只买的起256流处理器的显卡，在这之上的无力应对

sfgggg 发表于 2010-5-1 17:16

GF100的DX11性能绝对不怎么样，就好象当年8600GT玩DX10游戏一样。第一代DX11显卡中低端产品的DX11功能没有什么实际用途，开了DX11效果之后卡成蛋了，你还会玩吗？

Zria 发表于 2010-5-1 17:24

说穿了就是NV用了错误的制造工艺在错误的时间推出了错误的产品
其实还是ATI逼的如果不是ATI刻意发布半代卡的话（5XXX）那么NV这个产品是要和6XXX竞争的
这个道理不难理解早期的显卡2D性能远超后期的显卡但是已经没有用武之地了
商场之争不但有产品的也有商业手段的
终于轮到NV在这方面吃瘪了感慨啊

Zria 发表于 2010-5-1 17:49

GF100的DX11性能绝对不怎么样，就好象当年8600GT玩DX10游戏一样。第一代DX11显卡中低端产品的DX11功能没有什么实际用途，开了DX11效果之后卡成蛋了，你还会玩吗？
sfgggg 发表于 2010-5-1 17:16:00http://3dmgame.chnren.com/bbs/images/common/back.gif
所以一般都是卡皇先出来的比如8800U 2900XT之类的
这些卡还是能跑跑的何况现在NV也没拿出中低端的产品来
说老实话我对于GF100能不能生产出中低端产品还是带有疑问的~除非DX11在算法上非常优秀
可以大幅度减轻DX10环境下的硬件指标而不只是某些效果的强化版
以DX9来说DX10那代显卡没几块可以跑过上代的1950或者7950的
我估计下波产品搞不好可以带+号了GTX480+？

1330412127 发表于 2010-5-1 21:31

好长。。

咳怀念8600阿，

pdear 发表于 2010-5-1 22:16

是了，费米的真正对手是6XXX系列

不过因为台积电的工艺问题，6XXX系列又成了半代卡了（继承一半的老架构，改革一半的新架构）

bigeblis 发表于 2010-5-1 22:30

GTX480面对HD5870都只是互有胜负，面对HD6XXX岂不是一败涂地？

雷得死人 发表于 2010-5-1 23:54

回复 8# bigeblis 的帖子

难道你知道HD6XXX规格了？

taizer 发表于 2010-5-4 12:04

昨天偶然看到的测试，我对结果非常满意，在extreme级别细分曲面+8AA+ultra贴图的极苛刻环境中，GTX480开始以极大的优势甩开了RV870。

t1000eva 发表于 2010-5-4 12:28

顶你吧

bigeblis 发表于 2010-5-4 12:33

难道你知道HD6XXX规格了？
雷得死人发表于 2010-5-1 23:54:00http://3dmgame.chnren.com/bbs/images/common/back.gif
用膝盖想也知道HD6XXX的性能绝对超过HD5XXX，那么和HD5870性能表现差不多的GTX480在遇到"HD6870"时，难道还能超过它的性能？

Zria 发表于 2010-5-4 12:45

回复 13# bigeblis 的帖子

原来A和N都是用脚趾头想事的
ATI的HD2XXX比HD3XXX差？
NV的GT3XX系列比GT2XX 强？
你又知道该死的NV该死的老黄不会出新卡？那怕是改进版？

CK_01 发表于 2010-5-4 12:49

在GF100中原本的TPC结构消失，其功能实际被原本的SM继承，这是一个巨大的改动，一方面NVIDIA出于对物理单元的考虑，另一方面则是NVIDIA误判了D11游戏特性，导致了TPC结构改动没能带来性能上升，反倒是损失。
可以理解为叫微软给涮了？

nl199126 发表于 2010-5-4 12:56

今天的480会不会就像4年前的8800u
改良后最终飞入寻常百姓家

aizhishen 发表于 2010-5-4 13:43

NV的改良是必须的,不然这就没的办法玩下去了!

zsad 发表于 2010-5-4 13:53

现在新出的N卡和A卡的超级显卡。。。。价格太高了！承受不起啊，还是用GTX275或者是ATI 的 4870和4890算了

页: [1]

3DMGAME论坛's Archiver