AMD-ATI HD5870评测(详尽而真实)
作者:nApoleon 来源:ChiphellHD5000系列犹如一场风暴般席卷全球,Chiphell为大家迎来了首款产品HD5870,低功耗高性能无疑将会是2009年年末最为值得购买的显卡.
自RV770发布一年零三个月后,AMD-ATI于太平洋时间9月23日正式全球发布业界第一款基于DX11版本的GPU--代号"Cypress".由于从本代产品开始AMD-ATI不再使用原先的GPU代号命名方式(例如RV770),而是统一更换成了英文单词来为新GPU命名代号,所以我们之前一直所讨论的RV870实际上就是"Cypress".第一批零售上市的"Cypress"产品有HD5870和HD5850两款,接下来的测试我们除了要为大家展示HD5870性能表现,更为重要的是深度解析"Cypress"整个架构的特性以及DX11在技术上的进步.
http://www.chiphell.com/uploadfile/2009/1011/20091011071812361.png
HD5000系列背景 整个HD5000系列共有四款GPU产品,代号分别是:"Cypress";"Juniper";"Redwood";"Cedar".从AMD-ATI官方的Roadmap可以得知,2009第三季度发布的是"Cypress",随后在第四季度将会迎来最高端产品"Hemlock"以及中端产品"Juniper",低端的"Redwood"和"Cedar"则预定在2010年Q1发布上市.
http://www.chiphell.com/uploadfile/2009/1011/20091011123124172.png
从我们已知的资料整理归纳后发现,代号"Hemlock"将会是使用了两颗"Cypress"核心的HD5870X2和HD5850X2这两款产品.代号"Cypress"则为本次测试的HD5870和HD5850.代号"Juniper"是近日已被曝光的HD5770和HD5750.而"Redwood"和"Cedar"对应的是RV830和RV810,具体零售代号暂时不知.
2009年将要发布的HD5000系列最具有影响力的产品毫无疑问是定位高端的"Cypress"和定位中端的"Juniper",在我们深入解析"Cypress"之前先简单了解下"Juniper"的官方资料.
http://www.chiphell.com/uploadfile/2009/1009/20091009103348257.png
http://www.chiphell.com/uploadfile/2009/1009/20091009103348152.png
http://www.chiphell.com/uploadfile/2009/1011/20091011123124915.png
"Juniper"共有HD5770和HD5750两款产品,作为完整版"Juniper"核心的HD5770规格正好是"Cypress"的一半.而HD5750则类似HD5850一样被屏蔽了部分规格.考虑到"Juniper"的保密日期还未过期,我们还是先到此打住回归到"Cypress"的讨论上吧.
HD5800系列的优势HD5800的发布刷新了业界多项新纪录,首先是第一款支持DX11版本规格的GPU显卡(DX11稍后会深入解析);其次HD5800系列的浮点运算能力达到了历史最高纪录2.7 TFLOPS.除此以外,更高频率的GDDR5,单卡三屏输出,次世代音频输出等技术的首次采用使得HD5800无疑成为了业界目前为止最为强悍的GPU.
http://www.chiphell.com/uploadfile/2009/1011/20091011015154878.png
提到40nm就不得不说一下今年早些时候发布的业界首款40nm工艺GPU产品RV740.其实如今看来RV740当初的策略很明显是为了整个HD5000系列"试水",为什么要这样做?GPU工艺的提升当然会对整个产品线带来质的飞跃,不过激进的工艺提升会有一定的危险性,历史上并不缺乏这样的反面教材.让一款架构已经成熟的中低端GPU去实验新工艺的表现,这就是ATI为何会先使用RV740来"试水"40nm工艺的主要原因.在有了RV740的经验之后,TSMC 40nm的漏电性与良品率便有了一个准确的数据统计,这样一来HD5000系列便能够在"知己知彼"的前提下大胆启用40nm工艺,对于整个HD5000的产量预估以及产品规划的帮助都是非常有效的.
同样作为业界唯一使用GDDR5显存的ATI,从RV770开始ATI所使用的GDDR5也逐渐成熟起来,从初期单一的GDDR5供货商奇梦达(Qimonda)一家公司,发展到如今HD5800系列使用技术更加完善的三星(samsung)所提供的GDDR5显存颗粒,就ATI产品规划而言,当对手还在停留与GDDR3显存的时候,ATI很早便开始挖掘显存对于GPU带宽的提升,早在2006年ATI开始采用GDDR4显存开始,紧接着2008年里采用GDDR5的RV770发布,这些历史都告诉我们ATI对于高带宽显存的期望和寄托.本次HD5800所使用的三星GDDR5颗粒在PowerPlay支持上作用更加明显,稍后的产品测试里我们会详细分析.
http://www.chiphell.com/uploadfile/2009/1011/20091011015154977.png
Cypress架构分析http://www.chiphell.com/uploadfile/2009/1011/20091011015154669.png
▲Cypress架构概览
粗略一看,Cypress的架构同RV770的架构非常相似,倍增了硬件处理单元的规模,增添了许多新的特性以支持DX11,下面就让我们深入到Cypress架构的细节中去,好好品评一番.
图形引擎(Graphics Engine)
http://www.chiphell.com/uploadfile/2009/1011/20091011015154905.png
当把Cypress的图形引擎和RV770的相对比时,我们首先注意到有两个光栅器(Rasterizer),联想到之前的双核心传闻,双光栅器是一个微妙的暗示.Chiphell认为如果Cypress有两个图形核心,那么这两个图形核心一定是以SFR的方式进行任务分配.因此两个光栅器,每一个都对几何数据进行光栅化,将生成的特定的像素数据分别送到各自的图形核心中去,这个猜想是合理的.但是,这只是我们的猜测,AMD官方并未做任何Cypress采用双图形核心架构的表态.
图形引擎的另一个重大变化是支持DX11的镶嵌(Tessellation)功能.在过去的十几年中,GPU一直快速演进,更多的可编程单元,统一的着色器架构,更多的算术运算单元,但这些改变多集中在像素处理阶段,现在的GPU的像素处理能力有了长足的进步,但是在几何处理阶段,仍然能力有限.当前实时渲染的画面,相当多的瑕疵都是由于几何细节不够造成的.从DX10开始,DirectX的流水线引入了新的着色器(shader)类型:几何着色器(Geometry Shader),试图提高几何处理能力.在DX11中,微软正式引入了镶嵌功能.
http://www.chiphell.com/uploadfile/2009/1011/20091011031115255.png
▲DX11渲染流水线
图形引擎中的镶嵌器(Tessellator)是一个固定功能单元,RV770甚至R600就已经包含了镶嵌器单元,但是老的镶嵌器单元并不能完整支持DX11的镶嵌(Tessellation)功能.Cypress支持两类全新的着色器:壳着色器(Hull Shader)和域着色器(Domain Shader).可编程单元同图形引擎中的镶嵌器相配合,能完整支持DX11的镶嵌功能.
http://www.chiphell.com/uploadfile/2009/1011/20091011031115512.png
▲HS处理流程
HS首先读入曲面控制点,对控制点进行基本的变换,然后对曲面的每一边计算镶嵌因子(Tessellation Factor).请注意,在DX11之前,三维图形流水线只能处理三角形图元(点、线通常被当做特殊的三角形).通过Tessellation,现在硬件能直接处理诸如贝塞尔曲面等高阶曲面或曲线.
http://www.chiphell.com/uploadfile/2009/1011/20091011031115604.png
▲镶嵌器处理流程
镶嵌器(TS)首先读入壳着色器(HS)输出的镶嵌因子和镶嵌模式描述符,以此决定镶嵌模式和镶嵌程度.然后对每一个曲面进行镶嵌处理,生成几何拓扑信息(即点与点之间的连接关系到底是线还是三角形),同时输出UV或者UVW域点.
http://www.chiphell.com/uploadfile/2009/1011/20091011031115115.png
▲域着色器
域着色器(DS)读入控制点和镶嵌因子信息,对每一个镶嵌器产生的点进行处理,将点从UV空间变换到顶点空间或者切空间,并输出给后续的处理单元.
镶嵌(Tessellation)使得GPU能够以粗糙的模型为基础生成精细的模型,提高渲染效果.由于只需要将粗糙模型数据传送给GPU,也缓解了显存容量和显存带宽的使用压力.同时,DX11的Tessellation也非常的灵活.比如低端硬件同高端硬件相比,由于硬件规格的限制,能够生成相对粗糙的模型,从而保证帧率的稳定.
相较于RV770,图形引擎中另一个显著的变化是插值单元(Interpolator)的消失.在Cypress中,顶点数据的插值不再由固定功能的插值单元完成,而是送到流处理器中完成.由于插值实质是通过流处理器执行算术运算指令完成,因此程序员能够更加精确灵活的控制整个插值过程,从而灵活高效的实现很多新的算法,改善画质.
着色器核心(Shader Core)
Cypress的流核心(Stream Cores)和RV770相比并没有本质的改变,仍然是基于超长指令字架构(VLIW).流核心从指令缓存(Instruction Cache)中读入指令,从通用寄存器(GPR)中读入数据,然后进行运算.不同类型的指令由流核心中的不同单元执行.普通的算术指令由4个流处理器执行(图中"瘦"方框所示).这4个流处理器不但可以单独运行4条指令,也可以4个协作或2个协作等多种方式组合,可以实现32-bit 浮点乘加运算(单独运作)、64bit 浮点乘或加运算(两两协作)、64bit 浮点乘加运算(四个协作)、24bit 整形乘或加运算(单独运作).超越函数(sin,cos,log等等)由特殊功能流处理器执行(图中"胖"方框所示).分支跳转等流控制指令则由分支处理单元(图中黄色方框所示)执行.编译器负责指令的调度,试图寻找能并行执行的5条指令,然后将他们打包,co-issue到一个流核心中执行.但是由于指令的依赖关系,最坏情况下,只有1条指令能被一个流核心执行.根据AMD的论文,通常情况下,大约3-4条指令能被co-issue到一个流核心中去,效率还是相当高的.
http://www.chiphell.com/uploadfile/2009/1011/20091011031115185.png
Cypress中的整个流处理器布局同RV770有所不同,由于整个SIMD数量倍增,而SIMD的宽度不变,仍然为16个流核心,因此仍然像RV770一样至上而下的排列方式已不再可行.Cypress的SIMD被分成了两组,左右排列.每一组包含10个SIMD,每一个流核心包含5个流处理器,一共是20*16*5=1600个流处理器.当芯片运行在850MHZ的频率上时,能提供2.72 TFLOPS的峰值浮点计算能力.
http://www.chiphell.com/uploadfile/2009/1011/20091011031116651.png
很自然,Cypress的纹理单元数目以及Texture Cache大小也提高到了RV770的两倍.同时支持新的纹理压缩格式.纹理单元方面最大的改进在于AMD重新设计了各向异性过滤(Anisotropic Filtering)算法.新的算法完全实现了角度无关化,即纹理的层次细节不会随纹理和相机间角度的变化而变化.AMD声称新的算法在确保画质的同时不会造成额外的性能损失.
http://www.chiphell.com/uploadfile/2009/1011/20091011031116672.png
为了满足DX11的要求,AMD增加了本地数据共享缓存的大小(Local Data Share,LDS),容量达到了32KB,是RV770的两倍.LDS用于同一个线程组(Thread Group)中的线程共享数据.从下图中,我们可以看到,每一个SIMD连接一个LDS,不同的SIMD是不能共享LDS的,因此所有属于同一个线程组的线程都会被线程调度器发送到同一个SIMD上执行.如果不同的SIMD上的线程要共享数据,需要用到全局数据共享缓存(Global Data Share,GDS).在Cypress中,GDS的容量也倍增了,达到64KB.到目前为止,我们对GDS的了解仍然有限,与LDS不同,并没有指令能显式的操作GDS.据Beyond3D的消息,在未来的OpenCL扩展中会提供对GDS的访问,目前GDS只对编译器可见.
流核心能够将运算结果直接通过Memory Export Buffer写入到显存中.在Cypress中,Memory Export Buffer的大小也被提高到了256 Bytes,其规模同样两倍于RV770.
http://www.chiphell.com/uploadfile/2009/1011/20091011031116958.png
总的来说,整个着色器的核心并没有根本性的改变,仍然延续了经典的VLIW架构,大幅提升了处理单元的规模(很多地方规模直接倍增),并针对通用计算增添了新的指令,新的全局同步方式,优化了性能.
显存控制器
Cypress的显存控制器并未采用R600所使用的ring-bus,而是延续了RV770的方式,并优化了面积,增添了新的功能.
Cypress采用了更高频率的GDDR5显存,为了保证数据传输的可靠性,Cypress的显存控制器使用了错误检测代码(Error Detecting Code)技术.在实际中,该技术是通过在显存数据传输中增加循环冗余检验(Cyclic Redundant Checking,CRC)实现的.CRC使用一个多项式函数将待传输的数据进行分段,并生成一组效验码(CRC digits),效验码和数据一同传输.当数据被传输后,显存控制器对经过传输的数据按照相同的机制重新生成效验码,并同传输前的效验码相比较,如果两个效验码是相同的则说明数据传输正确,反之则说明传输过程中有错误发生.为了尽可能的检测到所有错误,需要非常仔细的设计用于生成效验码的多项式函数.我们并不清楚AMD采用了何种多项式函数,但是考虑到Cypress的显存位宽是256 bits,如果要检测到尽可能多的错误.这个多项式函数应当是非常高阶的.
另一个重大的改变是每一个显存控制器连接了两个渲染后端(Render Backend),在Cypress中,渲染后端的数目同样是RV770的两倍,这样正好同SIMD数目的倍增相匹配.显存控制器可能以轮询的方式(Round-Robin)来处理两个渲染后端读写显存的请求.4个显存控制器,连同其他模块(UVD2,PCIE等等)都被连接到一个Hub上,AMD并未披露采用了何种仲裁机制来处理各个模块的读写请求.我们猜测其基本原理应当是对不同模块赋予不同的优先级,根据特定的调度算法来进行仲裁,尽可能的优化显存位宽的使用率.
http://www.chiphell.com/uploadfile/2009/1011/20091011031116952.png
从我们上述的架构分析来看,Cypress的架构仍然基于R600的架构,它并不是一个完全革新的架构,而是对老架构的优化和增强,这个架构所体现出的性能是令人满意的,这也证明了R600架构优异的可扩展性.
对于Cypress,我们还有很多问题不能回答,比如是否采用了两个图形核心,为什么AMD决定设计一颗面积为334mm2的芯片,这与AMD在RV770中贯彻的小核心策略并不完全相符.我们会日后继续探讨这些让人着迷的问题.
ATI Eyefinity技术HD5000系列另一大新技术便是单块显卡可以支持最大3屏甚至是6屏输出(单屏最大2560x1600分辨率).相比以往的单卡双屏输出,3屏输出意味着更多的游戏视觉,更高的工作效率,此次ATI还发布了带有6个Displayport输出端口版本的HD5870,这意味着单卡屏幕输出最大可以支持到6屏,以往只有专业领域显卡才可以实现的技术如今被ATI Eyefinity技术彻底普及化.
http://www.chiphell.com/uploadfile/2009/1011/20091011055209721.png
▲ATI Eyefinity技术支持3屏甚至是6屏输出为游戏,工作以及视听娱乐带来了一场革命.
http://www.chiphell.com/uploadfile/2009/1011/20091011055209398.png
▲已经发布并且支持3屏输出的PC游戏H.A.W.X
http://www.chiphell.com/uploadfile/2009/1011/20091011055209741.png
▲H.A.W.X还可以支持6屏输出.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210340.png
▲年底即将发布的第一款DX11赛车游戏Dirt 2也同样可以支持3屏输出.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210825.png
▲已经发布的赛车游戏Grid同样支持3屏输出,注意看显示器的摆放是倒转90度的,所得到的分辨率则是7680x4800.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210709.png
▲已经发布的RTS游戏Battle Forge通过3屏输出的效果图.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210798.png
▲一边浏览网页,一边做图,同时我们还可以制作offce文档,3屏使得我们的工作效率被尽可能的最大化.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210855.png
▲3屏以及6屏的摆放方式
次世代多媒体技术在多媒体方面, HD5000系列也针对RV770的不足做出了重大改进.
一直以来,显卡因音效输出方式的支持问题拖后腿,只支持HDMI 1.2版本输出接口标准,较市面上的影音产品落后.虽然RV770 显核支持10-bit颜色显示管线符合HDMI 1.3的Deep Color规格,但因为显核的内置音效方案只支持最高7.1声道LPCM、AC-3及 AAC音效输出,未能支持以bitstream方式输出的Dolby TrueHD及DTS-HD Master Audio音频信号,导致RV770最高只能输出8声道 LPCM音效格式,即HDMI1.2版本的音效规格,成为其一个小小的遗憾.
虽然有主板厂商推出有HDMI 1.3认证的780G主板(例如技嘉的 GA-MA78GM-S2H),但因为只在影像方面取得认证,技术上依然是依然无法以bitstream输出未经解码及未经蓝光播放软体作立体声向下混音(down mix)的高清音频流,HDMI 1.3的认证只变成促销卖点之一,可有可无.
Radeon HD 5800系列的出现,为希望建立一套利用HDMI 1.3输出的HTPC用户带来了曙光.Cypress成为全球首个正式支持以 bitstream方式输出最高达7.1声道、24-bit取样格式192 kHz取样率的无解码高清音频流(经HDCP加密传送)的显示核心,并符合 HDMI 1.3a音效规格的认证.而至于原有的7.1声道LPCM输出则继续支持.
就是说,HTPC玩家们可以直接从显卡的HDMI口使用HDMI 1.3a的线材接驳至多声道前置后置功放作放大,然后画面输出到液晶或者等离子电视之上,使得显卡的音效输出功能大幅改善的同时,高质声画享受的接线大幅简化,大大提高电脑显卡在影音产品上的定位,从而为HTPC的"起居室电脑——一个家庭的娱乐中心"理念普及化铺路.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210139.png
HD5800系列支持HDMI 1.3a标准的音效输出,包括bitstream输出无解码音频流.
此外, HD5800系列也继续支持10-bit显示管线,并同时新增xvYCC/x.v.Color宽色域视频讯号和Deep Color色域支援,支持每像素36-bit(红绿蓝三色分量各12-bit)影像输出,使在支持的液晶屏幕上所输出的影像色彩——特别是红色和绿色——更加逼真艳丽.而同样以上的功能亦已符合HDMI 1.3a影像规格的认证.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210444.png
正式支持xvYCC/x.v.Color和Deep Color色域,有助显示更鲜艳的色彩,亦符合Windows 7颜色显示的规定.
HD 5800系列也支持其他的输出接口,包括D-Sub、Dual-link DVI和对Eyefinity技术来说十分重要的DisplayPort.
视频回放方面,显核内置的UVD 2专用视频解码硬件并无做出重大改变,依旧支援MPEG-2、H.264和VC-1三种主流格式的双高清视频流(dual video stream)全硬体解码功能ATI表示HD5800系列显卡在双高清视频流同时播放的时候,Aero Glass界面的半透明特效会依旧开启,而不像上代HD 4800系列产品般先被强制关闭才播放两个视频档案.
而AVIVO HD亦已支持最新的DXVA 2.0,用于Windows 7环境下视频回放的硬体解码提供支持.另外,在驱动里亦有新的AVIVO HD视频设定:
? 独立视频伽玛控制,只调整视频的伽玛设定值,而非整个屏幕的伽玛值;
? 动态视频色彩范围控制,在视频回放时调教黑色与白色的数值,以让用户调教最佳细节的画面;
? 蓝调延伸(blue stretch),使显示白色的部分蓝色分量增强,达至更明亮、更亮眼的白色.
以上种种都是为HTPC用户而改良,目的是让玩家的HTPC体验大幅提升.而Windows 7和HD 5800系列的组合,将带来前所未有的 HTPC多媒体体验给玩家.我们期望这些功能会在全线HD5000系列上出现,包括集成显示核心产品之上,让不同预算的HTPC玩家们一同得益.
DirectX 11技术白皮书
DirectX 11 是微软最新推出的业界标准编程接口提供一个利用次世代图形处理器之先进潜力的通道。它将会是新的 Windows 7 作业系统的关键组成部分,而微软也决定最终也会以软件更新的形式使 Windows Vista 也支持这个编程接口。
DirectX 11 的其中一个重要的新功能是提供 DirectX 计算支持,使开发者能利用近代图形处理器的大规模并行处理能力去加速更广泛但以往只能在中央处理器上运行的应用程序。叫计算着色器的经过程序的存取在图形处理器上运行,它们能使新的图形技术得以实现(例如顺序无关透明化、光线追踪和先进的后期处理效果),或加速各种各样的非图形应用程序(举例说视频转码、视频像素倍增技术、游戏物理模拟和人工智能)。
今日的图形处理器在一个特定的成本和功耗预算下提供以数量级计比今日的处理器更多的原始处理能力。不过,作为特定应用的处理器,图形处理器欠缺处理器的灵活性,使之对开发者去充分发挥其潜力的这个目标充满挑战性。最近的图形处理器包括了新功能旨在改善它们的灵活性并使这些挑战更容易克服。另外一个挑战随着 DirectX 计算使用能适应在拥有不同能力之不同图形处理器架构上的统一编程模型而开始显现。DirectX 11 的编程接口使用一组叫着色器模型的设定档处理这个情况。每个着色器模型包括较低版本号所包含功能的超集。使用更高的着色器模型的好处包括:
[*]经改良的并行性[*]经改良的计算精度和整数处理[*]计算着色器与渲染管线的紧密整合[*]经改良的编程简易度及更有效的记忆体使用计算着色器对比其他并行处理器编程模型的一个优点是其与用于图形编程的其他着色器类型,例如像素着色器和顶点着色器,共用一个统一的指令集。故计算指令集虽然是 DirectX 11 的新功能,部分功能减少的着色器模型能在较早的硬件上运行,如下所述:
[*]着色器模型 4.0 à DirectX 10 等级或更新版本的图形处理器[*]着色器模型 4.1 à DirectX 10.1 等级或更新版本的图形处理器[*]着色器模型 5.0 à 只限 DirectX 11 等级的图形处理器这容许开发者在使用较低版本的着色器模型使兼容性最大化,或使用较高版本的着色器模型以简化开发过程并使性能最大化这两者之间去选择。
很多有趣的演算法和技术实际上只可能在即将发布、支持着色器模型 5.0 的 DirectX 11 级别图形处理器上运行。这里是着色器模型 5.0 所提供的,相对着色器模型 4.0 部分的重点优势的一个概览:
http://www.chiphell.com/uploadfile/2009/1011/20091011070732861.png
这些功能将会在下面更详细讲解。
1. 改良的并行性
以下在 DirectX 11 等级图形处理器的功能会大大增加开发者开拓图形处理器的并行性:
[*]增加的线程组大小和三维线程调度:一个线程组是一套一起运作、有效地实现数据并行算法分块的线程。DirectX 11 等级的图形处理器容许线程组内各线程间的协调数据交换,从而改良了记忆体存取的效率,也因此使并行演算法在更少次数的执行里完成。这并非只为了增加处理速度而设计,但同时也设计作改良图形处理器的耗电效率,因容许在更少存取芯片外的记忆体而提供更高的处理能力。着色器模型 5.0 支持更大的线程数量和更灵活的线程组三维索引,给与开发者在确定其算法事情上拥有更多的控制权,并因为图形处理器中提高的多线程处理而启动额外的处理能力。[*][*]原子操作的支持:这个是中央处理器的一个重要功能而开发者一直要求在图形处理器上也有这个功能。原子操作能在尝试修改同一记忆体地址时使用更有效率和准确的操作组合。图形处理器能并行处理数以千计的线程或线程组,而这些线程里面如果有两个或更多的线程尝试对同一个变数进行修改或存取相同的记忆体位置,就有可能会导致数据损毁。在没有原子操作的情况下,开发者不得不选择究竟要修改其演算法以防止这个情况的出现,或者串行化去更新共享变数或记忆体位置(实际上把大部分并行计算所带来的性能增长都消除)。原子操作容许在不管并行执行线程数目的情况下把这些情况很优雅地处理掉,这能使性能最大化并简化从中央处理器为主的演算法移植到图形处理器上面的复杂程度。[*][*]Gather4 指令:近代图形处理器使用叫纹理单元的专用硬件块以快速提取数据到其相应的处理核心里面。历史上这些纹理单元都被优化作图形渲染,而例如的双线形过滤等的技术就在这里使用以提升图像品质。计算着色器也能时常利用这些相同的单元去提取数据,但它们却普遍地不需要纹理单元的纹理过滤能力,使这些单元未被充分利用。支持着色器模型 5.0 的图形处理器有能力以 Gather4 指令去使用这些额外的数据提取能力,而能同时提取 4 个数值并提供 4 倍的数据带宽。2. 经改良的计算精度和整数处理:DirectX 11 可以按照 IEEE-754 标准以支持双精度(64 位元)浮点在图形处理器上的操作。直到最近,这个水平的浮点操作精度只在中央处理器上支持,而图形处理器则被限制到单精度(32 位元)操作。虽然单精度对于大部分图形应用程序已经足够,但对于部分需要对单一数据值作大规模迭代次数,或者以非常大或非常小的数值去计算的模拟和复杂的数字运算任务来说则可能不足够。着色器模型 5.0 并增加新的整数和位操作类指令,例如前导 1 计算、寻找第一位元、提取/插入位元字段、位元倒序,和位元位移操作。应用程序如视频处理及加密法均广泛地使用这些动作,故能在 DirectX 11 图形处理器上有性能提升的得益。
3. 计算着色器与渲染管线的紧密整合:虽然计算着色器主要供非图形任务用,他们能被时常使用增强及跟渲染管线相互操作去影响发送到显示器的东西。例子包括模拟任务,如游戏物理和人工智能,使能影响物件和控制画到屏幕上的人物的运动和行为;排序技术,如顺序无关透明化,会优化大量物件的渲染;和后期处理效果,如色调影射和景深效果,能应用不同的滤镜去修改和增强一个渲染完的图像。DirectX 11 计算着色器跟其他的用于渲染得着色器种类(包括顶点、外壳、域、几何和像素着色器)共享一套共有的指令集,并能共享数据结构去更实用更有效地实现以上技术。
4. 经改良的编程简易度及更有效的记忆体使用:强大的硬件没有能利用硬件能力的软件是无用的。作为一个计算编程语言,着色器模型 5.0 带来明显的改良并能增强开发者为图形处理器塑造以往被认为是不设实际或办不到的程序和演算法。通过解放用作绕过以往的图形处理器计算语言限制的开发时间,开发者的想象力和精力能改为集中在实际解决计算的问题。着色器模型 5.0 增加了部分重点功能使更容易去模型及解决在图形处理器上的问题,包括:
[*]增加的共享记忆体及经改良的存取:DirectX 11 计算着色器的其中一个重要功能就是共享记忆体的支持,容许线程之间的沟通。着色器模型 5.0 把线程组可用的共享记忆体由 16 千字节加倍到 32 千字节。除了加倍共享记忆体以外,DirectX 11 级别图形处理器容许索引的读取和写入到这个记忆体之中,而较旧的 DirectX 10/10.1 级别图形处理器则限制存取为非共享写入、共享读取。容许线程直接读取和写入共享记忆体增加线程组内部的数据并行性并简化原本设计给中央处理器的代码移植在图形处理器之上运行之动作。更大的线程组和更多的共享记忆体的配搭也可以大大减少部分演算法需要的非本地记忆体存取,这也将会降低应用程序的记忆体频宽需求并增加性能。[*][*]消耗/追加缓冲:着色器模型 5.0 支持一个新种类运作方式类似堆栈或清单的数据缓冲器,而不是一个固定阵列的数值。新数值产生后会被写入清单的最后,或需要时从清单的最后读取。这个用于实现不规则数据结构,结构中的每个元素需要不用数目的数值,或对自适应技术例如对每一个元素作可变数量工作的流数据结实化(Stream Compaction)很有用。追加缓冲容许这些步骤一次性的执行这些数据动作,而非需要多次执行而消耗更多记忆体频宽和计算周期。[*][*]无序存取查看(Unordered Access Views,UAV):无序存取查看是容许数据从任意的位置而非预定次序读取和写入的缓冲器。也被称为“集散”操作,这个添加了许多在旧有的图形处理器之上所没有的灵活性。DirectX 11 扩大这个灵活性并超越 DirectX 10 等级图形处理器的可能性,以容许计算着色器同一时间存取最多达 8 个不同的无序存取查看而不是单单一个。DirectX 11 的编程接口也容许这些无序存取查看被像素着色器存取,即促进了计算着色器和渲染管线之间的数据共享。这些增强容许各种各样的前期和后期处理演算法以更有效率的方式在 DirectX 11 等级图形处理器上实现。[*][*]间接运算调度:这个功能使前述的渲染或计算着色的新一代工作量不受中央处理器介入。这进一步降低中央处理器消耗并腾空更多的处理时间供其他工作之用。
规格解析在刚刚的架构分析中我们已经指出HD5870的各方面规格较之前RV770而言几乎都是翻倍,拜TSMC最新40nm工艺所赐,核心面积上HD5870只相对RV770增加了约18%,晶体管数量达到了惊人的21.5亿.4800MHz的GDDR5显存频率刷新了新的记录,同时更高的显存频率让HD5870的带宽已经几乎等效于GTX 285,只用了一半的显存位宽就能实现了等效的带宽,GDDR5对于ATI来说可谓功不可没.功耗方面双6pin的官方TDP标称为188W,待机下只有27W,稍后的产品测试中我们会为大家带来实际功耗测试数据.
http://www.chiphell.com/uploadfile/2009/1011/20091011065103816.gif
http://www.chiphell.com/uploadfile/2009/1011/20091011055210215.png
以下为大家奉上ATI官方HD5870图赏.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210763.jpg
http://www.chiphell.com/uploadfile/2009/1011/20091011055210559.jpg
http://www.chiphell.com/uploadfile/2009/1011/20091011055210334.jpg
http://www.chiphell.com/uploadfile/2009/1011/20091011055210919.jpg
http://www.chiphell.com/uploadfile/2009/1011/20091011055210570.jpg
http://www.chiphell.com/uploadfile/2009/1011/20091011055210106.jpg
http://www.chiphell.com/uploadfile/2009/1011/20091011055210266.jpg
http://www.chiphell.com/uploadfile/2009/1011/20091011055210614.jpg
产品解析HD5870在散热器做出了非常大的改进,覆盖整个PCB的大型散热器提高了整卡的散热效率,散热块的面积也可以得到更大的提升.接下去让我们对HD5870进行逐一分析.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210498.jpg
▲HD5870的长度为28cm左右,已经超越了当年的HD4870x2.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210625.jpg
▲桌面级HD5870背部虽然没有焊接显存,但依然采用了整块金属背板来帮助PCB背部散热.
http://www.chiphell.com/uploadfile/2009/1011/20091011055210952.jpg
▲HD5870共有4组输出接口,分别是DVIx2;HDMI 1.3a以及Displayport.
http://www.chiphell.com/uploadfile/2009/1011/20091011065103574.jpg
▲位于显卡顶部的双6pin外接供电端口.
http://www.chiphell.com/uploadfile/2009/1011/20091011065103203.jpg
▲这样的角度可以看出整个散热器并不是一个平面而是带有一定的弧度,尾部的双孔可以在双卡CrossFire模式下帮助散热,后期的测试中我们将会带来更加直观的视频解说.
http://www.chiphell.com/uploadfile/2009/1011/20091011065103268.jpg
▲尾部的弧线型设计可以为风流减少阻力.
http://www.chiphell.com/uploadfile/2009/1011/20091011065103896.jpg
▲拆解后的HD5870 PCB与之前的HD4890非常相似,只不过PCB长度增加了不少.
http://www.chiphell.com/uploadfile/2009/1011/20091011065103717.jpg
http://www.chiphell.com/uploadfile/2009/1011/20091011065103225.jpg
http://www.chiphell.com/uploadfile/2009/1011/20091011065103232.jpg
▲ATI原厂卡标志性的EMI屏蔽DVI接口.
http://www.chiphell.com/uploadfile/2009/1011/20091011065108709.jpg
▲供电阵容依然如此奢华.
http://www.chiphell.com/uploadfile/2009/1011/20091011065108251.jpg
▲R600之后久违的大型GPU.
http://www.chiphell.com/uploadfile/2009/1011/20091011065108428.jpg
▲这次由三星提供的GDDR5显存颗粒.
http://www.chiphell.com/uploadfile/2009/1011/20091011065108994.jpg
▲负责控制核心,显存供电电压及电流的控制芯片Volterra VT1165MF,该芯片的特点是可以支持软件调压.该芯片也同样出现在HD4890原厂卡上.
http://www.chiphell.com/uploadfile/2009/1011/20091011065108268.jpg
▲Volterra VT1157SF Mosfet管特写,核心供电和显存供电均有使用该芯片.
http://www.chiphell.com/uploadfile/2009/1011/20091011065108493.jpg
▲显存供电芯片Volterra VT243WF
散热器解析
从非官方渠道我们了解到本次HD5870所使用的散热器成本较以往的ATI原厂高端产品而言有所下降,但在经过我们拆解散热器后发现做工与用料毫不含糊.
http://www.chiphell.com/uploadfile/2009/1011/20091011065113350.jpg
▲散热器底座负责整个核心,显存,供电的导热工作.
http://www.chiphell.com/uploadfile/2009/1011/20091011065113593.jpg
▲拆除散热罩后可以看到大面积散热块和"老朋友"离心扇.
http://www.chiphell.com/uploadfile/2009/1011/20091011065113738.jpg
▲散热块有4根6mm热管组成.
http://www.chiphell.com/uploadfile/2009/1011/20091011065113254.jpg
▲ATI几代产品一直沿用的离心扇,从HD2900XT开始已有近3年时间了...
http://www.chiphell.com/uploadfile/2009/1011/20091011065113415.jpg
▲一根压扁的热管帮助供电Mosfet管快速导热.(此热管有些品牌并没有黑化,例如HIS的零售版HD5870此热管为铜原色)
http://www.chiphell.com/uploadfile/2009/1011/20091011065113995.jpg
测试平台
处理器
Intel Core i7-920 3.60GHz (200x18) 1.088v
散热器
Thermalright Ultra-U120 eXtreme-1366 RT Rev.C
Thermalright TR-FDB-1300 (1300RPM)
主板
ASUS Rampage II Extreme X58
内存
Corsair TR3X6G1600C8D DDR3 1600 2Gx3 (8-8-8-24) 1.65v
硬盘
WD Raptor 1500ADFD 150GB
显卡
ATI HD5870 1GB (850/4800MHz)
ATI HD4890 1GB (850/3900MHz)
ATI HD4870X2 2GB (750/3600MHz)
NVIDIA GTX 285 1GB (648/2484/1476MHz)
NVIDIA GTX 295 1792MB (576/1998/1242MHz)
电源
PC Power & Cooling Turbo Cool 1KW-SR 1000W
显示器
DELL UltraSharp 3008WFP 30"
机箱
SilverStone TJ10系统
Microsoft Windows 7 RTM
驱动
ATi Catalyst 9.9
ATI Catalyst 8.66RC6 for HD5870
GeForce Driver 190.62
软件
DirectX End-User Runtimes (2009.8)
测试软件
3DMark Vantage 1.0.1
GPU-Z 0.3.5
FurMark 1.7.0
测试游戏
Crysis v1.2
Far Cry 2 v1.0
Stalker Clear Sky v1.5
Enemy Territory Quake Wars v1.5
Unreal Tournament 3 v1.2
测试中均关闭CPU C1E与Turbo boost
温度测试
将显卡放入机箱后首先测试待机下的温度表现,我们惊喜的发现此次HD5870所采用的PowerPlay技术较上一代RV790有了更好的表现.GPU核心频率在待机情况下为157MHz,GDDR5显存频率也降到了1200MHz(300Mhz x4).此时温度为38摄氏度,风扇转速25%,表现非常不错.
http://www.chiphell.com/uploadfile/2009/1011/20091011065113751.gif
在FurMark测试显卡的满载温度时我们先将显卡持续满载半小时,随后GPU温度已经不再发生变化,此时GPU温度为80摄氏度,风扇转速为34%,噪音并不明显.
当初HD4870的温控点同为80摄氏度,而之后的HD4890将温控点降至70摄氏度,不知为何此次HD5870重新启用80摄氏度作为风扇温控点,这着实让人费解.
http://www.chiphell.com/uploadfile/2009/1011/20091011065113211.gif
游戏性能测试
HD5870在游戏中的表现非常抢眼,在所有测试的高端显卡中HD5870的满载功耗最低,特别是待机功耗,不得不对此次PowerPlay的优化表示赞赏.不过未能完胜竞争对手NVIDIA的GTX 295也算是留有一丝遗憾,期待日后可以通过驱动更新来继续强化HD5870的性能.
http://www.chiphell.com/uploadfile/2009/1011/20091011090419404.png
http://www.chiphell.com/uploadfile/2009/1011/20091011065113536.jpg
http://www.chiphell.com/uploadfile/2009/1011/20091011065113241.jpg
总结
作为HD5000系列第一款的产品HD5870的表现将会是2009年末最值得关注的产品,超低的待机功耗和理想的满载功耗给我们留下了深刻的印象,整个HD5000系列将会犹如一场风暴般席卷全球,我们还将会在日后继续测试即将上市的HD5850以及HD5700系列,相信AMD-ATI会给予我们游戏玩家最为满意的答案. chiphell。。。一帮烧人,5870都团购的 好惊人的完整说明与测试
学习了
终于对RV870有了完整的认识~ 口水啊,可惜还是太贵了
只有等降价了再买了 等降价吧.......显卡降价空间实在太大 哈哈~~地狱男爵
搞笑了
可惜还是没有物理加速吧 物理加速好像以后没有用吧 没看到有VGA接口 难道要配转接线。。。。。 原帖由 manmangou 于 2009-10-12 17:31:00 发表
没看到有VGA接口 难道要配转接线。。。。。
转接口也行 等3个月 春节前后价格能落到几毛呢 学习,顺便看看lz的签名图 lz的头像很邪恶啊 週末打算入一塊~~~THX 評測~
页:
[1]