主打主流高性能市场——AMD HD 6870 1GB 测试报告
“AMD 需要可以能真正胜任抗衡 GeForce GTX 460 的产品,而今天我们已经可以看到来自 AMD 的答案:基于代号 Barts GPU 的 RADEON HD 6870 和 RADEON HD 6850。”自从 RV670 以来,AMD 开始不再采用和 NVIDIA 在高端显卡产品上硬碰硬的策略,而是主动瞄准 NVIDIA 正倾尽全力向 GPGPU 发力和产品规划期上的空挡,采取更为着重于主流游戏图形的产品,推出了诸如 RV770、Cypress 等叫好又叫座的产品,特别是 Cypress,由于产品得以领先对手半年时间加上发热较低等优势,已经在 DirectX 11 市场上大有斩获。不仅如此,由于市场领先于对手,让 AMD 在游戏开发商中的地位和影响力得到了一定的提高,这对于一直被诟病的 AMD 与开发商关系有莫大的助益。
Cypress 属于 Everygreen 系列的最高端 GPU,再往下则是 Juniper、Redwood 以及 Cedar。在产品阵线部署上,AMD 推动得非常快,很快就形成了从低到高的完整 DX11 产品阵营。
不过在这个阵线上,存在一个缺口,那就是 Cypress 和 Juniper 之间的缝隙。这个缝隙在一段时间内是有 RADEON HD 5830 暂时顶当,然而当 NVIDIA 于今年 7 月 12 日推出了采用代号 GF104 GPU 的 GeForce GTX 460 后,RADEON HD 5830 担当的阵线出现了崩溃,大量的玩家选择了 GeForce GTX 460,不过我们也意识到:
在 AMD 方面,我们认为它所受到的压力其实并不算很大,只能说在已经刚刚夺取的阵地的一个角落上出现了一个旗鼓相当的竞争产品,只要对现有产品做出价格调整以及增加供应就能较轻松地在新产品推出之前完成阵地巩固任务,但是能否进一步拓展份额,就得看新产品是否能迅速跟进并在整体上超越对手。
AMD 需要可以能真正胜任抗衡 GeForce GTX 460 的产品,而如今我们已经可以看到来自 AMD 的答案:基于代号 Barts GPU 的 RADEON HD 6870 和 RADEON HD 6850。
http://www.pcinlife.com/article_photo/barts/officalimages/6870_frt-s.jpghttp://www.pcinlife.com/article_photo/barts/officalimages/6870_unique_1-s.jpghttp://www.pcinlife.com/article_photo/barts/officalimages/6870_unique_3-s.jpghttp://www.pcinlife.com/article_photo/barts/officalimages/6870_unique_4-s.jpghttp://www.pcinlife.com/article_photo/barts/officalimages/6850_frt-s.jpghttp://www.pcinlife.com/article_photo/barts/officalimages/6850_unique_1-s.jpghttp://www.pcinlife.com/article_photo/barts/officalimages/6850_unique_3-s.jpghttp://www.pcinlife.com/article_photo/barts/officalimages/6850_unique_4-s.jpgBarts 体系架构的设计目标和特性
正如我们所知道的那样,NVIDIA 的 G8x、G9x、GT2XX 都属于 Tesla 架构、GF1XX 属于 Fermi 架构,AMD 也有一样的架构代号,例如 Cypess 属于 Everygreen 架构,而这次发布的 Barts 所属的架构代号则是 Northern Ireland。
在 Northern Ireland 架构下针对中高端和发烧级游戏玩家的芯片型号分别是 Barts 和 Cayman。
http://www.pcinlife.com/article_photo/barts/arts/slide_03-s.pnghttp://www.pcinlife.com/article_photo/barts/arts/slide_06-s.png从上面这张幻灯片可以看出,Barts 的定位位于之前 Cypress 和 Juniper 之间,作用是填补之前在这个区间存在的市场空隙,既非用于取代 RADEON HD 5800 也非取代 RADEON HD 5770,而是应对来自 NVIDIA GF104 (GeForce GTX 460)的挑战,满足中高端玩家的需求,也即是所谓的 sweet spot 所在。在 Barts 上一级的是代号 Cayman 的发烧级玩家 GPU,不过 AMD 对 Cayman 的大部分细节依然没有公布。
Barts 的芯片面积是 255 平方毫米,而这个芯片面积非常接近当初 AMD 首次提出 sweet spot 策略时 RV770 所采用的芯片面积(250 平方毫米),不过就只有 Cypress(RADEON HD 5800)的 76%。
http://www.pcinlife.com/article_photo/barts/arts/slide_05-s.png不过 AMD 对 Barts 的设计目标并非单纯地定在 Cypress 的 76% 等级上,而是要求在更低的耗电、成本上实现 Cypress 级别的性能,力求将其打造成为 150 瓦等级市场上最快的显卡。
http://www.pcinlife.com/article_photo/barts/arts/slide_21-s.pnghttp://www.pcinlife.com/article_photo/barts/arts/slide_23-s.png
更为重要的是,AMD 在过去三个月中,缺乏能与 GTX 460 抗衡的产品,在主流高性能市场上的气势上一度处于下风,Barts 的出现就是希望先能将这个缺口填补。http://www.pcinlife.com/article_photo/barts/arts/block-diagram-s.png
上图是 Barts 的功能模块图,大家可以看到在其中有 14 个 SIMD Core,和 Cypress 相比,减少了 6 个,流处理运算单元数量为 1120,流处理运算单元和纹理单元数量均为 Cypress 的 70%,而其他方面例如内存总线、后端单元(ROP),则和 Cypress 一样,都是 256-bit 以及 32 个 ROP。有些网友可能看到这个模块图的时候会有一个错觉,那就是误以为 Barts 的前端部分有改进,例如 UTDP 从 Cypress 的 1 个升级为两个。这个想法其实是错误的,不过这是可以理解的,因为当初 Cypress 发布的时候,AMD 提供了一张容易误解的架构图,将 UTDP 画成了一体。而在今年的 HPG 2010 上,AMD 发布了一张更加严谨的架构图表明 Cypress 其实是具备两个 UTDP:http://www.pcinlife.com/article_photo/barts/arts/cypress_block_diagram-s.png
AMD 于 HPG 2010 技术大会发布的 Cypress 架构图
Barts 和 Cypress 的架构除了 SIMD core 的数量存在差别外,在绝大多数方面都是类似的,例如都有两个 Unified Shader Engine,每个 Unified Shader Engine (USE)都有自己的指令 cache、kernel cache。Cypress 的 USE 可以实现 248 个并发 wavefront,而 Barts 方面的资料暂时欠奉,以芯片面积的变化幅度来看这部分应该不会有大的变动。 ROPTexture Address Processortriangle/cycleALUMemory I/FTransistorsdie sizeprocess nodeGF10048644512384-bit3200M529mm^240nmGF10432642384256-bit1950M354mm^240nmRV77016401800256-bit956M256mm^255nmCypress328011600256-bit2150M334mm^240nmBarts325611120256-bit1700M255mm^240nm上图是当前各 GPU 的概况,不过其中 NVIDIA 的两款 GPU 目前还只是提供了缩水版,实际产品的 ALU 数量比设计少了一些。此外,NVIDIA 目前为止并没有公布 GF100 和 GF104 的晶片面积,网络上也有一些揭盖后测量的数据,其中 GF100 的 529mm^2 就是本人使用 photoshop 依据像素比例获得的,而 GF104 网络上还只看到过几张斜角度的照片,谈不上用于精确测量的素材,这里 354mm^2 的数据是我从 NVIDIA 公司某人士口中探听得到的。此外,现在也比较流行的使用游标卡尺测量晶片的尺寸,不过在现实中由于 underfill(填充)物料等关系,这类方法往往测试到的尺寸都会比官方公布的面积 (通常也是最准确)大了一些。http://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-18-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-19-s.jpg例如上图就是我们用游标卡尺测量 Barts 的尺寸,可以看到测量出来的面积约为 264mm^2,比 AMD 公布的 255mm^2 大了大约 10mm^2,至于这个 9mm^2 能否作为一个参考的修正量,那就见仁见智了。
RADEON HD 6870 的时钟频率是 900MHz,频率是 RADEON HD 5870 的 1.05 倍,RADEON HD 5850 的 1.24 倍,这可以反映它们之间的三角形吞吐性能差别;而在单精度/贴图性能方面RADEON HD 6870 则分别是 RADEON HD 5850 和 RADEON 5870 的 74.1% 和 96.4;另一个指标像素输出能力,则分别是 1.06 倍和 1.24 倍。因此从底层性能来说,RADEON HD 6870 的几何、像素吞吐能力是超过 RADEON HD 5850 不少,而单精度浮点和贴图方面则和 RADEON HD 5850 相当。
http://www.pcinlife.com/article_photo/barts/arts/slide_09-s.pngBarts 和 Cypress 相比在 tessellation 有所改进,可以在 tessellation 因数为 5-10 的时候提供大约两倍于 Cypress 的性能,不过由于依然继承了 Cypress 的非并行几何计算体系,在大规模几何体计算方面依然要落后于 NVIDIA GF104 等产品。
AMD 即将推出的高端 GPU Cayman 将会采用第八代硬件 tessellation 技术,目前的细节并未公布,从上面的幻灯片看,应该就是具备可延伸性和片外缓存。这样的介绍其实比较模糊,可延伸性可以指多个方面,例如独立的几何处理芯片或者是多卡并行(Crossfire)时的几何吞吐率。
Barts 被削掉了硬件双精度支持,因此不是十分适合于 HPC 场合。
http://www.pcinlife.com/article_photo/barts/arts/big_slide-5-s.jpghttp://www.pcinlife.com/article_photo/barts/screenshot_3dcenter_filter_tester/tmu_16x_compare-s.pnghttp://www.pcinlife.com/article_photo/barts/screenshot_3dcenter_filter_tester/tmu_16x_compare.png
Barts 还改良了 Anisotropic Filtering 的性能,可以在应用高频信息的纹理的时候呈现更加平滑的纹理取样效果。
http://www.pcinlife.com/article_photo/barts/arts/big_slide-4-s.jpgMLAA 是最近两年中比较热门的话题,它可以作为一个后处理滤镜对已经完成渲染的画面进行几何形态识别并加以平滑处理,由于只是纯粹对色彩信息进行加工处理,因此 MLAA 的性能消耗比暴力方式的 SSAA 低。
http://www.pcinlife.com/article_photo/barts/screenshot_bfbc2_mlaa/bfbc2_dx11_mlaa_disabled_1msaa_16af_6870_10.10d-s.jpghttp://www.pcinlife.com/article_photo/barts/screenshot_bfbc2_mlaa/bfbc2_dx11_mlaa_disabled_1msaa_16af_6870_10.10d.png
MSAA=1X|MLAA=Disabledhttp://www.pcinlife.com/article_photo/barts/screenshot_bfbc2_mlaa/bfbc2_dx11_mlaa_disabled_4msaa_16af_6870_10.10d-s.jpghttp://www.pcinlife.com/article_photo/barts/screenshot_bfbc2_mlaa/bfbc2_dx11_mlaa_disabled_4msaa_16af_6870_10.10d.png
MSAA=4X|MLAA=Disabledhttp://www.pcinlife.com/article_photo/barts/screenshot_bfbc2_mlaa/bfbc2_dx11_mlaa_enabled_1msaa_16af_6870_10.10d_windowed-s.jpghttp://www.pcinlife.com/article_photo/barts/screenshot_bfbc2_mlaa/bfbc2_dx11_mlaa_enabled_1msaa_16af_6870_10.10d_windowed.png
MSAA=1X|MLAA=Enalbed不过由于 MLAA 是缺乏几何体信息做的后处理滤镜,因此还是可能会造成对纹理锐度一定的破坏。AMD 是透过 Directcompute 来执行 MLAA,可以适用于 DX9、DX10、DX11 游戏,目前已经可以透过 CCC 打开、关闭 MLAA,理论上 AMD、NVIDIA 的 DX10、DX11 GPU 都能执行 MLAA,当然 MLAA 本身也是有一定的性能需求,例如分支较重。 Barts 的显示输出与视频回放能力
RADEON HD 5000 系列一个广受关注的特色就是提供了三屏以上同时输出的能力,像 RADEON HD 5870 甚至可以实现 6 屏输出。Bart 传承了这样的能力,可以同时提供 6 屏输出,不仅如此,现在 Barts 还实现了最新的 Displayport 1.2、多信号流、HDMI 1.4a 以及立体 3D 输出的能力。
http://www.pcinlife.com/article_photo/barts/arts/dp1_2-s.png
Displayport 是 2010 年年头才落实的新标准,和之前的 1.1a 相比,DP 1.2 能提供更高的信号带宽(其中的视频数据率:17.28Gps,DP 1.1a 是8.64 Gbps,HDMI 1.4a 是 5.4 Gbps),理论上可以实现 4096x2160@60Hz,但是 AMD 在设计 6800 系列的时候,只是将目标定在了 4096x2160@50Hz。
http://www.pcinlife.com/article_photo/barts/arts/5000_6_head.png
http://www.pcinlife.com/article_photo/barts/arts/6000_6_head.png
http://www.pcinlife.com/article_photo/barts/arts/6000_6_head_hbr2.png
MST(多信号流)是 DP 1.2 实现的新特性,RADEON HD 6800 也提供了完全的支持,用户可以透过一个 DP 头就能连接多个屏幕,连接的方式可以是专用的交换器或者是菊花链方式,此外由于具备超高带宽传输能力,现在 RADEON HD 6800 哈提供了合共 16kx16k 的输出能力,这同样是上一代产品无法实现的,不过要实现此特性,必须关闭 Aero Glass,并且只有 DX11 游戏才能支持超过 8k*8k 分辨率的游戏,因为 DX10 只能支持 8kx8k 的纹理。
除此之外,RADEON HD 6800 所采用的 Barts 还是第一枚支持 Displayport 音频输出的 GPU,能分别实现 DTS-HD、TrueHD、LPCM 等格式的 24Mbps、18Mbps、36Mbps 码率输出,这基本上和 HDMI 的 36.86Mbps 音频码率相当了。
在 3D 立体复现方面,AMD 这次引入了 HD3D 技术,不过虽然带着这个名衔,实际上只是提供了一个 Quad Buffer(四缓存)的接口供开发人员使用,它和 NVIDIA 已经在驱动程序中集成了大量程序的 3D 立体复现是有一定区别的。
简单来说,NVIDIA 这边不仅为游戏开发人员提供了立体复现技术的支持,还自己做了一大堆游戏、应用的配置文档,让用户只要有 3D 设备就能实现立体复现,而 AMD 目前暂时还是完全交给第三发开发人员来实现。3D 立体复现不是找一台具备 3D 立体复现技术的显示终端就完事,它的实现关键是在软件上,我们希望 AMD 今后能够在驱动中提供相应的配置。
感兴趣的玩家可以到以下连接了解 HD3D 支持的设备:
http://www.amd.com/us/products/technologies/amd-hd3d/pages/supported-hardware.aspx
作为对比,你也可以看看 NVIDIA 3DTV 支持的设备:
http://www.nvidia.com/object/3dtv-play-requirements.html#3dtvs
http://www.pcinlife.com/article_photo/barts/arts/uvd3-s.png
Barts 引入了 UVD 3 视频解码单元,和之前的 UVD 2.x 相比,主要的区别有两点:实现了 MVC 编码视频的支持,MVC 是蓝光 3D 立体复现技术的唯一编码标准;支持 MPEG2 VLD、MPEG4-ASP 编码视频的硬件解码,不过这可能需要第三方软件支持才行。例如 MPEG-4 ASP(xvid、divx)在之前 NVIDIA 发布的 GPU GF104 集成的 VP4 也号称实现了硬件解码支持,但是相应的第三方支持一直迟迟未现身。
http://www.pcinlife.com/article_photo/barts/arts/color_gamut_remapping-s.png
Barts 引入了硬件色域映射功能,可以将伽马纠正过的数据进行反伽马处理后执行色域重映射,这样的处理方式因为是在线性空间内执行,可以确保数据更加精确,不过该特性需要第三方软件支持,AMD 开发者网站近期将会发布相应的技术资料。
镭风 HD6870 龙蜥版 1024M D5 D50
http://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-01-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-02-s.jpg
镭风 HD6870 龙蜥版 1024M D5 D50 使用 AMD Barts 核心架构,采用 40 纳米制程工艺,拥有 17 亿晶体管,3D 模式时内核频率为 900MHz,内存总线速率为 4600MT/s。
http://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-03-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-04-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-05-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-06-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-07-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-08-s.jpg
镭风 HD6870 龙蜥版基本上就是和公版一样,最大的不同可能就是散热器正面的镭风标记和醒目的龙蜥图案。
在输出端口方面镭风 HD6870 龙蜥版提供了 5 个端口,分别是 DVIx2、HDMI、mini-DPx2,不过用户可以透过 mini-DP 以菊花链或者交换器的方式实现 6 屏输出,具体的可以参阅上一节内容。
http://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-09-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-10-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-11-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-12-s.jpg
镭风 HD6870 龙蜥版的散热器和公版一样,都是风鼓+侧风道式,主散热块为三条散热管+黄铜块,并在显卡的 MOS 管等位置辅以传热胶与散热块的铝合金部位相连,增强散热。
http://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-13-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-14-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-15-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-16-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-17-s.jpghttp://www.pcinlife.com/article_photo/barts/6870/colorfire_radeon_hd_6870_1gb-20-s.jpg
RADEON HD 6870 的 PCB 长度基本上和标准 ATX 主板宽度(ATX 标准里的 width)相当,安装在 P6T Deluxe 上,由于散热器的关系,显卡尾部会有几毫米突出来,不过好在电源连接口都在顶上,因此不会和硬盘连接构成冲突。
在镭风 HD6870 龙蜥版 1024M D5 D50 的包装内,提供了电源转接、DVI-HD15 转接、柔性交火桥等实用配件,此外还有驱动光盘、安装手册等必备的文档资料。
Windows 7 x64 性能测试平台
处理器Core i7 920 Nehalem 架构 2.67GHz Speedstep off内存X58:3 x 1024MB DDR3-1333 - 共计 3 GB
CAS 7, 7, 7, 20, DDR3-1333主板ASUS P6T Deluxe X58+ICH10R 芯片组硬盘WD 1600 160GB 10KRPM操作系统Windows 7 x64
DirectX 2010 June显示卡AMD RADEON HD 5850 1024MB
AMD RADEON HD 5830 1024MB
催化剂 10.9
AMD RADEON HD 6870 1024MB
催化剂 10.10
NVIDIA GeForce GTX480
技嘉 GeForce GTX460
Forceware 260.63
参与对比的产品:技嘉科技 GV-N460OC-1GI (产品提供:广州景丰)
http://www.pcinlife.com/article_photo/barts/460/gigabyte_460_1gb_oc-02-s.jpghttp://www.pcinlife.com/article_photo/barts/460/gigabyte_460_1gb_oc-03-s.jpghttp://www.pcinlife.com/article_photo/barts/460/gigabyte_460_1gb_oc-01-s.jpghttp://www.pcinlife.com/article_photo/barts/460/gigabyte_460_1gb_oc-04-s.jpg
芯片组GeForce GTX 460SeriesGeForce 400 Series核心频率715 MHzMemory Clock3600 MHz内存种类GDDR5Key FeaturesUDVDirectX11D-SUBYes (By Adapter)DVIYes处理器频率1430 MHzHDMIYesDisplayPortNAMulti-GPU2-way SLI
我们将技嘉 GV-N460OC-1GI 的频率设定为 850 和 675 两种频率作为对比,前者反映了目前 GTX 460 的 OC 上限水平,后者反映了公版规格的性能水平。电压方面保持默认(1.000v)。
D3D 底层性能测试
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image001.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image002.png
D3D 指令吞吐测试是来自网友 RacingPHT 编写的程序,其中有多种指令组合,可以用于测试 GPU 在不同算术指令组合下的指令吐吐性能,测试程序的 API 是 D3D9。
Barts 拥有 224 个 5-way VLIW ALU,在 VLIW ALU 中的 4-way 是标准 SP,能单周期执行一条 4D MAD、MUL、ADD 指令以及以 4 个周期执行一条 MAD 双精度指令,它们被称作 x.y.z.w. 通道,你可以把他们看作是“标准 SP”。
第五通道被称作 t.通道,除了能单周期执行 MAD、MUL、ADD 单精度指令,还能执行传导函数,但是不能执行双精度指令。
从指令吞吐测试看,6870 的 4D MUL_MUL/ADD_ADD/ 组合指令吞吐率为 239 BIPS 左右,接近每个 SP 0.94 条 4D MUL 指令的情况。
在实际应用中,影响指令吞吐率的除了指令组合,还包括线程数、寄存器数量带宽、寄存器占用等因素,在 R600 以来执行单元上比较依赖于指令组合,你可以把它看作是 4+1 的组合,不过由于编译器的优化,有时候还是能跑出相当高的吞吐率,例如我们上面的 R600_Mix 测试项目就是一个专门针对 R600 风格 VLIW 单元的指令组合,不过这个指令组合基本上只是为了探测架构的最高峰值,并无多大实际意义。
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image003.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image004.png
Fillrate9 0.4 是 hotball 编写一个小工具,能够以填充率指标反映 GPU 的一些底层性能,例如纹理处理能力,我们这里提供的测试结果是双线性纹理过滤测试指标,测试结果包括了 DXT1、DXT5、INT8、INT16、FP16、FP32 的 4D 纹理处理。
在这个测试中比较瞩目的是 6870 的 16-bit 纹理处理中表现出和 8-bit 纹理处理一半的速度,因此在遇到 16-bit 浮点、16-bit 整数纹理处理的时候,6870 的速度可能要低于 GF104 或者 GF110(后两者的 16 bit 纹理双线性过滤性能均和 8-bit 一样)。
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image011.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image012.png
Fablemark 是 Imgtec 公司的 PowerVR SDK 中提供的一个演示测试程序,主要是用来衡量 GPU 的 Stencil(蜡板,例如阴影处理就会使用到 Stencil)处理性能。
从测试结果来看,6870 的 stencil 性能主要体现在 8x MSAA,基本上比 GTX 460 1GB 标准版快 20% 或者以上, 而在 4x MSAA 上则是 10% 左右的领先幅度。6870 在这个项目的优势也许和 ROP 的频率较高有关。
为了测试 D3D10 的 shader 性能,我们采用了来自 iXBT/Digit-Life 支持的 Righmark 项目 Rightmark 3D 2.0.02 专业版进行测试,测试项目包括了 D3D10 中新增的 Geometry Shader 4.0、Pixel Shader 4.0 以及 D3D9 已经引入但是 D3D10 才正式强制要求具备的 Vertex Shader Fetch。
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image013.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image014.png
RM 3D 2.0 的 Galaxy 测试是用三种三角形数量来测试两种几何体着色器(Geometry Shader)负荷(均衡、重度)的性能,测试结果主要受 GPU 的几何性能影响,同时也会受到一点内存带宽、填充率的影响,但是基本上和算术单元数量(除非 GPU 使用这些算术单元而不是固定功能单元来执行几何处理)无关。
从测试结果来看,相对 GTX 460 1GB,6870 可以保持 30% 左右的领先幅度,这基本上就是两者的内核频率差距,如果 GTX 460 1GB 超频为 850MHz,两者的差距就明显缩小。
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image015.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image016.png
在 Hyperlight 中,Geometry Shader 在 Balanced 负荷模式下只是负责生成、延伸光线,而在 Heavy 模式下则还负责画面的渲染。
从测试结果来看,情况和 Galaxy 有些类似,由于具备 4 个光栅器,GF100 的性能基本上达到了 6870 的 1.7 倍以上。
5870 的表现和 6870 类似,可以看做是一样的水平。
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image017.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image018.png Fur 测试项目在低细节度模式下使用 15~30 个纹理查表动作进行 bump map 处理,而高细节度模式下查表动作会提高 40~80 个,当启用 SSAA(超级取样抗锯齿)的话,纹理查表动作会增加 60~120 个,在高细节度+SSAA 下,由 bump map 处理带来的纹理查表动作会达到 160~320 个。
由于是纹理计算偏重(同时也意味着带宽偏重)的测试,RADEON HD 6870 在这个测试中轻易地将 GTX 460 击翻,在采用 SSAA 执行特效采用的时候甚至可以击败 GTX 480。
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image019.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image020.png
Steep Parallax Mapping 是目前在部分高画质游戏(例如 Crysis、Lost Planet)中采用的渲染技术。在 low effect detail 设置下,bump map 的纹理查表动作有 10~50 个,主纹理的纹理查表动作是 3 个;high effect detail 模式下,纹理查表动作数量加倍;SSAA 4X 下则更加会达到 4 倍,因此在最高设置下,这个测试项目的纹理查表动作会达到 80~400 个(8 倍于最低设置模式)。
从测试结果来看,6870 的性能基本上是 GTX 460 的两倍,在启用 SSAA 后超越了 GTX 480 一些。
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image021.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image022.png
Mineral 是一个采用了复杂指令的测试项目,只有两个纹理查表动作,但是有高达 65 条 sin/cos 指令(也就是 SFU 所执行的计算)。
Fire 的物理查表动作只有一个,但是 sin/cos 指令就增加到 130 个,两倍于 Mineral。
Barts 拥有数倍于 480/460 的 SFU 单元(224 vs 56),在这个测试中理所当然取得领先于后者,基本上就是之前我们进行的 D3D 指令测试翻版。
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image023.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image024.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image025.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image026.png
Earth 和 Wave 都是设计用来测试显卡 Vertex Texture Fetch 性能的,不过 Wave 测试就引入了分支指令,而 Earth 则没有使用分支指令,这两个项目都涉及到了基于纹理拾取的 displacement mapping 处理。
在低三角形数量下,Cypress 系的 5870 和 Barts 系的 6870 可以和 GF100 的 GTX 480 平起平坐,但是随着多边形数量的增加这个情况开始出现变化。
在高三角形数量模式下下,GTX 460 可以在 Earth 测试中比 5870 略占一点优势。
在 Wave 测试中,6870 和 5870 也是差不多的性能水平,随着三角形数量和特效的加重,GTX 460 675MHz 开始靠近,但是仍然落后 6870 20% 的水平。
底层架构测试-Tessellation
在微软的 DirectX SDK (软件开发包)中有几个例程是采用了不同的 Tessellation 模式,例如 PN Triangle(在 STALKER COP 中采用)以及 Catmull Subdivision(预期在即将发布的 id software 和 Valve 游戏中使用)。
Detail Tessellation:这个例程主要用于展示应用 Displacement Mapping 技术改变几何体表面逼真度。
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image027.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image028.png
PN Triangle:
http://www.pcinlife.com/article_photo/gtx480/screenshot/sdk_pntriangles11-s.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image029.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image030.png
Catmull-Clark Subdivision:
http://www.pcinlife.com/article_photo/gtx480/screenshot/sdk_subd11-s.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image031.png
http://www.pcinlife.com/article_photo/barts/results_lowlevel/image032.png
由于具备较多的 Tessellation 处理单元以及并行化程度更高的光栅器,GTX 460 在这几个测试中都能在较高 Tessellation 因数下获胜,可以说是轻取 6870。
在较低的 tessellation 因数模式下,6870 能够达到 5870 两倍的性能,不过这点改进在无法在高倍率甚至中等倍率的时候抗衡 Fermi 架构。
游戏性能——Company of Heroes TOV
http://www.pcinlife.com/article_photo/barts/results_games/image001.png
游戏性能——Crysis Warhead
http://www.pcinlife.com/article_photo/barts/results_games/image002.png
游戏性能——Farcry 2
http://www.pcinlife.com/article_photo/barts/results_games/image003.png
游戏性能——Batman Arkham Asylum PhysX=off
http://www.pcinlife.com/article_photo/barts/results_games/image004.png
http://www.pcinlife.com/article_photo/barts/results_games/image005.png
游戏性能——Tom Clancy's H.A.W.X
http://www.pcinlife.com/article_photo/barts/results_games/image006.png
游戏性能——Just Cause 2
http://www.pcinlife.com/article_photo/barts/results_games/image007.png
游戏性能——Lost Planet 2
http://www.pcinlife.com/article_photo/barts/results_games/image008.png
游戏性能——Battlefield Bad Company 2
http://www.pcinlife.com/article_photo/barts/results_games/image009.png
游戏性能——Battleforge
http://www.pcinlife.com/article_photo/barts/results_games/image010.png
游戏性能——Aliens vs Predator
http://www.pcinlife.com/article_photo/barts/results_games/image011.png
游戏性能——STALKER Call Of Pripyat
http://www.pcinlife.com/article_photo/barts/results_games/image012.png
http://www.pcinlife.com/article_photo/barts/results_games/image013.png
游戏性能——Metro 2033
http://www.pcinlife.com/article_photo/barts/results_games/image014.png
http://www.pcinlife.com/article_photo/barts/results_games/image015.png
游戏性能——Colin McRae DiRT 2
http://www.pcinlife.com/article_photo/barts/results_games/image016.png
运行全程耗电测试——Crysis Warhead
http://www.pcinlife.com/article_photo/barts/power_measurement/image001.png
http://www.pcinlife.com/article_photo/barts/power_measurement/image002.png
http://www.pcinlife.com/article_photo/barts/power_measurement/image003.png
http://www.pcinlife.com/article_photo/barts/power_measurement/image004.png
http://www.pcinlife.com/article_photo/barts/power_measurement/image005.png
http://www.pcinlife.com/article_photo/barts/power_measurement/image006.png
纯折磨耗电测试——Furmark
http://www.pcinlife.com/article_photo/barts/power_measurement/image007.png
http://www.pcinlife.com/article_photo/barts/power_measurement/image008.png
http://www.pcinlife.com/article_photo/barts/power_measurement/image009.png
http://www.pcinlife.com/article_photo/barts/power_measurement/image010.png
http://www.pcinlife.com/article_photo/barts/power_measurement/image011.png
http://www.pcinlife.com/article_photo/barts/power_measurement/image012.png
http://www.pcinlife.com/article_photo/barts/arts/furmark_burning-s.png
测试总结
http://www.pcinlife.com/article_photo/barts/results_games/total.png
Barts 从架构上属于 Cypress 的精简版(例如舍弃双精度了),不过经过近一年的工艺制程调优以及电路优化,在 250mm^2 这个 AMD 首次正式宣布采取 sweet spot 策略的面积上,实现了一年前同样制造工艺节点但是面积大 25% 的产品非常接近的性能。
这对于 AMD 来说是非常重要,原因是之前一两个内,由 Cypress 电路屏蔽的RADEON HD 5830、RADEON HD 5850 受到了来自 NVIDIA GTX 460 非常大的压力,事实上同期市场上基本上很难找到 RADEON HD 5830、RADEON HD 5850 的踪迹,这意味着消费力极强的主流高性能玩家市场拱手让给了 NVIDIA。
RADEON HD 6870 的推出,实现了领先对手同档次产品(GTX 460 超频版)10% 以上的性能优势,我们终于又能看到双方的正面对决,虽然价格方面不一定马上松动,但是驱动程序、软件、游戏支持方面的加码已经多少嗅出了浓烈的战意。
例如失落的星球 2、HAWX 2,就是 NVIDIA 近期推荐的游戏,而 AMD 这边也不示弱,表示由于自己的 DX11 产品领先半年推出,几乎所有的 DX11 游戏都选择了 AMD DX11 显卡作为开发平台。
Barts 在视频上有一定的改进,例如 UVD3 实现了 MPEG2 VLD、MVC 的硬件解码,不过这两项特性之前已经被 GF104 的 VP4 实现了,而 UVD3 与 VP4 都号称支持的 MPEG4-Part4 硬件解码目前还没看到有第三方软件提供支持,这倒也不奇怪,毕竟许多玩家的电脑都能比较轻松的应对重要针对标清分辨率的 MPEG4-Part4。
RADEON 6800 为一直对 AMD 主流高性能产品抱有较高期待的 AMD 显卡支持者提供了非常不错的选择,不过由于性能差别其实并不是很大,加上功能和卖点上各有特点,我相信对于大多数 NVIDIA 显卡支持者来说并不会产生动摇。
从 NVIDIA 目前的应对策略似乎也验证了这点,GTX 460 的价格并没有出现大的变动,不过倒是有加码鼓动显卡厂商推出超频版的迹象,目的自然是为了争取中间玩家。
我们认为 GTX 460 存在的频率相对设定较低的问题,不过另一方面 GTX 460 需要达至 6870 所需的频率已经和默电规格下的超频潜力上限,前者需要可以作一些调整,而后者则可能需要电路上的重新设计才能得以改善。
【来源:pcinlife】 目前有用户反映MLAA BUG不少
还有里面有几张图我眼睛花了。 近来看看 太专业,表示鸭梨很大 6870就是AMD的官方超频版
是最悲剧的一个卡了
huanghuooo 发表于 2010/11/8 11:47:00http://bbs.3dmgame.com/images/common/back.gif
嘴砲不會讓nv癈米失敗的情形改變
yy不會讓470就此大賣的...
捧N不會改變NV市站率輸給ATI的事實。
原來AMD超頻這麼利害,超到打爆470,功耗和溫度竟然和460一樣,高手高手。
页:
[1]