Barts 的显示输出与视频回放能力
RADEON HD 5000 系列一个广受关注的特色就是提供了三屏以上同时输出的能力,像 RADEON HD 5870 甚至可以实现 6 屏输出。Bart 传承了这样的能力,可以同时提供 6 屏输出,不仅如此,现在 Barts 还实现了最新的 Displayport 1.2、多信号流、HDMI 1.4a 以及立体 3D 输出的能力。
Displayport 是 2010 年年头才落实的新标准,和之前的 1.1a 相比,DP 1.2 能提供更高的信号带宽(其中的视频数据率:17.28Gps,DP 1.1a 是8.64 Gbps,HDMI 1.4a 是 5.4 Gbps),理论上可以实现 4096x2160@60Hz,但是 AMD 在设计 6800 系列的时候,只是将目标定在了 4096x2160@50Hz。
MST(多信号流)是 DP 1.2 实现的新特性,RADEON HD 6800 也提供了完全的支持,用户可以透过一个 DP 头就能连接多个屏幕,连接的方式可以是专用的交换器或者是菊花链方式,此外由于具备超高带宽传输能力,现在 RADEON HD 6800 哈提供了合共 16kx16k 的输出能力,这同样是上一代产品无法实现的,不过要实现此特性,必须关闭 Aero Glass,并且只有 DX11 游戏才能支持超过 8k*8k 分辨率的游戏,因为 DX10 只能支持 8kx8k 的纹理。
除此之外,RADEON HD 6800 所采用的 Barts 还是第一枚支持 Displayport 音频输出的 GPU,能分别实现 DTS-HD、TrueHD、LPCM 等格式的 24Mbps、18Mbps、36Mbps 码率输出,这基本上和 HDMI 的 36.86Mbps 音频码率相当了。
在 3D 立体复现方面,AMD 这次引入了 HD3D 技术,不过虽然带着这个名衔,实际上只是提供了一个 Quad Buffer(四缓存)的接口供开发人员使用,它和 NVIDIA 已经在驱动程序中集成了大量程序的 3D 立体复现是有一定区别的。
简单来说,NVIDIA 这边不仅为游戏开发人员提供了立体复现技术的支持,还自己做了一大堆游戏、应用的配置文档,让用户只要有 3D 设备就能实现立体复现,而 AMD 目前暂时还是完全交给第三发开发人员来实现。3D 立体复现不是找一台具备 3D 立体复现技术的显示终端就完事,它的实现关键是在软件上,我们希望 AMD 今后能够在驱动中提供相应的配置。
感兴趣的玩家可以到以下连接了解 HD3D 支持的设备:
作为对比,你也可以看看 NVIDIA 3DTV 支持的设备:
Barts 引入了 UVD 3 视频解码单元,和之前的 UVD 2.x 相比,主要的区别有两点:实现了 MVC 编码视频的支持,MVC 是蓝光 3D 立体复现技术的唯一编码标准;支持 MPEG2 VLD、MPEG4-ASP 编码视频的硬件解码,不过这可能需要第三方软件支持才行。例如 MPEG-4 ASP(xvid、divx)在之前 NVIDIA 发布的 GPU GF104 集成的 VP4 也号称实现了硬件解码支持,但是相应的第三方支持一直迟迟未现身。
Barts 引入了硬件色域映射功能,可以将伽马纠正过的数据进行反伽马处理后执行色域重映射,这样的处理方式因为是在线性空间内执行,可以确保数据更加精确,不过该特性需要第三方软件支持,AMD 开发者网站近期将会发布相应的技术资料。
镭风 HD6870 龙蜥版 1024M D5 D50
镭风 HD6870 龙蜥版 1024M D5 D50 使用 AMD Barts 核心架构,采用 40 纳米制程工艺,拥有 17 亿晶体管,3D 模式时内核频率为 900MHz,内存总线速率为 4600MT/s。
镭风 HD6870 龙蜥版基本上就是和公版一样,最大的不同可能就是散热器正面的镭风标记和醒目的龙蜥图案。
在输出端口方面镭风 HD6870 龙蜥版提供了 5 个端口,分别是 DVIx2、HDMI、mini-DPx2,不过用户可以透过 mini-DP 以菊花链或者交换器的方式实现 6 屏输出,具体的可以参阅上一节内容。
镭风 HD6870 龙蜥版的散热器和公版一样,都是风鼓+侧风道式,主散热块为三条散热管+黄铜块,并在显卡的 MOS 管等位置辅以传热胶与散热块的铝合金部位相连,增强散热。
RADEON HD 6870 的 PCB 长度基本上和标准 ATX 主板宽度(ATX 标准里的 width)相当,安装在 P6T Deluxe 上,由于散热器的关系,显卡尾部会有几毫米突出来,不过好在电源连接口都在顶上,因此不会和硬盘连接构成冲突。
在镭风 HD6870 龙蜥版 1024M D5 D50 的包装内,提供了电源转接、DVI-HD15 转接、柔性交火桥等实用配件,此外还有驱动光盘、安装手册等必备的文档资料。
Windows 7 x64 性能测试平台
处理器 | Core i7 920 Nehalem 架构 2.67GHz Speedstep off | 内存 | X58:3 x 1024MB DDR3-1333 - 共计 3 GB
CAS 7, 7, 7, 20, DDR3-1333 | 主板 | ASUS P6T Deluxe X58+ICH10R 芯片组 | 硬盘 | WD 1600 160GB 10KRPM | 操作系统 | Windows 7 x64
DirectX 2010 June | 显示卡 | AMD RADEON HD 5850 1024MB
AMD RADEON HD 5830 1024MB
催化剂 10.9
AMD RADEON HD 6870 1024MB
催化剂 10.10
NVIDIA GeForce GTX480
技嘉 GeForce GTX460
Forceware 260.63 |
参与对比的产品:技嘉科技 GV-N460OC-1GI (产品提供:广州景丰)
芯片组 | GeForce GTX 460 | Series | GeForce 400 Series | 核心频率 | 715 MHz | Memory Clock | 3600 MHz | 内存种类 | GDDR5 | Key Features | UDV | DirectX | 11 | D-SUB | Yes (By Adapter) | DVI | Yes | 处理器频率 | 1430 MHz | HDMI | Yes | DisplayPort | NA | Multi-GPU | 2-way SLI |
我们将技嘉 GV-N460OC-1GI 的频率设定为 850 和 675 两种频率作为对比,前者反映了目前 GTX 460 的 OC 上限水平,后者反映了公版规格的性能水平。电压方面保持默认(1.000v)。
D3D 底层性能测试
D3D 指令吞吐测试是来自网友 RacingPHT 编写的程序,其中有多种指令组合,可以用于测试 GPU 在不同算术指令组合下的指令吐吐性能,测试程序的 API 是 D3D9。
Barts 拥有 224 个 5-way VLIW ALU,在 VLIW ALU 中的 4-way 是标准 SP,能单周期执行一条 4D MAD、MUL、ADD 指令以及以 4 个周期执行一条 MAD 双精度指令,它们被称作 x.y.z.w. 通道,你可以把他们看作是“标准 SP”。
第五通道被称作 t.通道,除了能单周期执行 MAD、MUL、ADD 单精度指令,还能执行传导函数,但是不能执行双精度指令。
从指令吞吐测试看,6870 的 4D MUL_MUL/ADD_ADD/ 组合指令吞吐率为 239 BIPS 左右,接近每个 SP 0.94 条 4D MUL 指令的情况。
在实际应用中,影响指令吞吐率的除了指令组合,还包括线程数、寄存器数量带宽、寄存器占用等因素,在 R600 以来执行单元上比较依赖于指令组合,你可以把它看作是 4+1 的组合,不过由于编译器的优化,有时候还是能跑出相当高的吞吐率,例如我们上面的 R600_Mix 测试项目就是一个专门针对 R600 风格 VLIW 单元的指令组合,不过这个指令组合基本上只是为了探测架构的最高峰值,并无多大实际意义。
Fillrate9 0.4 是 hotball 编写一个小工具,能够以填充率指标反映 GPU 的一些底层性能,例如纹理处理能力,我们这里提供的测试结果是双线性纹理过滤测试指标,测试结果包括了 DXT1、DXT5、INT8、INT16、FP16、FP32 的 4D 纹理处理。
在这个测试中比较瞩目的是 6870 的 16-bit 纹理处理中表现出和 8-bit 纹理处理一半的速度,因此在遇到 16-bit 浮点、16-bit 整数纹理处理的时候,6870 的速度可能要低于 GF104 或者 GF110(后两者的 16 bit 纹理双线性过滤性能均和 8-bit 一样)。
Fablemark 是 Imgtec 公司的 PowerVR SDK 中提供的一个演示测试程序,主要是用来衡量 GPU 的 Stencil(蜡板,例如阴影处理就会使用到 Stencil)处理性能。
从测试结果来看,6870 的 stencil 性能主要体现在 8x MSAA,基本上比 GTX 460 1GB 标准版快 20% 或者以上, 而在 4x MSAA 上则是 10% 左右的领先幅度。6870 在这个项目的优势也许和 ROP 的频率较高有关。
为了测试 D3D10 的 shader 性能,我们采用了来自 iXBT/Digit-Life 支持的 Righmark 项目 Rightmark 3D 2.0.02 专业版进行测试,测试项目包括了 D3D10 中新增的 Geometry Shader 4.0、Pixel Shader 4.0 以及 D3D9 已经引入但是 D3D10 才正式强制要求具备的 Vertex Shader Fetch。
RM 3D 2.0 的 Galaxy 测试是用三种三角形数量来测试两种几何体着色器(Geometry Shader)负荷(均衡、重度)的性能,测试结果主要受 GPU 的几何性能影响,同时也会受到一点内存带宽、填充率的影响,但是基本上和算术单元数量(除非 GPU 使用这些算术单元而不是固定功能单元来执行几何处理)无关。
从测试结果来看,相对 GTX 460 1GB,6870 可以保持 30% 左右的领先幅度,这基本上就是两者的内核频率差距,如果 GTX 460 1GB 超频为 850MHz,两者的差距就明显缩小。
在 Hyperlight 中,Geometry Shader 在 Balanced 负荷模式下只是负责生成、延伸光线,而在 Heavy 模式下则还负责画面的渲染。
从测试结果来看,情况和 Galaxy 有些类似,由于具备 4 个光栅器,GF100 的性能基本上达到了 6870 的 1.7 倍以上。
5870 的表现和 6870 类似,可以看做是一样的水平。
|