Kaveri 及 Steamroller 微架构增强细节
在昨天带来了 Kaveri 支持 GDDR5 内存的消息后,Brightsideofnews 刚刚又公布了 Kaveri 和 Steamroller 微架构方面的更多资料。据 BSN 的说法,这次的信息来自于一份名为“Preliminary BIOS and Kernel Developer's Guide for AMD Family 15h Models 30h-3Fh Processors”的文件,该文件主要是用于 BIOS 和操作系统内核开发人员来使用。
上图就是昨天 Kaveri APU 处理器支持 GDDR5 内存的信息来源所在,除此之外,你还可以看到 Kaveri 集成了 Sea Islands GPU、具备 4~6 个片上内核等信息。
上图是去年八月份 Hotchips 2012 期间 Mark Papermaster 提供的 AMD 内核性能年度增长路线图,据介绍 AMD 当时已经从 2011 年的 Bulldozer 性能缺陷上取得经验并在后来的 Piledriver 等后续产品上予以补强,实现每年 10%~15% 的性能增长。
例如把 L1 cache 的容量从 64KiB 增加到 96KiB 以及将相联度从两路更改为三路;Steamroller 在虚拟化方面支持虚拟式中断控制器,这是 AMD 硬件虚拟化的先进特性;此外还有 XSAVEOPT 指令的支持。
在增强每周期指令性能方面,Steamroller 有以下的变化:
L/S 转发优化
每周期可派发及回退两个 store
改进 memfile,从最近的 3 个 store 增加到 8 个 store,允许相依堆栈操作的跟踪
Load 队列(LDQ)大小从 44 条增加到 48 条
Store 队列(STQ)从 24 条增加到 32 条
Dispatch 带宽从每周期四条整数操作增加到每周期每内核四条合计八条整数操作,每内核最高四条保持不变
实现 SYSCALL/SYSRET 硬件加速
L2 BTB 从 5K 条增加到 10K 条,并且它的存储体数从 8 bank 增加到 16 bank
改进了循环预测
将 PFB 从 8 个入口增加到 16 个入口;新增的 8 个入口能用于预快取或者循环缓存
增加了 snoop tag 吞吐力
浮点流水线工位从四个缩减为三个
不过 Steamroller 最为特别的改变之处在于每个内核都有自己的整数解码器,这样的设计有助于让整个模块满负荷运作。
Kaveri 将会是第一款在 ISA 层面实现 CPU/GPU 统一化一致性内存系统的 APU,而 GPU 连接到 CRQ(一致性请求队列)的界面已经提升到各向 256-bit,实现更快的 CPU/GPU 数据交换效率。
Kaveri 提供了 PCIe Endpoint 模式支持,End Point 在 PCIE 里的定义其实就是指 PCIE 设备,这意味着 Kaveri 可以作为一个 PCIE 设备或者说协处理器使用。
我只关心DDR4呢?还有DDR5(假设和显存一样跳过DDR4)内存什么时候上市,这是我最关心的 ppT?一笑置之。
页:
[1]