硬件百科全书之运算至上——中央处理器篇

taizer · 发表于 2012-7-26 01:57

本帖最后由 taizer 于 2012-7-26 02:10 编辑

这是硬件百科全书的第二篇，距离上一篇的发表似乎过去了很久，至少远超过我的预期。这段时间加班很多，就没有心静下来写东西。下班回家还有点时间，就看看动画。

由于此段时间美剧荒，没的看就去看动漫，看的我三观都快崩溃了。

说正事，整个硬件百科全书我准了四大部分：3D图形加速卡（已发）中央处理器（这篇）主板和显卡以及机电产品。

GPU和CPU篇我早就写了主体部分，所以我完成起来所耗时间不算很多。

而后面的这两个我是一点没写呢，关键问题是这个2个东西貌似要图文并茂才能说的清楚明白，所以真的有可能遥遥无期了。

而且9月份各路美剧都开撸了是吧。

给大家说个笑话吧，真事。

我高中有一个同学，跟我坐过同桌，人蛮好的，很闷骚很YD很贱。在硬件上我和他也算是亦师亦友的关系，他是师。

09年的时候他到一个新的单位上班，2个月后来了一个比他小两岁的80后，相谈甚欢，比较投基。但这新人由于也很贱，所以互相挤兑。

一日说到高中在何处，才知原来是校友，再细问才发现我这同学乃是校史上最贱的一届，再问及班级再次惊喜发现原来是最贱的那个班。于是学弟发话到，虽然自己所在这一届并不如前辈那般是传说里的人物，然自认为修贱经年可以予传说人物一战。

二人单位论贱，各种比试完毕果然不分胜负。于是我这位同桌提出了一个惊世骇俗的比试方法----湿吻。互相恶心对方，受不了的则永远做手下败将。

学弟竟然应战。

我同桌跟我说这个事情的时候坦言对手之强大，坚持了很久。

我问，那后来呢？

他说，现在这货就是我的跟屁虫，到哪都喊我老大帮我拎包。

朕很震惊啊！问道：how WIN ？

答曰：我把舌头伸进去了··········

下面就是正文了：

此文的主体部分创作较早，因此如果有过时之处还望谅解。

CPU架构浅释这是一张nehalem核心的架构图图片仅是图片而已，本文并不围绕任何具体的芯片讲述
相对于早期的超标量结构现行的处理里要复杂许多了。
我首先把cpu的主要单元罗列起来加以解释，然后介绍指令的大致流程，最后说明些没有很严整逻辑结构的一些技术信息。
而对于cpu的性能参数放到后面来说。Cpu由晶体管组成，晶体管的开合形成0,1，这就是二进制运算的基本由来。
对于构成cpu的数以亿计的晶体管是不能通过电流来控制开关的，因为巨大的热量根本无法控制。
控制晶体管开合的是电讯号，（具体的信号方式此后在晶体管结构介绍中具体阐述）一般来说晶体管的开合电压区间为0.01V。
电源和主板制造商通过各种手段尽量使得输出的电讯号波纹没有较大的波动，
比方说晶体管1.31v的时候开启，而主板输出的电压讯号每10次只有3次可以到达1.31v，其余的时候只能到达1.29v，
那么这就存在一个区间使得cpu在高负载下会不稳定，我们可以通过调节来让cpu的开启电压处于1.29v的位置上。
intel在p45这个芯片组上开启了ref gtr 调节选项以规避这个信号噪区间。
Cpu在制造的时候按照内部结构图谱对晶圆进行逐层的沉浸刻灼，一层形成完毕后再铺上特殊的介质进行第二层刻灼，一般的cpu层数都能达到10层以上。
最后形成的晶圆上的晶体管还没有打通，经过腐蚀工艺打通晶体管和测试后的CPU才算完工。
当然形成一颗cpu的全部晶体管不可能都被用来作为单元给利用上了，这说是良品。
情况好的时候，一个晶圆上应该有半数的cpu的全部单元可以（冗余晶体管技术），也有部分的cpu有瑕疵，但由于出问题的部分只是高速缓存等非核心组件，可以屏蔽后上市。
其他的自然就废掉了。多核处理器的话也可以屏蔽掉出问题的核心做为其X2 X3等版本上市，当然这也引发了AMD的开核热潮。屏蔽的做法在GPU领域也非常普遍。
我们经常看到的CPU内部结构照片上，可以看到非常清晰的格局分布，特别是高速缓存部分非常显眼。

1.指令单元

在一次震动里，CPU里的一个指令单元能处理的指令数量是固定的，所以要提升cpu的指令效率要么增加cpu的频率要么增加指令单元的数量。实际上由于cpu是一个线性结构，一味的增加指令单元的数量并不能根本的解决问题。而如果我们把每一个cpu内核做为一个运算阵列来看的话，还有一个途径就是改进核心架构，比如说预读取、乱序指令池、超大容量的内部高速缓存和分支预测这类单元，它们能改善并行指令时候的cpu的效率，但却不能根本的解决问题，再者这些结构的晶体管耗用度太高。比如早期NetBurst这种流水线很长的结构中，指令返回消耗的资源也过高了。出于增加指令单元数量同时兼顾到晶体管耗用和并行指令效率的考虑催生了多核架构，未来的多核架构很有可能是每核心只有多个整数运算单元和一个浮点单元，然后多核心一个封装，共享解码，预读取、高速缓存等单元，有点类似GPU的阵列结构。（我在补全这个文章的时候才发现我曾经对现在推土机模块化有了一定的预见性）在nehalem的I7中，L1缓存中的指令缓存变成了4way结构，这种结构会使得数据延迟降低但会导致并行情况下效率下降。我个人的观点认为这和nehalem的解码单元能力过剩而运算单元有些短板有关。

所谓的流水线，就是将一条指令分成多个简单的段分开执行以提高效率，由于每个部分的单独执行，越高的流水线cpu就越容易达到高频率。在比如在NetBurst中，流水线的长度一度高达31，所以NetBurst

才会能达到如此高的频率。当然缺点是显而易见的，一旦出现指令错误返回，这将会耗用更多的时间。我们看到早期的AMD以PR值标注其CPU，其中一个原因就是那个时候AMD的CPU相对来说指令流水线更短，效率更高，同频性能也更好，倘若以频率标注有点吃亏。当今的处理器开始使用类似GPU的命名方式了，AMD的PR标注方式算个开端。

另外一个增加cpu运算能力的方法就是增加内部各单元的数量，多运算单元结构一般被称为超标量结构，P6就属于比较经典的超标量结构。单从超标量这种运算结构来说，目前的cpu和10年前的cpu并无本质区别。

（intel）处理器内置4组解码单元，包括3组简单解码单元和1组复杂解码单元。CPU日常处理的是流程较短的X86简单指令，交由简单解码单元翻译成微指令，较少出现的复杂指令则交由复杂解码单元，翻译成4条微指令结构的X86指令，4条以上的由复杂指令单元和微码序列器共同完成翻译。所有的指令最终都被解码成可以统一执行的微指令（mico-op），最后交由执行单元。算上指令融合的话，一次最多可以解5条指令。（指令融合技术，两条相近的X86指令可以融合成一条微指令，提高指令执行效率。部分难以处理的一些微指令进行了微指令融合，本来这些指令需要再次经行拆分和寄存，INTEL采用扩展指令集将这部分进行融合，由于这部分指令又包含了相当多的浮点运算，所以这种设计对提升浮点运算也颇有益处）。

2.Cpu内部的运算部件主要是整数和浮点两部分。

整数单元由简单运算单元（又称高速ALU）和复杂运算单元又称（慢速ALU）组成。其中高速ALU一个时钟可以完成2次操作，主要用于处理简单的整数运算；慢速ALU在一个或者多个时钟周期才能完成1次操作，主要用于复杂的整数操作。（另外还有用于生成地址的AGU部件，AGU主要从内存取操作数和保存操作结果。）

浮点单元则包括，浮点地址生成单元，作用和AGU是一样的。浮点运算单元，而且随着应用对浮点运算的需求，浮点单元的数量一直在增加。还有专门用于执行MMX指令的多媒体单元，以及执行SSE指令的SIMD执行单元。SIMD属于一种流式处理，使得单元可以以一条流水线携带多个数据经行并行处理而不影响性能。MMX和SSE都属于SIMD操作。解码单元与指令单元在数量上存在联系，但在实际工作中二者并不能同步操作，这和GPU的纹理拾取和纹理过滤单元有点类似。这里提下，powerpc的超线程技术更加类似SIMD而不是HT。

3.预读取和分支预测

在进行指令解码前，由第一层预读取单元进行预读取操作，从而减少指令序列对效率的影响，同时在这一层面还存在第一阶的动态分支预测单元。

预读取技术。为了不让高频率的指令单元等待缓存的数据，CPU的设计者采用了将数据预先装入高速缓存的办法。为了应对高频率下的预取MISS，每个核心安排了3组预取单元，其中2个数据预取单元1个指令预取单元，在L2中还有2组预取单元。预取单元通过存储器的索引判断所需要预取的数据，同时预取单元不会预取正在读取的数据和指令。

分支预测。比如说现在有一个指令操作，确定A是否能被B,C,D整除，能够被整除的队列就会继续执行，不能整除的就不再执行。如果没有分支预测，此指令必须将B,C,D 3线全部跑完才能知道结果，这无疑是个很大的资源消耗，而且与GPU不同的是，CPU的分支运算量还是不小的，而且很难通过程序本身进行规避。所以就由分支预测来规避，从而让指令只跑有效的那个序列。同时借助分支目标缓冲器branch targe buffer，保存之前出现过的分支和目标记录，对之后出现的分支进行预测并对操作序列做译码和分析操作，生成一个微操作指令池保存下来，以辅助未来的指令序列调试。分支预测还能够根据数据流的情况，预测未来乱序执行的出现。

CPU的前端结构还包括一个分支预测单元，由分支目标缓冲区-BTB，分支地址计算器BAC，返回地址栈RAS，循环回路探LD、间接分支预测器IBP组成。其中LD和IBP在P4以后引入。处理器还在分支预测器和取指令单元间增加一个队列来运行分支转移，否则话这个操作就得耗用一个流水线。

解码完成后形成的操作序列后也存在一个跟踪分支预测单元。在L1和L2中存在一个预读取结构，把L1有可能要从L2读取的数据的地址预先装入L1.

4.高速缓存又叫片上缓存，分为L1,L2.L3。

L1的速度最快，通常每bit的L1消耗6个晶体管（早期的官方数据，现在肯定不是这个数字了），高速缓存的成本大概是内存模组的30倍。核心运算单元的数据来自于L1，L1的数据则来自于L2。当运算核心需要某数据的时候就会像L1要求取数，L1没有就向L2发出请求。通常情况下L1中保存着即将从L2要求的数据的地址而不是数据本身。如果是共享式的L2，L2还是保存着核心1和核心2的取数要求，当核心1需求核心2的某个数据，不需要到核心2中去取数，直接从L2取数即可。L1的位宽为256BIT（或者视作64bit*4倍核心速度），分为数据缓存和指令缓存2种，通常为32KB的8way结构。（AMD的K8中，L1为128BIT，数据缓存和指令缓存各为64KB的2WAY结构多WAY的结构可以增加并行指令的输入效率，但当指令多为复杂指令时延迟就会较高。AMD的设计思路中L2是每核心独有的，由于是HT总线也就是内存直连技术，所以对L2的大小不是很敏感，其L1和L2和intel的设计思路有所不同。在K10R这个时代，AMD引入了一个6M的48WAY L3，以缓解并行指令下的压力。这个L3大致消耗了K10R一半的晶体管，所以我们也发现拥有L3双核心的X2 550 比没有L3的4核X4 620卖的还要贵。）

由于L1和内存的速度差异极大，而且容量也无法满足要求，这就催生了L2，由L2和北桥或者UNCORE上的L3来通信获取数据再交由L1。L2最初是在主板上的，后期纳入CPU。比如曾经的超频神器赛扬300A 就是拥有L2的改进型号。

以酷睿的L2为例，早期的酷睿双核版本拥有的L2为4M 16WAY的64BIT结构，后期的4核心版本的L2高达12M，这部分L2已经消耗了小半晶体管。L2存在一个总线，称为BSB（后端总线），以4倍于CPU主频的速度来运行，所以当CPU的主频提升，L2的速度也会提升。L2的大小直接决定了CPU的性能，是一个非常关键的规格，而且越是并行指令的环境对L2越是敏感，比如说即时战略的多AI环境。L2用于缓冲指令，L1从此取数，L2的大小决定了指令的命中率，也就部分决定了CPU的指令效率。以一个核心匹配512KB L2为例，在苛刻的指令环境下大概有25%的MISS率，以此为基础增加L2的容量后可以减少MISS率，但这个效果并不是线性的。

如果要弥补最后的2%miss,甚至要花费额外100%的晶体管。就目前来说CPU都存在L2的指令MISS，如果要完全没有MISS，那cpu上70%以上的晶体管都要用来制作L2，而且从性能提升角度来说是极不划算的。

在intel和AMD都引入内存直连技术后，L2变成了每核心独享的。在nehalem的设计中，L3存在一块1.256M的空间用于存放所有核心L1和L2的全部数据拷贝。任何一个核心都可以从这里取数而不需要去访问别的核心缓存。（AMD的高速缓存相对来说一直比较小，可能是由于片上缓存技术还不够好，K10 1代的2M L3耗用了一亿晶体管，在CPU照片上能清楚到看到一片光滑平整的区域就是L3，这块区域占用了接近一半的空间。）实际上L3和L2等的不同在于，L3并不属于内核心模块，L3和第一阶的4KB TLB以及内存控制器封装在一起，成为一个独立的模块。这个部分可以被认为是内北桥，它与内存的通信达到了空前的高度。实际上，我们也看到内存直连技术虽然解决了内存和核心通信时总线的速度瓶颈问题，但依然受到CPU运算能力的制约。比如三通道和双通道技术，按理说三通道内存在速度上占绝对优势的，但由于DDR3的双通道和三通道直连的速度都受处理器本身吞吐能力的制约，优势很不明显。（现在三通道DDR3 2000的速度越来越接近部分处理器L3的速度。和多年前内存性能不够用的不同，内存带宽似乎达到一个非常过剩时代了。)

片上缓存的WAY数目的多寡决定是并行指令的效率，同时过多的WAY会造成复杂指令延迟提升，所以设计者用多WAY的L3缓存来解决并行指令问题，而在L1和L2上则采用低延迟的设计方式。而且由于L2现在全部变成独享结构，L2与L1的通信能力也得到了提升。

(目前的桌面CPU采用的是CISC和RISC结合的结构，从本质上来说还是CISC结构，也就是复杂指令集CPU，优点是CPU指令结构易于设计，但缺点就是指令代码描述起来比较复杂，比如一个简单的四则运算在描述时就要考虑寄存器堆栈等CPU硬件本身的结构问题，而RISC也就是精简指令集的CPU则只要把运算描述出来即可。RISC的缺点就是CPU更难设计，但由于指令描述简单所以效能很高。目前采用RISC的高端CPU最常见的就是IBM的powerPC，其强大也是有目共睹的。)

5.超线程技术

CPU利用内部闲置的单元，同时进行另外一条流水线操作。这2个线程是并行的但不是完全同时的，通常某一个线程是先执行，随后就跟进后来执行的线程。前端结构不进行单元拆分，最后2个线程会同时到达缓存区域。由于早期的处理器在线程的输入和输出端依然是单线程的，加之当时无论是CPU性能还是内存带宽都比较有限，开启超线程技术后在游戏中反倒出现了性能下降的现象，只是在办公软件等支持较好且对性能要求不苛刻的应用中有比较明显的提升。但如果CPU性能足够强大，闲置的单元较多，那么一个核心就可以达到2个核心的流水线处理能力。现在超线程技术第早期HT技术不同的是，前端单元可以拆分，而且可以根据负载经行动态分割，这样就非常接近2个核心的效果。得益于处理器强大的性能和内存直连技术带来的内存性能飞速提升，现今处理器超线程技术在多线操作时提升明显。目前还有ATOM采用这一技术，当然ATOM受限于功耗，采用了顺序执行结构，又是双发指令，超线程技术带来的提升并不明显。

6.说说指令

指令主要为存储访问指令，这个占半数以上，存储指令中读指令占2/3，写指令占1/3。剩下的是20%分支指令，20%简单指令，10%的复杂指令。（这个也是早期的官方说法，现在比例如何我也不知道，或者我压根就没去找·········）

指令集操作步骤为，首先CPU由指令寄存器中取出指令，交由解码单元解码，指令解码后成为数据和数据执行地址，之后是取数操作，逻辑计算单元会对数据经行计算，一部分计算结束后数据进入CPU寄存器，一部分根据执行地址的需要会进入缓存进入内存，最后回到需要数据的程序中，CPU的存储器访问速度是内存的几十倍，CPU的寄存器需要不停的等待来访问内存，这就要用到CPU的高速缓存。内存的数据先交由二级缓存，之后由二级缓存交由一级缓存的指令缓存和数据缓存。二级缓存在早期的结构中是共享的，任何一个核心都可以从这里面取数，如果某一核心工作负载高它甚至可以完全占有L2.（动态负载技术）

插科打诨：AMD的处理器设计中没有引入简单指令单元，它使用的是全复杂指令单元的方案。复杂解码单元可以应对所有的情况，当然AMD也不是把所有指令都以一种方式解码，它也分为复杂和简单两种方式。一种是直接路径法，将指令翻译成1-2条类似于微指令的统一指令，AMD称为宏指令。另一种是向量路径法，用于将复杂一点的指令翻译成2条以上的宏指令。复杂解码单元可以进行直接路径和向量路径操作。类似于INTEL的情况，绝大多数可以指令可以使用直接路径发翻译，仍有一小部分必须经行复杂的向量路径法，而这其中又包含了大量的浮点运算。AMD拥有一个类似的指令融合技术的，不过INTEL可以融合的LOAD操作和SEE指令，在AMD上的方案是只能分割成2条宏指令操作。而且很有可能这个原因导致了AMD浮点运算的落后。

CPU的处理能力=单元数量*效率*周期频率

每个单元一个周期仅有一条指令的解码能力，于是频率和结构就成为了CPU效率的关键。

以四指令单元为例，通常情况下，简单指令集都是在全速工作的，因此一个周期，每个核心可以进行最多4条指令的解码操作。加之微指令融合技术，在最高效率下，一个周期可以处理5条指令。

设计人员还对SSE指令集进行了优化，每个核心拥有一组128bit的SEE指令执行单元，另外在前段布置了一组128bit SEE指令单元。　（AMD的K8是每个核心拥有一个64BIT的SEE指令单元，如果出现一个128bit的SEE指令，在执行的时候，不得不被拆分成2条64BIT的交由2个核心分别执行，之后融合。而一个64BIT的SSE指令，酷睿的每个核心可以同时进行双精度浮点预算。这也是AMD浮点运算低于INTEL的原因之一，这个结构在K10以后得以改进，我们也惊喜的看到看K10之后浮点运算的进步）。

寄存器组总共有十多个单元结构，主要分成通用、段、指令指针以及标志寄存器，这里不加赘述。

浮点寄存器组由8个80bit的数据寄存器和一个专用寄存器组成，这使得FPU可以进行32bit双精度浮点计算和80bit浮点计算，同时还支持16 32 64 bit以及80bit BCD的整数运算。

（简单说明下32BIT单精度浮点数

比如说123.456789 这就是个浮点数

然后转换成10的N次方*0，123456789的形式

之后转换成2的N次方*101010010…… 这种2进制格式

美国电气电子工程协会（IEEE）制定了浮点的工业标准，以统一其兼容性。

所谓的32bit 浮点精度是由1个符号位，8位的介码（这个介码是有偏移位的，32bit是127，64bit，80bit则更高，这里不加赘述），23位的尾数，总共32位。

如果尾数没有23位就以0补位，最后以这个32位的2进制数据进行四则运算。

64bit就是1+11+52)

乱序缓冲区应该是是P6时期出现的一个巨大改进。乱序缓冲区包含一个可以容纳大量指令的指令池。如果流水线上的某条指令陷入停顿，就可以从乱序缓冲区选择另一条可供执行的指令。

又是无意义的图两张：

图中显卡是HIS的X1900XTX ，真怀念那个时代显卡的疯狂做工。

8.一些公司

说到晶体管的工艺，芯片的代加工，就不能不提台积电。

台积电：全称是台湾积体电路制造股份有限公司，其上市代号为TSM。公司英文简写和LOGO是TSMC，所以我们常常看到用TSMC代称台积电。

台积电是最早进行集成电路加工的公司，早在1987年就成立，目前就综合来说在超大规模集成电路加工这个行业称老大也不为过。台积电属于全球信息和科技百强企业同时也是世界500强企业。在上世纪的80-90年代，台湾涌现了大批投入进半导体事业的公司。大量的主板加工商，电脑商也都在那时候大量成立。在那个不亚于硅谷的地方拼杀留下来的企业，现今都成了各个行业的巨头。（昂达电子泪目，我也是元老咋就没混出来？）台湾都有很多很世界信息和科技100强企业，要知道这个名单里都是微软、IBM、惠普这些巨人。台湾半导体商的行动完全可以牵制到硅谷的巨人们，大量的芯片都是走台湾走掉的。

由于台积电在晶体管刻灼工艺上的进步，和出色的良品率（相对来说）。使得无论是INTEL AMD ATI NVIDIA的芯片都大量出自他的手。INTEL这样的巨头几乎把所有CPU的制程技术向TSMC开放（3D晶体管没有），由它负责相当一部分的芯片加工。有些型号则完全出自TSMC。TSMC的芯片加工规模相当大，加之良品率高，当芯片商自己生产能力不足时，几乎都会想到台积电。

（“芯片代工协会”简介：1994年，由行业领先厂商共同创建了FSA（www.fsa.org），以实现晶圆需求量与产量间的最佳平衡。FSA共有300多个成员，分别来自采用代工模式的芯片公司、集成设备制造商、半导体提供商、封装/集成厂商、电子设计自动化公司、投资银行、知识产权提供商及其他公司。该组织有助于增进采用代工模式的芯片公司与供应商之间的关系，促进业务合作关系，同时还负责推广芯片代工商业模式，公布相关数据，并制定相关标准和政策。FSA的目标是到2010年使近半数的集成电路收入来自芯片代工运营。----写这文章的时候还没到2010，所以我摘抄的这个如此苍老。当时我打算2011年春节放出全部系列，嗯···2年多了）

代工前十：台积电、台联电、特许半导体、中芯国际、IBM 、Dongbu Electronics 、MagnaChip Vangua rd 、上海华虹、NEC 、X-FAB Silicon台积电每年能吃下芯片代工4成的份额。就算是金融危机INTEL亏损的时候，台积电依然盈利。

台湾的鸿海集团也是拥有芯片加工能力的。

NVIDIA有90％的芯片产品是交由台积电（TSMC）代工生产，剩下的10％由台联电(UMC)负责，更早些年IBM也代为加工部分。NVIDIA为了赶上32NM制程，由于TSMC的良品率还不够好，甚至有让Globalfoundries代工的意向，要知道Globalfoundries是AMD旗下的芯片代工厂。（自带吐槽：Globalfoundries现在已经独立，现在显卡也是28nm的了）

台湾联华电子

AMD和ATI芯片有段时间曾经转由台湾联华电子（UMC）代加工，主要在合并后的一段时间。之前也主要由TSMC负责，UMC是台湾第二大芯片代工企业，也是世界第二大的芯片代工企业。华虹NEC和宏力半导体已经合并，二者为内地较大的代工企业。

联华电子公司 (美国纽约证券交易所代号：UMC，台湾证券交易所代号：2303) 是世界著名的半导体承包制造商。该公司利用先进的工艺技术专为主要的半导体应用方案生产各种集成电路（IC）。联华电子拥有先进的承包生产技术，可以支持先进的片上系统 (SOC) 设计，其中包括 0.13 微米 (micron)铜互连、嵌入式 DRAM、以及混合信号/RFCMOS。此外，联华电子是利用 300mm 晶圆进行芯片生产的领导厂商，目前拥有三间 300mm 晶圆芯片制造厂，其中包括台湾的 Fab 12A制造工厂、设在新加坡的与Infineon Technologies合资的 UMCi (定于 2003 年中期试产)、以及也设在新加坡的与 AMD 合资AU Pte. Ltd. 公司建设的芯片制造厂(定于 2005 年落成并投入生产)。这三间芯片制造厂均设于重要的战略位置，可为世界各地的客户提供服务。联华电子在台湾、日本、新加坡、欧洲及美国均设有办事处，在全球各地的员工有 8,500 多名。

摘自百度百科

台湾除去台积电就是他，可以说台湾的芯片加工他也算是寡头之一，工艺先进，良品率较好，所以我们经常看到UMC代工的芯片。300mm晶圆属于大晶圆，过去是使用200mm晶圆来制造芯片。

德州仪器（Texas Instruments）：也就是我们常见的TI。

德州仪器 (TI) 是全球领先的数字信号处理与模拟技术半导体供应商，亦是推动因特网时代不断发展的半导体引擎。

——来自德州仪器官网

我们比较常见的来自德州仪器的产品，最多的就是供电控制芯片，还有就是INTEL的了。这种芯片的价格每万颗采购价在1.5美元左右，多路控制的相应要高些。无论是旗舰还是普通的板卡，都会采用德州仪器的控制IC。高端一点的就买诸如低热的，高效能的等等。

信号芯片，磁盘芯片，网络芯片，时钟发生器等等，在板卡上的一颗颗的小芯片到处都可以看到德州仪器的身影。德州仪器世界信息和科技的前10强企业，当然也是世界500强企业。他们提供了各种廉价稳定的芯片方案，拥有巨大的出货量。

写这个部分的时候本来还包括了，美国国家半导体，补完的时候发现都你妹的被TI收购快2年了··········

意法半导体：这个比较有意思，是由一个意大利公司和一个法国公司合并的，大名鼎鼎的ST，位列世界半导体航母第五位

我们经常看到的，铁素体电感高品质MOSFET，很多都是出自意法半导体之手，至于这些东西是干什么的，主板篇会详细解释。

同样的意法半导体提供了很多非常优秀的方案，被大量板卡商采用。当然电脑业的收入大概只占到意法半导体的15%。

超微半导体：内地命名为超威半导体。

公司名称：Advanced Micro Devices 简写就是AMD

最初AMD生产的80X86系列和INTEL没有区别，当然更早期产品还不是X86结构的，可能都不能算是CPU，只能说是微芯片，而且在其CPU市场发展起来前，内存领域是公司的收入主要来源。从K5开始AMD开始生产自己的架构产品。AMD在1996年收购了NexGen公司以后推出K6，之后AMD的CPU逐步走向成熟，同时PR值也成为了AMD的特色。从K8开始，AMD的CPU日益彪悍，赛扬的价格奔腾的性能，而且也是相当能超。曾经有段时间，AMD的处理器几乎成为了低端平台的首选。而且AMD比INTEL更早突破1G频率，给INTEL留下了深深的心理阴影，以至于INTEL拼了命的要在任何G的关口拿下AMD，这也错误的导致了INTEL 4G cpu的策略，这个错误的方向致使K8在市场上横行了2年有余。到了今日的AMD已经发展到了推土机，也陪伴PC走过了30个年头，当然至今AMD依然没有在浮点运算和服务器领域击败INTEL。AMD和INTEL斗了几十年，给消费者带来了空前的技术体验和实惠。即使AMD可以凭借反托拉斯法案逍遥过日子，其依旧在设计上不懈努力，这是值得肯定的。对比那个早早就收购cyrix和S3，坐拥处理器芯片组图形加速器完整平台确毫无建树的VIA来说，AMD要好太多了。

INTEL曾经和AMD打了长达8年的官司，目前二人之间有技术共享协议和反垄断协议，磕磕碰碰的过了这么多年。现在双方不停的价格战，技术站，宣传战。其官方文档也培养了大量的处理器爱好者。

2006年7月24日AMD正式宣布54亿美元并购ATI，AMD以42亿美元现金和5700万股AMD普通股收购截止2006年7月21日发行的ATI公司全部的普通股。AMD有了芯片组支持，ATI有了平台支持。。

现在AMD要走的路还很远。

INTEL

一个非常牛逼的芯片公司，无论好的坏的方面都是。没了。

taizer · 发表于 2012-7-26 01:58

本帖最后由 taizer 于 2012-7-26 02:13 编辑

9.来来来，看看这个晶体管

晶体管的大小：（1纳米等于千分之一微米）

晶体管的大小一般以nm标注，比如22nm。这个大小不是晶体管的体积，而是晶体管之间导线的宽度，绰号：线宽。我记得0.25微米的处理器的晶体管是用极其微小的针头做的，导线也是铝的，那时候还不用纳米来标注线宽。后来出了0.18微米“铜渣”事件（导线是铜的，宣传的很牛逼），人家还送我一个铜渣做钥匙扣呢。现在的工艺都是激光沉浸刻灼了。

晶体管越小，它的工作电压也就越低，电流也越小，开关速度也能更快。而且处理器也就能造的越复杂，性能越强，同时功耗和发热也有保证，所以每次更换制程都是一件很爽的事情。

但从图上能看出来晶体管由几个部分组成，这线宽才22nm是吧，这栅极，源极，漏极得多小？（图还不是3D晶体管的，我等会说）

为了说明一些问题就得从最基本的说起：

这种栅极源极漏极的结构实际是源自仙童的那个谁发明的mosfet（不记得了），发明的时候在不在仙童我也不记得了，还请指正，反正我也不听。

栅门不加电的时候，通道里没有电荷，源极和漏极之间没有电荷，晶体管处于关闭状态。也就是2进制中的0.

栅门加电，源极和漏极就有了电流，晶体管就通了。也就是2进制中的1.开开合合就能运算了。

现在总是说的什么高K介质就是和栅门和通道之间的那个栅极氧化层有关。栅极得依靠那个氧化层作为绝缘体来开关晶体管，这个层一直是二氧化硅(SiO2)做的。据说现在的这个层也就几个原子大小，漏电都快关不住了，所以intel后来搞了金属栅极，现在又进化到3D栅门，其实也就是3栅门，叫3D只是为了听起来很华丽很玄幻而已。原来的那种单栅门，intel让他立起来了，而不是平面的，这样就是左、右、上3门。·······太麻烦了，上个图：

AMD用的是低K介质技术（SOI- Silicon On Isolator绝缘体上的硅技术），这技术的背后是IBM所以也没什么好担心的。

（Mosfet又叫场效应管，其工作原理啥的其实极度复杂，我也不懂讲不清，就简单说点有关的吧。从栅门加电属于垂直电场，它会破坏在通道内电子的自由性，使得电子在半导体表面形成依附和积累，或者形成流逝，这种积累和流逝也就形成了源极到漏极的电子迁移。这么一个现象称之为场效应。）

如果一个材料具备极高的绝缘性和高场效应就称之为高K。这个东西的牛逼在于它漏电少。高K金属栅极也算是45nm时代intel最伟大的贡献了。现在栅极和栅极的绝缘层已经都是金属的了。

10.值得一提的改动

一、超线程技术改进：
对单个内核进行分割，具备同时运行两个线程的能力。与早期的HT技术的区别：输入和输出端以及内部资源根据负载的动态分割。设计人员将寄存器状态、重命名返回堆栈和TLB列表进行复制，对读取部分的寄存器，ROB、小页面ITLB以及缓存进行分割。

二、乱序指令池
增容到128.（最早是多少我也不知道 - -！）

三、TLB增强

TLB（Translation Lookaside Buffer，页表缓存）是用来存放虚拟内存地址映射到物理地址的分页表条目，位置在uncore部分。程序根据TLB的虚拟地址来访问物理内存。这个东西是介于高速缓存和分页表之间。速度高于分页表很多，如果没有TLB程序就要通过分页表去访问内存，那要慢很多，所以它算是另外一种意义上的“高速缓存”。

TLB的增强就是扩容，主要依靠引入第二级TLB来扩容。这个部分官方图谱上有文字标注但没有画图。分给L1的部分，指令-大页面的指令每线程可以塞7个条目，小页面容纳128条目，这个没变。数据-大页面32条目小页面64。另有新增的第二级一体化TLB分给L2用，这个是512条目，但不分大页面和小页面，因为仅限小页面·········

四、环形总线

原交叉总线被弃用，改用RINGBUS，也就环形总线。主要是处理器的复杂程度不断的提高，使用交叉总线要考虑的设计问题比以往要困难许多，再者环形总线在扩展单元上更加容易。而且由于CPU的实际运算单元数量较小，因此在使用ringbus的时候延迟问题并不像GPU那么严重，因为所要建立的接入点数量相对较少。另外一个方面，这也是为了处理器的核心显卡更容易和其他单元交互。运算单元，L3，核心显卡和外围单元都在总线上有自己的接入点。Intel的ringbus设计很有特色，整个ringbus共有四条环，但却不是通过四个相同的回路来增大数据传输能力。Intel将四个环分类为数据、请求、响应和监听，每种类型的请求各种通过接入点进入对应环。

　

五、微指令缓存和循环流检测器

微指令缓存是SNB阶段的一次巨大改进。此单元应该捆绑于解码器，位置位于L1内，内部用于暂时存放指令被解码单元解码后所形成的微指令（micro-ops），这部分微指令和其相关的X86指令仍旧没有脱离，可以映射其他L1的地址。如果现在预读取单元接收到一个X86指令，通过微指令缓存内部的micro-ops映射地址比对是否是之前有相同的X86指令，如果相同，则此X86指令不执行解码操作，运算单元所用的微指令直接从微指令缓存调用。由于执行这样的操作解码单元可以关闭，这种设计对减少功耗也作用很大。循环流检测器则是在酷睿时代就有的技术，为什么放到这个位置来讲。这个单元的功能简单来说就是，如果它检测到此次运算和上一次的相同，则判定为循环，这个时候包括预读取、分支预测和解码全部关闭，直接调用之前的微指令。加上我之前提到过的分支列表（也许没有？就是把经常出现的分支保存下来，再次出现直接调用列表来映射）。这三者结合，步步为营，分工明确，能不干掉坚决不干，能偷懒的坚决偷懒。总体下来能少跑很多循环分支以及解码运算，功耗控制也相当给力。

　

11.把NAND放在这里说

因为前面简单的说了下晶体管，所以我就顺水把NAND也扯一点。这一部分我全凭记忆胡扯，出现错误那是绝对的，可提出修改意见，或者帮我重写这个部分。

NAND现在主要见于SSD，用于存储，速度更快，快过HDD很多，特别由于没有机械转轴这种结构，寻道很快。小文件和IOPS性能极好，也不存在外道更快内道要慢不少这种问题，而且制造上来说比起HDD技术含量低很多。

NAND的基本存储单元结构其实和mosfet没什么区别，也是源漏栅这种结构。你写入数据，就需要电压来擦除，擦着擦着这个mosfet就关不住电子了，这就坏掉了。NAND的是按block为单位写入的，而擦除是以page为单位的。这2个单位大小不一样的，我记得blcok是4kb，page是64kb。

单层的NAND SLC擦了写这活也就能干个10W次，多层的MLC3000-10000次就咯屁了。于是不可能有数据就写。比如我现在有个block要写咋办，如果有就写那么就擦一个page的写一个block，那么很快整个SSD就咯屁了。实际操作中是有blcok这种写入的不写，放缓存里存着，攒够一个page一起擦了写。而且写的时候是专拣没写的地方写，或者捡那种比较新的地方写，因为紧着一个地方写，可擦写次数用完了，SSD也还是咯屁了。按照这种策略，MLC的SSD现在128G的写入测试已经写了600T多了，所以寿命问题基本不用担心。

SLC一个mos就记录一个数据，MLC是多个，所以它的电压记录点要更多，整个要受到的最高电压也就更大，栅门击穿的速度要快过SLC很多，所以写入次数要少，但成本就要低不少了。

同步的NAND是双线读取，速度快。异步的NAND和同步的也取自同一个原晶，只是体制不好，只能单路读取，速度要慢一半。但是异步的通过主控也能强制运行于同步模式，简单的通过测试测不出来因为速度几乎没有区别。这完全是无良做法，但防不胜防。

还有就是那种黑片，没通过官方检测，直接拿出来卖了，便宜很多。山寨SSD就用这个，也有无良的U盘，内存卡什么的用这个。电压更高的NAND还有TLC的，过去买个SLC的闪存卡很正常，现在买个MLC的我就泪目了，基本都是TLC的，U盘没有过去耐用也是这个原因。

12.内存

内存这个部分我大概是09年写的，没有完成，我一贯的烂尾，把它提到这个位置来作为CPU篇的一种补充，所以内容也许有落后之处，究其原因是我懒得改动，照搬了。你也可以注意到我3年前的写作风格还是有节操的，现在嘛·····，算了。

内存定义：内存（英语：Computer memory）是一种利用半导体技术做成的电子设备，用来储存数据。电子电路的数据是以二进制的方式储存，存储器的每一个储存单元称做记忆元。【摘自维基百科】没有什么实际意义，做为开篇打头而已。

06年的IDF论坛上，INTEL展出了一个名为TERAFLOP的芯片。此芯片整整集合了高达80个内核，而且每个内核都给与了256M的SRAM。曾经这个芯片让人会联想到未来的几年内内存就会退出历史舞台了。这个本来是预计在明年也就是2010年推出的芯片。(尼玛，今年2012年了）

从个人的观点来看，TERAFLOP结构的U永远不会出现了。目前内存条具备了低价和高性能的极大优势，而且技术非常成熟，成长空间还非常巨大。在U内部集成大容量的静态内存是出力不讨好的事情。

内存的位置处于硬盘和芯片之间，硬盘的数据缓冲于此，来自芯片的数据也由此交由硬盘。、由于大量临时数据的存储，内存的大小和性能直接决定了PC的效能，通常情况下，内存的改变带来的性能提升最为直观，很多旧机器在升级时候也会考虑加大内存这种对成本和平台的要求较低，效果明显的方式。

根据CPU寻址的字节长度目前的32位处理器可以支持2的32次方 4GB的内存。64位系统可以支持更大的内存，因此在服务器上得到广泛应用，目前的主流CPU都支持64位技术，服务器级的至强系列则只使用64位系统。

内存的时序，比如

5-5-5-15 （这你妹一看就是DDR2的）

从左到右分别是

CAS Latency 内存存取延迟

RAS-CAS延迟内存行地址传输到列地址的延迟时间

Row Precharge Timing(tRP) 内存行地址选通脉冲预充电时间

Row－active Delay（tRAS），内存行地址选通延迟

先把4个延迟说明白，内存要说的东西里也就这个相对要复杂一点。也是为下面篇幅的数据分析做必要的铺垫。

按从左到右来

1. CAS Latency （tCL）内存读写操作前列地址控制器的潜伏时间

　内存寻址分为行和列，发生列地址请求后（CAS），首先是行地址选通，也就是tRAS，之后是行地址开始预充电，也就是第三个延迟数据RAS预充电。这之后内存开始初始化行寻址RAS。下一步行寻址被激活，开始进行行寻址。首先是行地址，然后初始化行地址向列地址，周期结束后，由行地址转换为列地址，由列地址也就是CAS访问所需数据的精确十六进制地址，列地址完全激活。全过程就是由CAS开始到CAS完全激活，由于内存的16进制地址要依靠CAS来访问，所以CAS的延迟可以说决定了内存的指令执行效率。内存参数的第一个延迟正是内存指令执行的最后一步，也是最重要的一个数据。

这个参数决定了内存在得到指令后多久开始执行，也决定了突发性指令的执行效率。理论上他的数值越低越好，但也同样意味着随着内存频率的提升指令的MISS就会越来越严重。所以内存频率不停提高的今天，CAS延迟也在不断的提高中。在我们进行内存超频时，可以通过改变这个延迟以在高频率下维持稳定。当然你自己同样也可以降低它的数值，来达到更低的延迟。目前DDR2 DDR3的此项性能远低DDR SDRAM内存就是这个道理。

2． RAS to CAS Delay（tRCD）

行寻址到列寻址延迟时间

同样的数值越小，性能越好。决定了指令寻址由RAS转至CAS的时间。内存读写，地址返回等过程中 tRCD有着巨大的影响。与CAS Latency 一样，随着频率的提升，无奈的提升着。

3．Row Precharge Timing(tRP)

内存行地址选通脉冲预充电时间

在行地址被激活前需要预充电的时间。减少tRP可以快速的激活行地址，当然如果时间太短行地址并没有得到足够的预充电将会丢失此前的数据。随着内存频率的提升，指令的传输量激增，tRP需要更长的时间，也使得行地址的激活时间大大加长了。同样的，为了在高频下维持稳定，我们需要加大这一数值。当然如果你对颗粒的体制有信心，可以降低内存的各个时序，从而带来指令的高速执行，内存的性能将得到进一步的提升。

4. tRAS

内存行地址选通延迟

简单的说，就是行地址准备好可以进行预充电的时间，称为地址选通延迟。

如果设置的过高必然带来不必要的等待，如果过低，就会导致已激活但还未转换的行地址被迫刷新从而丢失数据。由于行地址的选通要和行地址激活及行地址转换挂钩，所以此项延迟一般大于二者之和，也就是大于CAS latency + tRCD，时序中的第1 ，2 个数字。

通常情况下，某个频率的内存条都会有个标准性的时序。如题中的5-5-5-15 正是DDR2 800的常见的一个时序。由于内存的实际震动频率在266左右，我们能看到的DDR2的高频内存也就在1100这样，正如DDR有533一样。一些极品条在时序方面会有所优化，4-4-3-5这种时序也会出现在DDR2 800上，当然内存的默认电压会相当的高来维持稳定。顺便说一句，颗粒的耐压性是非常高的。从对低延迟高频率条的使用感受来说，对主板的要求也比较高，往往造成不兼容的假象。一个可以在低时序下稳定的内存，也就意味着在进行时序调整后，会具备恐怖的超频性能。

简单的描述下各个时序就是由：列地址——行地址选通——预通电——行地址激活——行地址到列地址——列地址激活开始访问

可以看出时序越低内存的性能就越强，同时稳定性会降低。如果条子的频率上不去，可以考虑加大时序改进稳定性。也可以加大电压，减少时序来提升性能。

我们在BIOS里还可以调节的其他选项

一般的主板内存延迟的调节项都在十个以上，DFI更是凭借出色的内存BIOS设计和内存供电设计，成为了多年前吞吐那些高压超频条的必然选择，也给DFI的BIOS带来了美名。至今钻石主板依旧的设计出色，BIOS强大。(DFI已经退出民用，泪目，我最爱的主板品牌）

这列出的部分，称为蛋疼无聊折腾系列延迟参数，以下的参数设置成AUTO要比你自己琢磨好的多。而且从这里开始都是些枯燥的东西，本来我想从白皮书上拷下来算了，后来觉得也实在是没有必要。于是我尽量简单的解释下。在这之后的篇幅是关于频率的东西，比较少也比较简单。

1.CPC：Command Per Clock

首命令延迟

在行地址选址之前，要先进行P-Bank选择---L-Bank/行激活——列地址的选择，这些在内存指令执行前，称为首命令延迟，也就是在预充电之前。

单位为周期，越短着内存指令从等待到激活的时间越短，性能越好。此参数由控制芯片控制，内存的数量和频率都会加大控制芯片的负载。（从AMD的内存控制模组的设计来看，采用单面内存会比采用双面内存给控制芯片带来的压力要小）因此容量相同的情况下，我们尽量采用一对内存，尽量的提高稳定性。目前这个参数一般为2T,建议AUTO.

加大此参数，对内存冲击高频率效果并不明显。

2.tRFC : Row Refresh Cycle Time

SDRAM行刷新周期时间,同样的越小越好。

3.tRRD : Row to Row Delay(RAS to RAS delay)

向相同的bank（内存条和北桥芯片之间的一个64位数据通道被称为一个内存条Bank）中的同一个行单元发送的2次REF指令之间的时间间隔。此延迟的高低影响BANK激活的速度，如果延迟过低，数据则来不及进行指令转换。

4.tWR : Write Recovery Time

写恢复延时：在预充电前，等待写缓存中的数据写入的周期时间，过低的延迟会导致数据未写入前遭遇预充电刷新，从而丢失数据，内存的频率越高就需要越高的tWR值维持稳定。

5.tWTR：Write to Read Delay

内存模块中的同一单元中，数据的最后一次写操作结束到下一次读操作开始等待的时钟周期。此数值的大小影响数据的读写间的延迟，同样的越高的频率需要越高的延迟维持稳定。

6.tREF：Refresh Period

内存模块的刷新周期

根据内存的频率，此数值由主板上的控制芯片来决定，除非你手动修改它。

内存中的数据储存结构有点类似于电容的功能，我们都知道内存断电数据就会丢失，内存中的数据只能够保存一个极短的时间，此后要依靠充电刷新，降低延迟可以改善数据延迟。由于此周期按照内存模组的行存储大小来计算，所以我不建议手动修改，如果有兴趣可以按照AUTO数值适当降低折腾。

7.tWCL：Write CAS# Latency

写指令到行地址控制器延时

这是数据写入随机物理地址的延迟，当然这也不能说是随机，内存选择离当前列地址最近的物理页面写入。

8．DRAM Bank Interleave

BIOS设置：Enable/Disable

内存交错式模式

允许模组中的BANK执行不同的操作，各个BNAK同时进行刷新，读写等不同的工作。当内存中的数据请求存在对应多个BANK的多种模式的工作要求，这个功能将会极大提高内存的数据处理能力，如果关闭，当内存面临大量不同的数据要求时候，不得不排序进行处理，这会影响到效率。目前的内存都支持交错模式，没有关闭的必要。

(这个调节选项已经消失，实际上我在写这篇东西的时候，觉得大多数主板都没有这个选项了）

9.DQS Skew Control

BIOS设置：Auto，Increase Skew，Decrease Skew

内存由电信号控制其模组的关闭和开启，这个幅度大概在0.1V左右。由于电信号的不稳定性，一个信号到达所需压力和模组的指令的到达存在时间和压力上偏差，不可能完全的达到开/关的压力要求，这就存在多个和基准数值偏差的范围区间。DQS Skew Control会以基准值进行调整，避开信号噪音区间，但很显然会影响到信号的效率。Increase Skew和Decrease Skew分别增加和减少电信号的斜交波动，Decrease Skew更有利于增加稳定性，但会耗用电信号更多的调整时间。由于人为很难判定内存电信号的浮动情况，此项建议设置成AUTO。如果你非要调节这个选项，往下看。

10．DQS Skew Value

如果开启Increase Skew，此数值代表的是对斜交波动的增加数值，数值越大，电信号到达指令速度越快，他对应基准数值调校避开噪音区间的时间就越短，稳定也就越差。

Decrease Skew则代表了校正的数值，越大则稳定越好，延迟越高。至于怎么调整，曾经有过极限给内存加压，加高Increase Skew数值的先例，由于DQS Skew Control本身对超频和内存实际使用性能的影响就不大，所以以上只是蛋疼的数据解释和蛋疼的折腾建议。

（实际上整个DQS Skew Control的设置和cpu以及芯片组的REF的调节是很类似的，这个功能在P45才真正开放）

11.DRAM Drive Strength

DRAM驱动强度：这个参数用来控制内存数据总线的信号强度，数值越高代表信号强度越高，理论上是信号强度越高，超频稳定性越高。实际中，过高的信号也会影响到内存的性能。

12.Strength Max Async Latency

内存模组异步延迟时间周期。

给予内存指令异步模组调整的等待周期间隔。内存上的模组并不是完全同步的，因此需要等待模组调整同步。此数值越高，则稳定性越强，能调的很低完全看的是颗粒的体制，最好出自同一原晶。

13.Read Preamble Time

DQS（数据控制信号）结束到在此激活间的的间隔。此值越小则性能越强。

　

14.Idle Cycle Limit

空闲周期限制：指令打开物理页面进行充电刷新前所等待的时间。数值越低则数据的读写效率就越高。

15.Dynamic Counter

动态计数器；开启/关闭动态空闲周期计数器，默认为关闭。开启时根据内存页表(Page Table)根中的页面冲突和页面丢失(conflict/page miss：PC/PM)的通信量比率强制进行动态调整，关闭的情况下由对空闲循环极限（Idle Cycle Limit）根据conflict/page miss：PC/PM进行调节。开启后将提升性能。

16.R/W Queue Bypass

读／写队列忽略：优化器刷新及DCI操作被选定前，忽略操作DCI的读/写队列的时间，其作用是忽略返回的错误寻址提高DCI的选址稳定性。数值越高则稳定性越强。

17.Bypass Max

最大忽略时间：在接口寻址进入连接队列（Dependence Chain Queue），优化器做出否定决定前优化器将作出忽略操作的时间。数值越大其TCP效率就越高，越低则越稳定。

优化时序的目的是为了降低潜伏期，降低延迟提高性能和带宽，同时要注意到频率的提升也可以带来性能，带宽的提升和降低潜伏期。而时序的优化往往没有频率提升带来的总体性能提升来的明显，这二者却在性能和稳定上处于相悖的状态。所以我们要记着这一点，为了时序而放弃频率是不划算的，在保持一定的高频，低压的情况下折中的去优化延迟才是最好的。内存的折腾性很高，特别是时序这一块，但就从实际意义上，对于使用体验没有CPU 、GPU超频这些来的明显。

内存颗粒主要供应商介绍

www.baidu.com内输入：内存颗粒主要供应商介绍

（我相信你能看出来这是我才写的）

频率问题（这部分设计频率和FSB了，较老，懒得修改，权作闲谈吧）

时钟发生器由芯片和晶振组成。时钟发生器在主板启动时给与一个频率信号。FSB也依靠时钟发生器提供震动频率，内存也通过他来控制。板商会给与一个超过芯片组FSB很多的时钟发生器，这也是为了OCER们准备的。

DDR内存的是在脉冲的上下两路传输数据，实现等效2倍于实际频率的传输能力。DDR2则是预读4BIT数据传输量达到DDR的2倍。一个DDR400的实际频率也就是200，DDR2 800的震动频率和DDR400一样。

内存的实际震动频率极限在266-275左右.DDR2比DDR高一点，DDR3的极限频率能达到300以上。一个DDR2的内存加压1200已经是极限了，目前DDR3的超频都稳定在1866，也就是233，最终DDR3 2000还是会普及的。

内存条的位宽是64BIT，双通道就是128BIT了，组建双通道将直接提升内存和北桥或者内北桥的通信能力，即使是AMD的HT总线这一点也是毫无疑问的。。

内存的带宽等效频率*位宽/8 。DDR2 800 双通道就是800*128/8=12.8GB/s 这是内存的理论带宽

FSB代表着内存和北桥的通信能力，带宽等于等效FSB*64/8 64是位宽，CPU的内存控制器只有64位。所以非QPI总线的INTEL CPU要让北桥把DDR800的双通道吃下，就需要1600FSB。也就是CPU的外频达到400。我们常常追求400外也就是这个原因，此时FSB：内存将可以达到完美的1：1，此时不存在分频，性能将达到最佳。AMD由于其内部集成的内存控制器，其内存和CPU之间的通信几乎不受任何带宽的限制，可以说CPU能吃下多少，内存就能提供多少。CPU的内存能力和其外频、架构、主频、L2带宽和大小息息相关。同一颗CPU，在外频提升后内存性能会大幅度提升，而且这个原因倒并不是完全由于FSB的瓶颈消除。比如说FSB800的情况，我们依然拥有6.4gb/S的带宽，这个数字已经不小了，很多低端CPU达不到这个数值。外频提升后，CPU本身的性能提升，其内存吞吐也会提升。同样频率同样规格但不同架构的两个CPU，由于单元流水线长度，L2的缓存方案的不同，其内存吞吐能力也会有所变化。当然这些都比不上HT QPI这种直连技术。完全相同规格，但架构更先进的CPU，其内存吞吐力的提升是很有限的。

QPI的结构几乎和HT一样，所有当初有被指着抄袭嫌疑。

其实吧·······浮点运算器、片上二级缓存、三级缓存、多核心、超线程、内存控制器、64位内存寻址这种改进都是RISC上先有的。

内存条上商标的清晰度，走线，焊点，电阻，金手指的规则程度，都代表了一个内存商的水平和态度。颗粒附近时需要一定的滤波电容去维持稳定的，本人曾今在一个OEM内存上看到了数量恐怖的电容。超频条的金手指上方，一般也会看到数量庞大的电容。走线上排阻保持电流平衡。

PCB的层数则直接决定了电气性能，这和滤通波的纯净度以及走线相关，目前主流内存商依然保留了6PCB，这是值得肯定的，至于PCB的电阻和含铜量就不能知晓了。

内存条上还有一个SPD芯片，保存着内存的电压，速度等信息，供主板CMOS调用。

XMP技术

在DDR3时代，不支持XMP似乎成了一根内存的缺陷了。

XMP

　　Intel Extreme Memory Profile（Intel XMP）是对标准DDR3内存规格的补充性扩展，它使得具有Intel游戏科技基础的计算机将更强劲的超频性能发挥到极致。Intel XMP平台初衷是为玩家、初学者以及界于两者之间的所有用户提供的最大优势。

来自百度百科

XMP的INTEL白皮书连篇累牍几十页

实际作用：就是在SPD芯片里预先写上更高规格的内存规格，电压，时序，频率等，打开XMP后内存就按照设定进行时序优化运行在更高规格下。通常情况下是降低了延迟，提高频率和电压一如通常情况下的内存超频。

CPU篇写作和补充其实断断续续，马马虎虎凑成了一个还算系统的东西。码字不容易，觉得文章内容不错的或者开篇笑话写的不错的，漂亮妹子请主动联系我，本人价格公道，服务热心。（话说你个傻逼，这种文章有妹子看？）其他的人就算了，当然如果你非要给我汇个一亿两亿的我也不拦着。

全文完。

taizer · 发表于 2012-7-26 01:58

本帖最后由 taizer 于 2012-7-26 02:13 编辑

排版是我永恒的软肋

ws0991 · 发表于 2012-7-26 02:16

太长暂时没时间看. 基于LZ码字太累顶一个先..

glkiso · 发表于 2012-7-26 09:26

这贴快沉吧

longyianm · 发表于 2012-7-26 10:35

神贴，内存那让人茅塞顿开~

pool · 发表于 2012-7-26 12:23

机油的朋友也是基

zengpower · 发表于 2012-7-26 12:57

好专业，用膜拜中~~~~~~~~

ywhzl · 发表于 2012-7-26 12:58

看着好累！

everysun · 发表于 2012-7-26 13:06

知识贴，一定要支持！！！！

sukidayo35 · 发表于 2012-7-26 17:30

话说LZ 那两个湿吻的人男的女的？

taizer · 发表于 2012-7-26 18:00

sukidayo35 发表于 2012-7-26 17:30
话说LZ 那两个湿吻的人男的女的？

必须两个男人啊

小皂皂 · 发表于 2012-7-26 20:28

顶了，太专业看不懂

zeus945 · 发表于 2012-7-26 21:52

码字幸苦

mzp2009 · 发表于 2012-7-26 23:20

知识贴，支持！！！！

xxxtc1988 · 发表于 2012-7-27 00:33

这个支持楼主啊~~好长

85112261 · 发表于 2012-7-27 01:14

好专业，用膜拜中~~~~~~~~

jwangh · 发表于 2012-7-27 07:18

又见科普文支持是必须的

taizer · 发表于 2012-7-27 23:10

下午想到了一些补遗的内容，一觉醒来啥也不记得了。

linuxssh · 发表于 2012-7-28 10:01

cpu的速度肯定是最快的。

lilinhg · 发表于 2013-2-25 11:31

感谢科普

hnjzzsz · 发表于 2013-2-26 18:32

火前留名，膜拜大神

theOnlyWQ · 发表于 2013-2-26 19:12

感谢科普楼主真乃神人也

mayinghua315 · 发表于 2013-3-19 21:28

太专业看不懂，不过还是顶了

demospirit · 发表于 2013-3-19 22:02

很强大的教育贴顶可惜有较大一部分看不懂

[原创] 硬件百科全书之运算至上——中央处理器篇

本帖子中包含更多资源

评分

本帖子中包含更多资源

游戏之神~

足球

萝莉爱好者

3DMer

游戏天王~

[原创] 硬件百科全书之 运算至上——中央处理器篇

本帖子中包含更多资源

评分

本帖子中包含更多资源

游戏之神~

足球

萝莉爱好者

3DMer

游戏天王~

[原创] 硬件百科全书之运算至上——中央处理器篇