首先是Intel 975X芯片组在MCH方面的一些特点:

目前的975X主板都是4DIMM设计,可以最多安装4条双P-Bank的内存模组,一共是8个P-Bank,合32个页面。从上图中可以发现,当内存为双通道时,可打开的页面数为32个,但而结合DDR2最大L-Bank数为8计算,最大页面数应该为64才是,这很有可能只在单通道模式下才能实现,因为从875芯片组开始,INTEL自家芯片组组成的双通道在两条内存模组在控制器的眼中就是一条128bit 位宽的模组,由于寻址指令相同,所以两个通道内的相同P-Bank里内存芯片在同一时间的工作行相同,这样会使可打开的页面数减少,但页容量增加。
975X的MCH支持一种被称为Memory Pipeline Technology的内存优化技术,简称MPT。根据INTEL的说法,MPT可最大限度利用每个内存通道,加速处理器和系统内存的数据传输,使用独立的内部管线和仲裁机制。INTEL也没有给出这种MTP技术的详细资料,我们只能推测它跟955X、925X的内存优化技术一样是875芯片组的PAT技术的再三进化版本,通过额外的“优化路径”(某种程度上可以理解为一种MCH的超频技术),来减少CPU到MCH和MCH到DRAM之间的数据访问请求周期。
然后是新秀P965的MCH特性:

可以看到,P965与975X最大的不同就是可同时打开的页面数改为“每通道32个”
如果这“channel”意味着两个内存通道中的一个的话,那么P965可以同时控制的页面数将比975X高出一倍。
页面的多少与容量关系到内存控制器能力的发挥。比如交错控制,寻址冲突可以进一步减少,反过来,页面容量的提高,可以允许更长时间的背靠背式的寻址,这也对提高内存效率提供了帮助。关键就在于内存控制器怎么协调好页面数量与页面容量之间的关系。
跟975X类似,P965也支持一种独特的内存优化技术,INTEL为其命名为FMA(Fast Memory Access)。在INTEL公开的PDF上,对这个技术的介绍非常的模糊,只知道它包括以下几个方面:
Just In Time Command Scheduling -- 通过监视所有未允许访问的动作,允许安全、有效的重叠使用内存总线中的指令。
Out of Order Execution -- 监视系统内存未决请求,允许跳跃记录以更好的利用已打开的内存页面,以降低延迟和增加带宽。
Opportunistic Writes -- 监视系统请求,当内存空闲时发出未决请求,使内存数据流更有效率。
Clock Crossing Optimizations -- 确保数据以高效率进行传输,在两个频率域之间使数据在第一个可用的时钟相位中传输。
笔者猜测,其中第二和第三项可以算上文介绍的页面存储策略和交错预充电/寻址管理的强化版本,第一和第四项应该属于类似于975X的传输路径优化技术,其具体工作方式还得等INTEL解密更多资料才行。
P965的突发长度跟975X一样均为8,采用2T寻址模式。这样,在一次读/写操作中可以传输64字节的数据。这样MCH一共可以通过2个读指令,交叉执行2个启用/ 预加载 /刷新指令。而某些芯片组如nForce5 Intel Edition采用的是长度为4的突发串,和1T寻址,在同一时间内发出4个启用/ 预加载 /刷新指令。虽然在数据读取量方面两者相同,但这两种不同的设计具体比较起来是各有千秋。975/965能够用更少的指令完成相同的工作,减少了总线的负担,降低了延迟,但并发出更多的指令,可以采用功能更强大、更复杂的页式存储器管理策略,来缩短内存时延,提升系统整体性能。
PS:笔者在查看946PL MCH的资料后,发现它完全就是P965 MCH换了马甲的衍生产品,规格上跟P965几乎一模一样,不过只支持2个DIMM,
接下来是老将945P的MCH,相对后辈965系列,可以看到其参数明显要少,这说明其MCH的复杂程度不如后者,当然其中如页面管理树和page size等重要参数完全是Intel故意省略的。可能Intel觉得这款芯片组的卖点并不在于此吧。

最后是 VIA P4M890 ,虽然是 1 年前发布的相对老旧的平台,并且面向的是注重成本的系统整合用户,但它还是尽可能多的加入了一些高端芯片组上才有的内存加速功能。
P 4M 890 主要通过以下几个方面来改善内存控制器的效率:
1 、增强数据预取 (prefetch) 协议
2 、增加了内存分支预报和使用更大的片内分支表( branch table )
3 、采用严格的内存读到写 turn around (快速 read-to-write turn around )技术来改良时钟周期(所谓 Turn Around 是指“改良内存读 - 写周期”的一种方式。当内存控制器在一条读命令之后立即接着一条写命令时,当写命令在初始化之前会加入附加的时钟延迟。使用了内存读 / 写技术之后,可以取消这个附加时钟延迟,这样能够提高内存子系统的性能。当然这也需要内存模组支持才行)
