Xeon E5-2400(Sandy Bridge-EN)搭載システムのメモリ - 富士通

ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
ホワイトペーパー
FUJITSU PRIMERGY サーバ
XEON E5-2400(SANDY BRIDGE-EN)
搭載システムのメモリパフォーマンス
Xeon E5-2400(Sandy Bridge-EN)搭載の PRIMERGY 2 ソケットモデルは、2 つの世代のシステムで高い
性能を発揮する QPI(QuickPath Interconnect: QuickPath インターコネクト)メモリアーキテクチャーの
拡張により、パフォーマンスも飛躍的に向上しています。本書では、アーキテクチャーパラメーターの変更
について説明し、変更が商用アプリケーションのパフォーマンスに与える影響を数量化しています。
バージョン
1.1
2012-12-07
© Fujitsu Technology Solutions 2012
1/17 ページ
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
目次
ドキュメントの履歴 ........................................................................................................................................... 2
はじめに ............................................................................................................................................................. 3
メモリアーキテクチャー .................................................................................................................................... 4
DIMM スロット ............................................................................................................................................... 4
DIMM タイプ ................................................................................................................................................... 5
メモリ周波数の定義 ........................................................................................................................................ 6
BIOS パラメーター ......................................................................................................................................... 8
パフォーマンスを考慮したメモリ構成 .............................................................................................................. 9
パフォーマンスモード構成 ............................................................................................................................. 9
独立モード構成 ............................................................................................................................................. 10
対称型メモリ構成 ......................................................................................................................................... 11
メモリパフォーマンスに対する定量的影響 ..................................................................................................... 12
測定ツール .................................................................................................................................................... 12
メモリチャネルへのインターリーブ ............................................................................................................ 13
メモリ周波数 ................................................................................................................................................. 14
メモリランクへのインターリーブ ................................................................................................................ 14
リモートメモリへのアクセス ....................................................................................................................... 15
冗長性を考慮した際のメモリパフォーマンス .............................................................................................. 16
関連資料 ........................................................................................................................................................... 17
お問い合わせ先................................................................................................................................................. 17
ドキュメントの履歴
バージョン 1.0(2012 年 5 月 31 日)
初版
バージョン 1.1(2012 年 12 月 7 日)
メモリ周波数の定義の章での説明追加
2/17 ページ
© Fujitsu Technology Solutions 2012
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
はじめに
Intel Xeon E5-2600(Sandy Bridge-EP)プロセッサと Intel Xeon E5-2400(Sandy Bridge-EN)プロセッサ
が搭載された 2 ソケット PRIMERGY サーバの現行機種では、旧世代のサーバと比較してパフォーマンスが
Sandy Bridge-EP で 70%、Sandy Bridge-EN で 40%向上しています。機種による差異は、Sandy Bridge-EP
がパフォーマンス向上を設計目標としているのに対し、Sandy Bridge-EN がコスト効率を設計目標としてい
るためです。いずれの場合も、こうしたパフォーマンスの向上は、プロセッサあたり最大 8 つのコアを搭載
した新しいマイクロアーキテクチャー、メモリシステムの向上、オンチップ PCIe を介した新しい I/O 接続
によるものです。Xeon 5600(Westmere-EP)を搭載した先行世代の 32-nm(ナノメートル)製造プロセス
が採用されています。
先行 2 世代のメモリアーキテクチャーで実証済みの主要機能は、Sandy Bridge-EP と Sandy Bridge-EN の
両方でも維持されています。プロセッサには、オンチップメモリコントローラが搭載されており、各プロセ
ッサはそれぞれに割り当てられているメモリモジュールのグループを制御します。このローカルメモリアク
セスのパフォーマンスは、非常に優れています 。このプロセッサは、片方向シリアル QPI(QuickPath
Interconnect:QuickPath インターコネクト)リンク経由でメモリの内容を隣接プロセッサに提供し、同時
に隣接プロセッサにメモリの内容を要求します。リモートアクセスのパフォーマンスは、さほど高くありま
せん。ローカルメモリとリモートメモリのアクセスを区別するこのアーキテクチャーは、 NUMA(NonUniform Memory Access:非均等型メモリアクセス)タイプのアーキテクチャーです。
プロセッサの演算処理パフォーマンスの向上に対応するために、メモリアーキテクチャーのパラメーターが
調整されています。Sandy Bridge-EP と Sandy Bridge-EN の違いは、この調整の大きさに最もよく表れて
います。本書で説明する Sandy Bridge-EN 搭載のサーバクラスの場合、最大メモリ周波数が 1333 MHz か
ら 1600 MHz に引き上げられ、最大 QPI 周波数が 6.4 GT/s から 8.0 GT/s(ギガトランスファー/秒)に向上
しています。その結果、最も基本的なメモリパフォーマンスの指標であるメモリ帯域幅が、デュアルソケッ
トサーバで 40 GB/s から 60 GB/s に向上しました。Sandy Bridge-EP 搭載のシステムの場合、以前はプロ
セッサごとに 3 つだったメモリチャネルが 4 つになっています。プロセッサ間の QPI リンクは、以前 1 つ
でしたが、現在は 2 つになっています。このような改善が加えられた結果、メモリ帯域幅はさらに約 80
GB/s まで拡大しています。
可能な限り強力なシステムを構成するためには、メモリアーキテクチャーに関する基本的な知識が必要です。
このホワイトペーパーでは Sandy Bridge-EN 搭載のシステムについて、この基本情報を提供します。ここ
では、次の点を取り上げます。

NUMA アーキテクチャーであるため、両プロセッサのメモリを可能な限り同等の構成にする必要が
あります。これは、両プロセッサが原則としてそれぞれのローカルメモリ上で動作するためです。

メモリアクセスを並列化し、さらに高速化するために、物理アドレス空間の隣接する領域をメモリ
システムの複数のコンポーネントに分散させます。これは技術用語で インターリーブと呼ばれます。
インターリーブは 2 つの次元で行われます。まず、プロセッサあたり 3 つのメモリチャネルが横方
向に存在します。各プロセッサ上の PRIMERGY コンフィギュレータを同じタイプの 3 枚 1 組の
DIMM(Dual Inline Memory Module:デュアルインラインメモリモジュール)による「パフォーマ
ンスモード」構成にすることで、この方向への最適なインターリーブを実現しています。また、
個々のメモリチャネルの中でもインターリーブを実現しています。このための決定的なメモリリソ
ースが、いわゆるランク数です。ランク数は、DIMM の下位構造で、ここに DRAM(Dynamic
Random Access Memory:ダイナミックランダムアクセスメモリ)チップのグループが統合されて
います。個々のメモリアクセスでは、常にこのようなグループを参照します。

パフォーマンスに影響を与えるメモリ周波数は、プロセッサのタイプ、DIMM のタイプと数によっ
て、1600 MHz、1333 MHz、1066 MHz があります。また、消費電力を削減するために BIOS 設定
によって周波数を下げることもできます。メモリ容量が非常に大きい場合、メモリモジュールを 低
電圧、低消費電力モードに設定すると、メモリ周波数が制限されます。そのため、パフォーマンス、
容量、消費電力の 3 点を相互に調整する必要があります。
このホワイトペーパーで は、影響を与える要因を取り合げ、数量化しています。数量化には、STREAM と
SPECint_rate_base2006 の ベ ン チ マ ー ク を 使 用 し ま す 。 STREAM で メ モ リ 帯 域 幅 を 測 定 し ま す 。
SPECint_rate_base2006 は、商用アプリケーションのパフォーマンスのモデルとして使用されます。
測定結果では、プロセッサのパフォーマンスごとの影響をパーセンテージで示します。構成プロセッサモデ
ルが強力であるほど、本書で取り上げているメモリ構成の問題について十分に考慮する必要があります。
© Fujitsu Technology Solutions 2012
3/17 ページ
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
ミラーリングやランクスペアリングなど、冗長性を考慮する場合のメモリパフォーマンスについては、本書
の最後にまとめています。
メモリアーキテクチャー
ここでは、4 部構成でメモリシステムの概要を説明します。まずブロック図で、利用可能な DIMM スロット
の配置を説明します。2 つ目のセクションでは、使用可能な DIMM タイプを示します。続く 3 つ目のセクシ
ョンでは、有効なメモリ周波数への影響について説明します。最後のセクションでは、メモリシステムに影
響を与える BIOS パラメーターについて説明します。
DIMM スロット
次の図は、メモリシステムの構造を示します。すべての Xeon E5-2400 搭載の PRIMERGY サーバには、プ
ロセッサあたり 6 本の DIMM スロットがあります。
1 つのプロセッサには、常に 3 つのメモリチャネルが存在します。往々にして、メモリチャネルあたりの
DIMM の数に言及することがあります。この値は、DPC(DIMMs per channel:チャネルあたりの DIMM 数)
と呼ばれます。
以降では、「メモリバンク」という用語も使用します。図では、複数のチャネルに分配されている 3 つの
DIMM のグループが、1 つのバンクを形成しています。図中の色(黒と青)は、サーバのメインボード上で、
構成エラーを防ぐためにバンクに付けられたカラーマークに対応します。プロセッサあたりの利用可能なス
ロット経由で DIMM を分配する場合、バンク 1 から順に割り当てることにより、チャネル全体で最適なイ
ンターリーブが得られます。インターリーブは、メモリパフォーマンスに影響を与える主要な要因です。
DIMM スロットを使用するためには、対応するプロセッサを搭載する必要があります。1 基のプロセッサの
みで運用する場合、空のソケットに割り当てられた DIMM スロットは使用できません。
DMI2 connectivity to
Intel C600 series chipset
GT/s = Gigatransfers per second
GB/s = Gigabytes per second
CPU 1
DDR3 memory channel with up to 3DPC
1600 or 1333 or 1066 or 800 MHz
12.8 or 10.6 or 8.5 or 6.4 GB/s (half duplex)
depending on CPU and DIMM type,
DPC value and BIOS setting
Bank 2
max frequency 1600 MHz
PCIe GEN3 connectivity
up to 24 lanes per CPU
allocation depending on server model
PCIe GEN3 connectivity
up to 24 lanes per CPU
allocation depending on
server model
Bidirectional QPI link:
8.0 or 7.2 or 6.4 GT/s
16.0 or 14.4 or 12.8 GB/s (full duplex)
depending on CPU model
Memory Controller
CPU 2
Memory Controller
DIMM 2A
DIMM 2B
DIMM 2C
DIMM 2D
DIMM 2E
DIMM 2F
DIMM 1A
DIMM 1B
DIMM 1C
DIMM 1D
DIMM 1E
DIMM 1F
Channel C
Channel D
Bank 1
max frequency 1600 MHz
Channel A
4/17 ページ
Channel B
Channel E
Channel F
© Fujitsu Technology Solutions 2012
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
DIMM タイプ
メ モ リ 構 成 に あ た っ て は 、 次 の 表 に 示 す DIMM タ イ プ が 考 慮 さ れ ま す 。 DIMM に は 、 unbuffered
(UDIMM)、registered(RDIMM)、load-reduced(LRDIMM)があります。この 3 つの DIMM タイプを
組み合わせた構成はできません。
UDIMM は構造がシンプルなため、最大容量は RDIMM より小さいです。設計をシンプルにすることで、価
格と消費電力の点でわずかなメリットが得られます。
RDIMM では、メモリコントローラーの制御コマンドが、DIMM 上の独自のコンポーネントにあるレジスタ
ー内でバッファーされます(これが名前の由来です)。これによりメモリチャネルが解放され、多くの構成
において、UDIMM を使用した場合よりも高いメモリ周波数が可能になります。これについては、次のセク
ションで説明します。
どの DIMM タイプでも、データは 64 ビット単位で転送されます。これが、DDR3-SDRAM メモリテクノロ
ジーの特徴です。64 ビットの帯域幅のメモリ領域は、DRAM チップのグループから DIMM 上に設定されま
す。この個々のチップが 4 ビットまたは 8 ビットを受け持ちます。このようなチップグループをランクと
呼びます。表に示すように、1 ランク、2 ランク、または 4 ランクの DIMM タイプがあります。メモリチャ
ネルあたりの利用可能なランク数は、パフォーマンスに一定の影響を及ぼします。これについては後述しま
す。
新しく導入された LRDIMM が実現する大容量は、4 ランク DIMM のメリットです。LRDIMM では、制御コ
マンドとは別に、データ自体も DIMM 上のコンポーネントにバッファーされます。これにともなってメモ
リチャネルが解放され、1DPC 構成および 2DPC 構成において 1333 MHz のメモリ周波数での動作が可能
になります。前世代において、大容量 4 ランク RDIMM の動作周波数は、1DPC で 1066 MHz、2DPC で
800 MHz に制限されていました。また、LRDIMM の特長である多重ランク機能は、Sandy Bridge-EP 搭載
の PRIMERGY サーバでしか動作しません。これは、3DPC 構成が Sandy Bridge-EP 搭載のシステムでしか
実現できないからです。メモリチャネルあたり最大 8 ランクの制限により、本来 4 ランク DIMM では、
3DPC 構成ができません。実際には、このケースでは、多重ランク機能によって 12 の物理ランクを 6 つの
仮想ランクにマップすることで、この制限を回避できます。
制御
最大
周波数
(MHz)
電圧
ラン
ク数
容量
GB
あた
りの
相対
価格
2GB 1Rx8 PC3L-12800E
2GB(1x2GB)1Rx8 L DDR3-1600 U ECC
unbuffered
1600
1.5/1.35
1
2 GB
1.0
4GB 2Rx8 PC3L-12800E
4GB(1x4GB)2Rx8 L DDR3-1600 U ECC
unbuffered
1600
1.5/1.35
2
4 GB
0.8
4GB 1Rx4 PC3L-10600R
4GB(1x4GB)1Rx4 L DDR3-1333 R ECC
registered
1333
1.5/1.35
1
4 GB
1.1
4GB 1Rx4 PC3L-12800R
4GB(1x4GB)1Rx4 L DDR3-1600 R ECC
registered
1600
1.5/1.35
1
4 GB
1.2
4GB 2Rx8 PC3L-12800R
4GB(1x4GB)2Rx8 L DDR3-1600 R ECC
registered
1600
1.5/1.35
2
4 GB
1.2
8GB 2Rx4 PC3L-10600R
8GB(1x8GB)2Rx4 L DDR3-1333 R ECC
registered
1333
1.5/1.35
2
8 GB
0.9
8GB 2Rx4 PC3L-12800R
8GB(1x8GB)2Rx4 L DDR3-1600 R ECC
registered
1600
1.5/1.35
2
8 GB
1.0
16GB 2Rx4 PC3L-12800R
16GB(1x16GB)2Rx4 L DDR3-1600 R ECC
registered
1600
1.5/1.35
2
16 GB
1.2
16GB 4Rx4 PC3L-10600L
16GB(1x16GB)4Rx4 L DDR3-1333 LR ECC
load reduced
1333
1.5/1.35
4
16 GB
1.4
32GB 4Rx4 PC3L-10600L
32GB(1x32GB)4Rx4 L DDR3-1333 LR ECC
load reduced
1333
1.5/1.35
4
32 GB
4.5
DIMM タイプ
(JEDEC/SystemArchitect)
© Fujitsu Technology Solutions 2012
5/17 ページ
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
UDIMM、RDIMM、LRDIMM のタイプ選択は、通常、必要なメモリ容量によって決まります。周波数とラン
ク数のパフォーマンスへの影響は、3 タイプどれも同じです。こうした影響は、タイプとは関係がありませ
ん。タイプごとにパフォーマンスに影響が出ることもありますが、非常に小さいため、多くの場合は無視で
きます。タイプごとの影響として、ここで例を 2 つ挙げておきます。ただし、大きな影響ではないため、シ
ステムによる定量的評価には表れません。

UDIMM、RDIMM、LRDIMM と DIMM タイプが複雑になるにしたがい、DIMM 上に追加されたコン
ポーネントに起因して、アクセス遅延が数ナノ秒ほど増加します。

UDIMM の場合、メモリチャネルの負荷が高くなるにつれ、いわゆる 2N 周波数での 2DPC 構成が
必要になります。DIMM に対するアドレスコマンドは、メモリチャネルのすべての 2 次クロックで
のみ可能であるためです。これにより、最大メモリ帯域幅が数パーセント減少します。しかし、ア
プリケーションのパフォーマンスに対する影響は、ほとんどありません。
現行のすべての DIMM タイプは、1.5 V または低消費電力の 1.35 V で動作します。ただし、1.35 V での動
作は、メモリ周波数、さらにはメモリパフォーマンスの低下につながる可能性があります。次のセクション
では、メモリ周波数について取り上げ、こうした相互関係にスポットを当てます。
特定の構成の有効な周波数は、一連の影響に左右されます。DIMM タイプの表内の最大周波数は、こうした
有効な周波数の上限を表しているにすぎません。
表の最終列は、各 DIMM の価格を相対比で示しています 。各 DIMM の価格は、2012 年 5 月現在の
PRIMERGY BX920 S3 の料金表を使用しています。ここでは 8 GB の Registered PC3L-12800 DIMM を基
準とし(1 として強調表示)、GB あたりの価格比を示します。DDR3-SDRAM メモリの導入以降、相対価
格の状況は絶えず変化しています。現時点では、1333 MHz に限定した UDIMM および RDIMM の価格は、
幾分低下しています。新しい LRDIMM は、高価です。
PRIMERGY モデルによっては、一部の DIMM タイプを利用できない場合があります。常に最新のコンフィ
ギュレータを参照してください。また、販売地域によっても、利用できない DIMM タイプがあります。
メモリ周波数の定義
メモリの周波数には、1600、1333、1066 または 800 MHz の 4 種類があります。システムに電源が入ると、
周波数が BIOS によって定義され、プロセッサごとではなくシステムごとに適用されます。まず、定義上、
構成プロセッサモデルが非常に重要になります。Xeon E5-2400 モデルは 3 つのクラスに分かれ、メモリ周
波数の上限は次の表のようになります。
最大周波数
(MHz)
QPI(GT/s)
Advanced
1600
8.0
E5-2470、E5-2450、E5-2450L
Standard
1333
7.2
E5-2440、E5-2430、E5-2420、E5-2430L
Basic
1066
6.4
E5-2407、E5-2403
CPU タイプ
6/17 ページ
Xeon E5-2400 プロセッサモデル
© Fujitsu Technology Solutions 2012
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
DIMM タイプおよびメモリ構成の DPC 値によっても、周波数が制限されます。プロセッサタイプ、DIMM
タイプ、および DPC 値はメモリ周波数に大きな影響を及ぼします。これを BIOS で無効にすることはでき
ません。ただし、BIOS パラメーター「DDR Performance」により、パフォーマンスと消費電力を調整する
ことはできます。パフォーマンスを選択した場合、有効なメモリ周波数は次の表のようになります。
DDR Performance = Performance optimized(デフォルト設定)
灰色セル:1.5V – 無色セル:1.35V
UDIMM 1600 MHz
CPU
タイプ
1DPC
2DPC
3DPC
該当
せず
該当
Standard
1333
1333
せず
該当
Basic
1066
1066
せず
1
1600 MHz(特別リリースの場合)
Advanced
1333
1
1333
RDIMM 1600 MHz
1DPC
2DPC
1600
1600
1333
1333
1066
1066
3DPC
該当
せず
該当
せず
該当
せず
RDIMM 1333 MHz
1DPC
2DPC
1333
1333
1333
1333
1066
1066
3DPC
該当
せず
該当
せず
該当
せず
LRDIMM 1333 MHz
1DPC
2DPC
1333
1333
1333
1333
1066
1066
3DPC
該当
せず
該当
せず
該当
せず
次の表は、低消費電力、1.35 V の低電圧での動作を優先する場合に有効です。
DDR Performance = Low-voltage optimized(1.35 V)
UDIMM 1600 MHz
CPU
タイプ
1DPC
2DPC
3DPC
該当
せず
該当
Standard
1066
1066
せず
該当
Basic
1066
1066
せず
1
1333 MHz(特別リリースの場合)
Advanced
1066
1
1066
RDIMM 1600 MHz
1DPC
2DPC
1333
1333
1333
1333
1066
1066
3DPC
該当
せず
該当
せず
該当
せず
RDIMM 1333 MHz
1DPC
2DPC
1333
1333
1333
1333
1066
1066
3DPC
該当
せず
該当
せず
該当
せず
LRDIMM 1333 MHz
1DPC
2DPC
1066
1066
1066
1066
1066
1066
3DPC
該当
せず
該当
せず
該当
せず
メモリパフォーマンスは、次の 3 つ目の構成で最も低くなります。
DDR Performance = Energy optimized(1.35 V)
UDIMM 1600 MHz
CPU
タイプ
1DPC
2DPC
Advanced
800
800
Standard
800
800
Basic
800
800
3DPC
該当
せず
該当
せず
該当
せず
RDIMM 1600 MHz
1DPC
2DPC
800
800
800
800
800
800
3DPC
該当
せず
該当
せず
該当
せず
RDIMM 1333 MHz
1DPC
2DPC
800
800
800
800
800
800
3DPC
該当
せず
該当
せず
該当
せず
LRDIMM 1333 MHz
1DPC
2DPC
800
800
800
800
800
800
3DPC
該当
せず
該当
せず
該当
せず
機能の説明は、その多くがメモリ周波数に関連しています。アプリケーションパフォーマンスに対するメモ
リ速度の影響に関する数値を後で示します。その後に、この結果について説明します。多くの実アプリケー
ションにおいては、Low-voltage の設定が、最も効果的です。Performance optimized の設定で実現可能なパ
フォーマンスの向上は 1~2 %であり、慎重に測定しないと検証できないほどわずかであるためです。低電
圧での動作は、低消費電力という点で決定的要因であり、メモリ周波数もそれほど低下しません。そのため、
Energy optimized の設定はそれほど魅力的ではありません。メモリパフォーマンスが確実に低下する一方で、
1.35 V での動作による消費電力の削減に加えてさらに消費電力を削減できるかどうかが確実ではないからで
す。
© Fujitsu Technology Solutions 2012
7/17 ページ
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
BIOS パラメーター
BIOS の[Advanced / Memory]に、次の 4 つのパラメーターを使用したメモリ構成に関するサブメニュー
があります。

Memory Mode:Independent / Mirroring / Sparing

NUMA:enabled / disabled

DDR Performance:Low-voltage optimized / Energy optimized / Performance optimized

Patrol Scrub:enabled / disabled
4 つ目のパラメーターは、RAS(Reliability, Availability and Serviceability:信頼性、可用性およびサービス
可能性)機能の重要な一部であり、修正可能なメモリエラーの修復に使用されます。デフォルト設定は、
[enabled]です。
3 つ目のパラメーター DDR Performance については、すでに前のセクションで詳しく説明しました。
物理アドレス空間をローカルメモリのセグメントから構築するか、またオペレーティングシステムに構造を
通知するかを NUMA パラメーターで定義します。デフォルト設定は[enabled]で、明確な理由がない限り
変更しないでください。
1 つ目のパラメーターは、冗長性機能に関連しています。SystemArchitect で構成中にこれらの機能が要求
された場合、工場で適切なデフォルト設定が行われます。それ以外の場合、パラメーターは[independent]
(冗長性なし)に設定されます。これらの機能がシステムパフォーマンスに与える影響に関する数値を後で
示します。冗長性を考慮する場合のパフォーマンスと、最大限の実質メモリ容量に対する冗長性の効果は、
Xeon 5600 搭載の旧システムと比較して大幅に向上しました。
8/17 ページ
© Fujitsu Technology Solutions 2012
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
パフォーマンスを考慮したメモリ構成
ここで説明する 3 つのメモリ構成は、PRIMERGY コンフィギュレータの用語に基づいています。1 つ目の
構成は、理想的な方法でメモリシステムのトポロジーを利用し、最高のメモリパフォーマンスを提供する場
合に適用します。コンフィギュレータは、これをパフォーマンスモード構成として参照します。
パフォーマンスモード構成
このモードでの構成は、同タイプの 3 枚 1 組の DIMM によるバンク単位で構成されており、プロセッサの
3 つのメモリチャネルがすべて同等に扱われます。メモリアクセスは、メモリシステムのこれらのリソース
に均等に分散されます。技術的に言えば、メモリチャネル経由で最適な 3-WAY インターリーブが実現しま
す。
さらに 2-WAY サーバの両プロセッサが同一の構成になっているということを前提とすると、パフォーマン
スモードには次の表のように 11 の異なるメモリ容量が存在することになります。2-WAY サーバの場合、こ
れらの容量で 12~384 GB に対応します。同時に、Xeon E5-2400 搭載システムの最大メモリ容量は、384
GB です。
次の表は容量に関してはすべて網羅していますが、適合する DIMM タイプをすべて記載しているわけでは
ありません。例えば、コスト面で不利なオプションは省略しています。
1 CPU
システム
2 CPU
システム
6 GB
12 GB
12 GB
24 GB
18 GB
36 GB
24 GB
48 GB
36 GB
DIMM
タイプ
DIMM
容量 GB
バンク 1
DIMM
容量 GB
バンク 2
DPC 値
最大 MHz
Performance
optimized
最大 MHz
Low-voltage
optimized
UDIMM
2
1
1600
1333
UDIMM
4
1
1600
1333
RDIMM
4
1
1600
1333
UDIMM
4
2
2
1333
1066
UDIMM
4
4
2
1333
1066
RDIMM
8
1
1600
1333
72 GB
RDIMM
8
4
2
1600
1333
48 GB
96 GB
RDIMM
8
8
2
1600
1333
60 GB
120 GB
RDIMM
16
4
2
1600
1333
72 GB
144 GB
RDIMM
16
8
2
1600
1333
96 GB
192 GB
RDIMM
16
16
2
1600
1333
144 GB
288 GB
LRDIMM
32
16
2
1333
1066
192 GB
384 GB
LRDIMM
32
32
2
1333
1066
次の図は、メモリ容量、消費電力、メモリ性能の関係をメモリ周波数の観点で比較したものです。この図か
ら、容量と低消費電力のために、パフォーマンスがある程度犠牲になることがわかります。ただし、メモリ
周波数は、構成するプロセッサのタイプによって左右されることも忘れないでください。
© Fujitsu Technology Solutions 2012
9/17 ページ
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
DDR Performance: Performance optimized
バージョン:1.1  2012-12-07
DDR Performance: Low-voltage optimized
Maximum Memory Speed (MHz)
1.600
1.333
1.066
800
12
24
36
48
72
96
120
144
192
288
384
Performance Mode Memory Capacities 2-way EN Server (GB)
独立モード構成
これには、パフォーマンスモード構成や冗長構成に含まれない構成がすべて含まれます。UDIMM、RDIMM、
および LRDIMM を混在させることができないというルールを除けば、他に制限はありません。
Sandy Bridge-EN 搭載の PRIMERGY サーバの場合、従来からの 2 のべき乗(8、16、32、64 GB など)の
メモリサイズに特に注意する必要があります。これらのサイズは、上で説明した理想的なパフォーマンスモ
ード構成ではなく、独立モード構成で扱われます。しかし、Sandy Bridge-EP 搭載のシステムの場合はこれ
とは異なります。このシステムではプロセッサあたりのメモリチャネルが(3 つではなく)4 つなので、従
来のメモリサイズもパフォーマンスモードで扱われます。
次の表では、Sandy Bridge-EN 搭載のサーバで、従来のサイズがどのように実現されるかを示します。表で
は、プロセッサごとの各場合について、簡略表記を使用して構成を記述しています。例えば、2-1-1 という
表記は、1 つ目のメモリチャネルに 2 つの DIMM、2 つ目と 3 つ目に それぞれ DIMM が 1 つずつ装着され
ることを示します。すべての構成が、理想的な 3-WAY インターリーブにメモリチャネル全体で対応してい
るわけではないため、一定のパフォーマンスの低下が生じます。このパフォーマンスの低下については、
「メモリチャネルへのインターリーブ」のセクションで詳細に説明しています。この表に記載されている構
成はすべて、2-WAY インターリーブに該当し、パフォーマンスモード構成と比較すると、商用アプリケー
ションにおいて、構成されたプロセッサモデルに応じて、性能が 3~5 %低下します。
10/17 ページ
© Fujitsu Technology Solutions 2012
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
DIMM
容量 GB
CPU あたり
の容量
DPC 値
最大 MHz
Performance
optimized
最大 MHz
Low-voltage
optimized
UDIMM
2
1-1-0
1
1600
1333
UDIMM
4
1-1-0
1
1600
1333
RDIMM
4
1-1-0
1
1600
1333
32 GB
RDIMM
8
1-1-0
1
1600
1333
32 GB
64 GB
RDIMM
8
2-1-1
2
1600
1333
64 GB
128 GB
RDIMM
16
2-1-1
2
1600
1333
128 GB
256 GB
LRDIMM
32
2-1-1
2
1333
1066
1 CPU
システム
2 CPU
システム
4 GB
8 GB
8 GB
16 GB
16 GB
DIMM
タイプ
従来のメモリ容量を実現する以外にも、消費電力を削減するために、独立モード構成(特に、1-1-0 タイプ)
を採用することは妥当と言えます。低消費電力は、単に 1.35 V での動作や特定のメモリ構成の周波数の低
減だけでなく、DIMM 数を最小限に抑えることでも実現します。1-1-0 構成は、パフォーマンスと消費電力
に関してバランスの取れた結果が得られる可能性があります。しかし、1-0-0 構成は、十分なパフォーマン
スが得られないため推奨されません。
対称型メモリ構成
最後のこのセクションでは、両プロセッサのメモリを可能な限り同等に構成すべきであり、BIOS の NUMA
= enabled のデフォルト設定を確たる理由なく変更するべきではない 2-WAY サーバに再度焦点を当てます。
このように考慮されるのは、QPI ベースのマイクロアーキテクチャーを実装したシステムのみです。
工場でのプレインストールでは、このような状況が当然考慮されています。指定されたメモリモジュールは、
両プロセッサに可能な限り均等に分散されます。
こうした手法と、オペレーティングシステムの機能によって、ローカルのハイパフォーマンスメモリで可能
な限りアプリケーションを実行する前提条件が整備されます。プロセッサコアのメモリアクセスは、通常、
各プロセッサに直接割り当てられた DIMM モジュールに対して行われます。これにどのようなパフォーマ
ンス上のメリットがあるのかを見積もるため、メモリが対称型に構成されているものの、BIOS オプション
が NUMA = disabled に設定されている場合の測定結果を「リモートメモリへのアクセス」のセクションに
示します。統計上、リモートメモリへのメモリアクセスが、絶え間なく発生することになります。アプリケ
ーションが 100 %リモートメモリによって実行される非対称型メモリ構成、または片側メモリ構成では、パ
フォーマンス低下を 50 %/50 %の場合の 2 倍として見積もる必要があります。
© Fujitsu Technology Solutions 2012
11/17 ページ
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
メモリパフォーマンスに対する定量的影響
メモリシステムの機能とその定性的情報を説明した後は、メモリ構成に関係するパフォーマンスの向上と低
下について説明します。その準備として、最初のセクションでは、メモリパフォーマンスの特徴を表すため
の使用する 2 つのベンチマークについて説明します。
その後、すでに説明した特徴であるメモリチャネルのインターリーブ、メモリ周波数、およびランクのイン
ターリーブについて、その影響の大きさの順に説明します。最後に、NUMA = disabled で、冗長性を考慮す
る場合のメモリパフォーマンスについて測定します。
定量的テストは、プロセッサクラスの Advanced、Standard、Basic のそれぞれに対して個別に実施しまし
た。測定は PRIMERGY BX920 S3 上で行いました。プロセッサクラス Advanced には Xeon E5-2470 プロ
セッサを、Standard には Xeon E5-2440 を、Basic には Xeon E5-2407 を、それぞれ使用しました。
このテストから得られた 1 つの重要な結果を、最初に明らかにしておきましょう。使用するプロセッサモデ
ルが強力であるほど、パフォーマンスへの影響が顕著になり、構成の詳細をより慎重に検討する必要があり
ます。Advanced クラスの最も強力で高価なプロセッサについて不可欠な考慮事項も、Basic クラスについ
ては、多くの場合無視できます。
測定ツール
測定は、STREAM および SPECint_rate_base2006 ベンチマークを使用して行いました。
STREAM ベンチマーク
STREAM ベンチマーク(開発者:John McCalpin 氏)[関連資料 3] は、メモリのスループットを測定するツ
ールです。このベンチマークは、double 型データの大規模な配列でコピーおよび算術演算を実行して、
Copy、Scale、Add、Triad の 4 種類のアクセスの結果を提供します。Copy 以外のアクセスタイプには、算
術演算が含まれています。結果は、常に GB/s 単位のスループットで示されます。一般に、Triad の値が最
もよく引用されます。以降、STREAM のベンチマークの測定値は、Triad アクセスでの値であり、単位は
GB/s です。
STREAM は、サーバのメモリ帯域幅を測定するための業界標準で、シンプルな方法を使用してメモリシス
テムに大規模な負荷を与えることができます。特にこのベンチマークは、複雑な構成でのメモリパフォーマ
ンスに対する影響を調査する場合に適しています。STREAM は、構成によるメモリへの影響とそれによっ
て生じるパフォーマンスへの影響(低下または向上)を示します。後述する STREAM ベンチマークに関す
る値は、パフォーマンスへの影響度を示しています。
アプリケーションのパフォーマンスに対するメモリの影響は、各アクセスの遅延時間とアプリケーションが
必要とする帯域幅に区別されます。メモリ帯域幅が増加すると遅延時間は増加するため、両者は関連してい
ます。並列メモリアクセスによって遅延時間が相殺される度合いは、アプリケーションや、コンパイラーに
よって作成されたマシンコードの質にも依存します。このため、すべてのアプリケーションシナリオでの全
般的な予測を立てることは非常に困難です。
SPECint_rate_base2006
SPECint_rate_base2006 ベンチマークは、商用アプリケーションパフォーマンスのモデルとして追加され
ました。これは、Standard Performance Evaluation Corporation(SPEC)の SPECcpu2006 [関連資料 4]
の一部です。SPECcpu2006 は、システムのプロセッサ、メモリおよびコンパイラーを評価するための業界
標準です。大量の測定結果が公開され、販売プロジェクトおよび技術調査に使用されているため、サーバ分
野で最も重要なベンチマークとなっています。
SPECcpu2006 は、大量の整数演算および浮動小数点演算を使用する独立した 2 つのテストセットで構成さ
れています。整数演算部分は商用アプリケーションに相当し、12 種類のベンチマークから構成されます。
浮動小数点演算部分は科学アプリケーションに相当し、17 種類のベンチマークで構成されます。いずれの
場合も、ベンチマークの実行結果は、個々の結果の幾何平均です。
さらに、それぞれのテストセットには、単体実行時の処理性能を評価する 速度測定と、並行処理の性能を評
価するスループット測定があります。多数のプロセッサコアとハードウェアスレッドを持つサーバにとって
は、後者が重要です。
12/17 ページ
© Fujitsu Technology Solutions 2012
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
また、測定の種類により、コンパイラーに許可される最適化が異なります。 ピーク値の測定では、各ベンチ
マークを個別に最適化できますが、ベース値の測定では、コンパイラーフラグがすべてのベンチマークで同
一である必要があり、特定の最適化は許可されません。
以上が SPECint_rate_base2006 の概要です。PRIMERGY サーバでは商用アプリケーションの使用が主流で
あるため、整数演算を使用するテストセットである SPECint_rate_base2006 でスループットを測定しまし
た。
本来のルールに準拠した測定では 3 回の実行が必要であり、各ベンチマークに対して平均の結果が評価され
ます。しかし、ここで説明している技術調査では、このルールに準拠していません。効率化のために、測定
は 1 回にしています。
メモリチャネルへのインターリーブ
メモリチャネルへのインターリーブとは、最初の 64 バイト(キャッシュラインサイズと呼ばれるプロセッ
サの観点でのメモリアクセスの単位)は最初のチャネルに、2 番目の 64 バイトは 2 番目のチャネルにとい
うように、プロセッサ単位で 3 つのチャネルを交互に利用するように物理アドレス領域を設定する方法です。
メモリアクセスは、局所性原理により主に隣接するメモリ領域に行われ、結果としてすべてのチャネルに分
散されます。このようなパフォーマンスの向上は、並列化によるものです。
次の表は、パフォーマンスモードでのメモリ構成によって実現される理想的な 3-WAY インターリーブを行
わない場合のパフォーマンスの低下を示しています。この表では、すでに取り上げた、プロセッサが強力に
なるほどパフォーマンスへの影響(SPECint_rate_base2006 の結果を参照)が顕著になるという事実が明
確に示されています。
2-WAY インターリーブのパフォーマンスの低下が穏やかなのは、それなりの理由があります。必要となる
メモリ容量が少ないか、または低消費電力のために DIMM 数が最小限に抑えられるためです。1-WAY イン
ターリーブは推奨できません。これは厳密に言うとインターリーブではなく、分類上そのように呼ばれてい
るだけです。この場合、プロセッサとメモリシステムの潜在的なパフォーマンスのバランスが取れていませ
ん。
SPECint_rate_base2006 に関する評価は、商用アプリケーションのパフォーマンスに関するものです 。
STREAM で示されているように、メモリ帯域幅の関係は、特に HPC(High-Performance Computing:高性
能コンピューティング)環境では、特定のアプリケーション領域において除外できない極端なケースとして
理 解 す る 必 要 が あ り ま す 。 ま た 、 SPECint_rate_base2006 の 12 の 個 別 ベ ン チ マ ー ク の 中 の 1 つ
(libquantum)に、STREAM とほぼ同様の動作があります。ただしこうした動作は、ほとんどの商用のワ
ークロードでは見られません。このような STREAM および SPECint_rate_base2006 に関する解釈の特徴
は、このセクションで取り上げているパフォーマンス面だけでなく、以降のすべてのセクションにも当ては
まります。
ベンチマーク
STREAM
SPECint_rate_base2006
プロセッサタイプ
3-way
2-way
1-way
Advanced
1.00
0.76
0.38
Standard
1.00
0.74
0.38
Basic
1.00
0.71
0.36
Advanced
1.00
0.95
0.78
Standard
1.00
0.95
0.80
Basic
1.00
0.97
0.87
独立モードのメモリ構成の場合、各メモリチャネルで部分的に利用可能な容量(チャネルあたりの GB)に
違いがあります。ここに挙げている例は、異なるサイズの DIMM による構成または同サイズの 4 つ以上の
DIMM による構成です。この場合、メモリチャネルの切り替えによる、プロセッサローカルな単一のアドレ
ス空間セグメントの構成はできません。切り替えは常に「均等に」行われる必要があります。この問題は、
物理アドレス空間をインターリーブの異なるいくつかのセグメントに分割することで解決されます。その際、
アプリケーションのメモリパフォーマンスは、アプリケーションにメモリが提供されるセグメントによって
異なる可能性があります。
© Fujitsu Technology Solutions 2012
13/17 ページ
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
性能を重視するアプリケーションの場合、この現象は、メモリチャネルあたりの異なる部分容量を回避する
理由になり得ます。
メモリ周波数
メモリの実効周波数への影響は、これまでのセクションで詳しく説明しています。低電力と大容量メモリが
原因となって、実効周波数が、プロセッサタイプや DIMM タイプによってサポートされるレベルより低く
なる場合があります。
次の表は、相互の影響を調整する際に役立ちます。この表の数値は、プロセッサタイプで可能な最大メモリ
周波数を想定して正規化されています。
BIOS の設定が DDR Performance = Energy optimized に変更された場合のみ、800 MHz の周波数になりま
す。ただし、DDR Performance = Low-voltage optimized よりもさらに消費電力を削減できる可能性は非常
に低くなっています。そのため、800 MHz のメモリ周波数はお勧めできません。Low-voltage optimized に
設定すると、メモリ周波数が 1333 または 1066 MHz になります。
メモリ周波数の低下がメモリ容量に関係している場合、万全を期すために 1 つの問題について説明する必要
があります。例えば、I/O 速度など、メモリ容量はアプリケーションのパフォーマンスに対して暗黙の影響
を及ぼします。こういった影響は、当然ながらこのセクションで基にしているテストでは考慮していません。
以下の比較表では、メモリ周波数の違いだけがパフォーマンスに影響を及ぼしています。
ベンチマーク
プロセッサタイプ
Advanced
STREAM
1600 MHz
1333 MHz
1066 MHz
800 MHz
1.00
0.92
0.77
0.57
1.00
0.88
0.66
1.00
0.78
0.98
0.92
0.86
1.00
0.95
0.90
1.00
0.96
Standard
Basic
Advanced
SPECint_rate_base2006
Standard
Basic
1.00
メモリランクへのインターリーブ
物理アドレス空間のセットアップ時にメモリリソースを切り替える方法は、メモリチャネル間でのインター
リーブだけでなく単一チャネルのランク間でのインターリーブにも適用できます。
ランクインターリーブは、アドレスビットを経由して直接制御されます。ここでは、3-WAY ケースを確立
するためにチャネルインターリーブで実行されるようなビット演算は行われません。この理由から、2 のべ
き乗でのインターリーブのみが問題となります。つまり、2-WAY、4-WAY または 8-WAY のランクインタ
ーリーブのみが存在します。メモリチャネルでの奇数のランク数は、常に 1-WAY インターリーブとなりま
すが、これは分類上そのように呼ばれているだけです。1-WAY の場合、ランクは次のランクに切り替える
前にすべて利用されます。
ランクインターリーブの粒度は、チャネルでのインターリーブより大きくなります。チャネルでのインター
リーブは 64 バイトキャッシュラインサイズに一致しています。ランクインターリーブは、オペレーティン
グシステムの 4 KB ページサイズを重視したもので、DRAM メモリの物理特性に関係します。メモリセルは、
大まかに言って 2 次元に配置されています。1 行(ページとも呼ばれる)がオープンされ、列項目が読み取
られます。ページが開いている間、他の列の値を大幅に低いレイテンシで読み取ることができます。粒度の
大きいランクインターリーブは、この特性に最適化されています。
メモリチャネルあたりのランク数は、DIMM タイプ表および構成の DPC 値から求められます。タイプの表
は既に示していますが、明確を期すために再度掲載しました。
以下のパフォーマンスの表は、4-WAY インターリーブを基準としたものです。このケースは、多くの標準
的なベンチマークにおける PRIMERGY サーバの測定時に採用している構成です。大容量 RDIMM の 2DPC
構成は、通常、メモリ容量とパフォーマンスが最適なバランスになります。8-WAY インターリーブは、
LRDIMM での 2DPC 構成でのみ可能ですが、4-WAY インターリーブと比較しても測定可能な向上が見られ
ないため、省略しています。
14/17 ページ
© Fujitsu Technology Solutions 2012
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
2-WAY および 4-WAY ランクインターリーブは、非常に優れたメモリパフォーマンスを実現します。厳密に
は、4-WAY インターリーブにわずかなアドバンテージがありますが、通常は無視できる程度です。ただし、
シングルランクの 2 GB UDIMM または 4 GB RDIMM の 1DPC 構成では、1-WAY のケースが発生します。
この場合のパフォーマンスの低下については十分注意してください。パフォーマンスを重視するアプリケー
ションの場合、こうしたケースは避ける必要があります。
ベンチマーク
STREAM
SPECint_rate_base2006
プロセッサタイプ
4-way
2-way
1-way
Advanced
1.00
0.99
0.95
Standard
1.00
1.00
0.98
Basic
1.00
1.00
0.94
Advanced
1.00
1.00
0.97
Standard
1.00
1.00
0.97
Basic
1.00
1.00
0.99
制御
最大周波
数
(MHz)
電圧
ラン
ク数
容量
GB
あた
りの
相対
価格
2GB 1Rx8 PC3L-12800E
2GB(1x2GB)1Rx8 L DDR3-1600 U ECC
unbuffered
1600
1.5/1.35
1
2 GB
1.0
4GB 2Rx8 PC3L-12800E
4GB(1x4GB)2Rx8 L DDR3-1600 U ECC
unbuffered
1600
1.5/1.35
2
4 GB
0.8
4GB 1Rx4 PC3L-10600R
4GB(1x4GB)1Rx4 L DDR3-1333 R ECC
registered
1333
1.5/1.35
1
4 GB
1.1
4GB 1Rx4 PC3L-12800R
4GB(1x4GB)1Rx4 L DDR3-1600 R ECC
registered
1600
1.5/1.35
1
4 GB
1.2
4GB 2Rx8 PC3L-12800R
4GB(1x4GB)2Rx8 L DDR3-1600 R ECC
registered
1600
1.5/1.35
2
4 GB
1.2
8GB 2Rx4 PC3L-10600R
8GB(1x8GB)2Rx4 L DDR3-1333 R ECC
registered
1333
1.5/1.35
2
8 GB
0.9
8GB 2Rx4 PC3L-12800R
8GB(1x8GB)2Rx4 L DDR3-1600 R ECC
registered
1600
1.5/1.35
2
8 GB
1.0
16GB 2Rx4 PC3L-12800R
16GB(1x16GB)2Rx4 L DDR3-1600 R ECC
registered
1600
1.5/1.35
2
16 GB
1.2
16GB 4Rx4 PC3L-10600L
16GB(1x16GB)4Rx4 L DDR3-1333 LR ECC
load reduced
1333
1.5/1.35
4
16 GB
1.4
32GB 4Rx4 PC3L-10600L
32GB(1x32GB)4Rx4 L DDR3-1333 LR ECC
load reduced
1333
1.5/1.35
4
32 GB
4.5
DIMM タイプ
(JEDEC/SystemArchitect)
リモートメモリへのアクセス
前述の STREAM および SPECint_rate_base2006 ベンチマークを使ったテストでは、主にローカルメモリ
のみが使用されていました(プロセッサが自身のメモリチャネルの DIMM モジュールにアクセスする)。
隣接するプロセッサのモジュールはまったくアクセスされないか、まれに QPI リンクを経由してアクセス
されるのみです。この状況は、オペレーティングシステムやシステムソフトウェアの NUMA サポートの恩
恵によって、実際のアプリケーションの大半のメモリアクセスでも典型的なものです。
次の表は、BIOS が NUMA = disabled に設定されている場合の影響を示しています。この BIOS 設定以外は
理想的なメモリ構成にしたものです。つまり、プロセッサに応じた最大メモリ周波数で動作するように
RDIMM を構成した 4-WAY ランクインターリーブのパフォーマンスモード構成です。統計的に、他のプロ
© Fujitsu Technology Solutions 2012
15/17 ページ
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
セッサに接続されたリモート DIMM へのメモリアクセスが頻発するため、データが QPI リンクを経由して
遠回りすることで、パフォーマンスの低下が発生します。
ベンチマーク
STREAM
SPECint_rate_base2006
プロセッサタイプ
NUMA = enabled
NUMA = disabled
Advanced
1.00
0.57
Standard
1.00
0.59
Basic
1.00
0.62
Advanced
1.00
0.89
Standard
1.00
0.90
Basic
1.00
0.93
物理アドレス空間は、プロセッサの詳細メッシュ切り替えを用いて設定されています。この切り替えは、両
プロセッサが同一のメモリ容量であることが前提です。この前提が満たされていない場合、アドレス空間は
ソケット間インターリーブが許可される主要部分と、プロセッサローカルの残りの部分に分割されます。
システムソフトウェアまたはシステム関連ソフトウェアで NUMA がサポートされていないか、または十分
でないため、NUMA = disabled の設定が推奨されるのは、システムソフトウェアやシステム関連ソフトウェ
アによって NUMA がサポートされていないか不十分であるような例外的なケースであり、この設定による
測定は補助的なものです。上記の測定は、大部分あるいはすべてのアクセスがリモートメモリに対して行わ
れる場合の影響を見積もる際に役立ちます。ひとつのプロセッサがメモリなしで構成されている場合や、プ
ロセッサあたりの構成メモリ容量が大幅に異なる場合には、こうしたケースが発生する可能性があります。
ローカルアクセスと比較したパフォーマンスの低下は、表に示した低下分の最大 2 倍になることがあります。
冗長性を考慮した際のメモリパフォーマンス
Xeon E5-2400 搭載 PRIMERGY サーバには、冗長オプションが 2 つあります。ミラーリングでは、プロセ
ッサの 2 つのメモリチャネルが構成されますが、1 つのチャネルは別のチャネルをミラーリングします。3
つ目のチャネルは空のままになります。オペレーティングシステムは、実際に構成されているメモリの
50 %を利用できます。スペアリングの場合、厳密にはランクスペアリングであり、メモリチャネルあたり 1
つのランクは未使用で、DRAM チップの障害によってアクティブランクが失敗するケースに備えて予約さ
れています。オペレーティングシステムが利用できる実質メモリ容量は、この場合 DIMM タイプおよび
DPC 値によって異なります。
次の表は、理想的なメモリ構成での冗長化オプションの影響を示しています。つまり、それぞれのケースの
最大メモリ周波数で動作するように RDIMM を構成した 4-WAY ランクインターリーブのパフォーマンスモ
ード構成です。
ベンチマーク
STREAM
SPECint_rate_base2006
冗長性なし
ランク
スペアリング
ミラーリング
Advanced
1.00
0.95
0.57
Standard
1.00
0.98
0.60
Basic
1.00
0.94
0.59
Advanced
1.00
0.97
0.87
Standard
1.00
0.97
0.91
Basic
1.00
0.99
0.95
プロセッサタイプ
前述の「メモリランクへのインターリーブ 」で示したとおり、スペアリングの列は、1-WAY ランクインタ
ーリーブと同じです。これは、予約ランクの存在によって、アクティブランクが常に奇数となるためです。
一方、上の「 メモリチャネルへのインターリーブ 」のセクションで示したように、ミラーリングの列は
1-WAY インターリーブと同じではありません。これは、リードアクセスにはどちらのミラーチャネルも利
用できるためです。
Xeon 5600 搭載の先行世代 [L5] の該当テスト結果と比較すると、冗長性機能の効率が明らかに向上してい
ます。
16/17 ページ
© Fujitsu Technology Solutions 2012
ホワイトペーパー  XEON E5-2400(SANDY BRIDGE-EN)搭載システムのメモリパフォーマンス
バージョン:1.1  2012-12-07
関連資料
[L1] PRIMERGY システム
http://primergy.com/
[L2] PRIMERGY のパフォーマンス
http://www.fujitsu.com/fts/products/computing/servers/primergy/benchmarks/
[L3] STREAM ベンチマーク
http://www.cs.virginia.edu/stream/
[L4] ベンチマークの概要 SPECcpu2006
http://docs.ts.fujitsu.com/dl.aspx?id=00b0bf10-8f75-435f-bb9b-3eceb5ce0157
[L5] Xeon 5600(Westmere-EP)搭載システムのメモリパフォーマンス
http://docs.ts.fujitsu.com/dl.aspx?id=e88beb76-a61b-4fad-8081-9f941d12476b
[L6] PC サーバ PRIMERGY(プライマジー)
http://jp.fujitsu.com/platform/server/primergy/
お問い合わせ先
富士通
Web サイト:http://jp.fujitsu.com/
PRIMERGY のパフォーマンスとベンチマーク
mailto:[email protected]
[email protected][email protected][email protected]ータ
および図の完全性、事実性、または正確性について、弊社は一切の責任を負いません。本書に記載されているハードウェアおよびソフトウェアの名称
は、それぞれのメーカーの商標等である場合があります。第三者が各自の目的でこれらを使用した場合、当該所有者の権利を侵害することがあります。
詳細については、http://www.fujitsu.com/fts/resources/navigation/terms-of-use.html を参照してください。
2012-12-07 WW JA
© Fujitsu Technology Solutions 2012
Copyright © Fujitsu Technology Solutions 2012
17/17 ページ