九州大学学術情報リポジトリ Kyushu University Institutional Repository

# 常活性ラインに基づく高性能/低リーク・キャッシュ の消費エネルギー評価

小宫, 礼子 福岡大学大学院工学研究科電子情報工学専攻

井上, 弘士 科学技術振興機構さきがけ

村上, 和彰 九州大学大学院システム情報科学研究院 | 財団法人九州システム情報技術研究所

https://hdl.handle.net/2324/11884

出版情報:電子情報通信学会技術研究報告.ICD, 集積回路.105(475), pp.37-42, 2005-12-08.電子情 報通信学会 バージョン: 権利関係:

### 常活性ラインに基づく高性能/低リーク・キャッシュの

### 消費エネルギー評価

小宮 礼子<sup>†1†4</sup> 井上 弘士<sup>†2†3</sup> 村上 和彰<sup>†3†4</sup>

\*1 福岡大学大学院 工学研究科 電子情報工学専攻 〒814-0180 福岡市城南区七隈 8-19-1
\*2 科学技術振興機構さきがけ 〒332-0012 埼玉県川口市本町4丁目1番8号
\*3 九州大学大学院 システム情報科学研究院 〒816-8580 福岡県春日市春日公園 6-1
\*4 財団法人 九州システム情報技術研究所 〒814-0001 福岡市早良区百道浜 2-1-22

E-mail: †1 † 3 arch-ccc-lpc"at"c.csce.kyushu-u.ac.jp

**あらまし** 我々はこれまでに,高性能かつ低リークなキャッシュを提案した.この手法は性能低下を引き起こす ラインを常に活性状態として動作させる事でペナルティを低減する.これまではリーク消費エネルギーおよび性能 のみの評価であった.そこで本稿では,下位記憶階層へのアクセスに伴う消費エネルギーや,本手法適用に伴うエ ネルギー・オーバヘッド等も含めた消費エネルギーを詳細に評価した.我々が提案する高性能/低リーク・キャッシ ュを適用すると,従来の低リーク・キャッシュである Cache decay 方式よりも 8%程度のエネルギー・オーバヘッド で最大 20% もの性能低下を抑制できた.また,本方式が有効に動作した場合, Cache decay に比べ消費エネルギーの 削減効果も得られた.

キーワード 高性能,低リーク,キャッシュ,消費エネルギー

## Evaluation of energy consumption for High-Performance / Low-Leakage Caches based on Always Active line

Reiko KOMIYA<sup> $\dagger 1 \dagger 3$ </sup> Koji INOUE<sup> $\dagger 2$ </sup> and Kazuaki MURAKAMI<sup> $\dagger 2 \dagger 3$ </sup>

† 1 Department of electronics engineering and computer Science at Fukuoka University

8-19-1 Nanakuma, Jhonan-ku, Fukuoka, 814-0180 Japan

† 2 Department of Informatics at Kyushu University 6-1 Kasuga-koen, Kasuga-shi, Fukuoka, 816-8580 Japan

<sup>†</sup> 3 Institute of Systems & Information Technologies/KYUSHU 2-1-22 Momochihama, Sawara-ku,

Fukuoka, 814-0001 Japan

E-mail: †1†2 arch-ccc-lpc"at"c.csce.kyushu-u.ac.jp

**Abstract** So far we proposed a cache management technique to alleviate the negative effect of low-leakage caches. This technique makes improvements to performance degradation. In our approach, cache lines which caused the performance degradation are forced to stay in the high-speed but high-leakage mode. Before now we evaluated only leakage energy and performance. Therefore, we perform detailed energy evaluation including access energy for low hierarchy memory and overhead on additional circuit. In our evaluation, the proposed scheme brings about 70~80% of energy reduction by only a 5% of performance degradation.

Keyword High performance, Low leakage, Cache, Power

### 1. はじめに

携帯電話やノート型 PC などバッテリー駆動型機器 の普及に伴い,マイクロプロセッサ・システムの低消 費エネルギー化が重要視されるようになった.一般に, CMOS 回路の消費エネルギーは,動的消費エネルギー と静的消費エネルギーの2つに大別される.前者は回 路負荷容量の充放電によって,また,後者はトランジ スタの漏れ電流によって消費されるエネルギー(リー ク消費エネルギー)である.従来の CMOS 回路では動 的消費エネルギーが多くの割合を占めていた.しかし ながら,微細化加工技術の進歩に伴い,リーク消費エ ネルギーによる影響が大きくなってきた.特に,大量 のトランジスタで構成されるキャッシュ・メモリにお いては,リーク消費エネルギーの削減が極めて重要と なる.例えば,0.07μm プロセスを想定した場合,キ ャッシュ全消費エネルギーの70%はリークに起因する との予測もある[2].

この問題を解決するため,これまでに様々なキャッ シュ・リーク消費エネルギー削減手法が提案された. これらの手法は、以降参照されないと予測されたキャ ッシュ・ラインを動的に待機状態へ切替えることによ ってリークを削減する.待機ラインの実現方法には状 態破棄([3][7])と状態保存([2][4])の2通りがある.前者 は待機状態へと移行するラインの SRAM セルに対して 電源電圧の供給を停止することによりリーク消費エネ ルギーを削減する. そのため SRAM セルに記憶されて いた情報は失われ、キャッシュ・ミス回数が増加する. 一方,後者は SRAM セルに記憶されたデータを失わな い程度まで電源電圧を下げることで実現される.状態 破棄と比較して, ライン当たりのリーク消費エネルギ ーは大きくなるものの,従来型キャッシュと同じヒッ ト率を維持できる.しかしながら,待機ラインを参照 する場合,供給電圧を回復する必要があるため,アク セス・ペナルティが発生する.したがって、どちらの待 機ライン実現方式を適用したとしても、 プロセッサの 性能は低下する.

そこで、我々はこれまでに低リークキャッシュにお ける性能低下の抑制を目的として、待機ラインへの参 照の局所性を活用した動的キャッシュ制御方式を提案 し,評価した[5].本手法では,性能低下の原因である 待機状態時の参照が集中して発生するラインを活性状 態として動作させる.これにより,待機ライン参照に 伴うアクセス・ペナルティを回避し,性能低下を抑制す る.本方式が最も効果的に動作した結果,従来の低リ ークキャッシュと同程度のリーク削減率を維持しつつ, 性能低下を 10% 抑制できた [5]. この評価はリーク 消費 エネルギーと性能のみの評価であり、下位記憶階層へ のアクセスに伴う消費エネルギーや,本手法適用に伴 うエネルギー・オーバヘッド等を含んでいない. そこ で本稿では、これらも含めた詳細な消費エネルギーの 評価を行う.本方式が最も効果的に動作した場合,従 来の低リークキャッシュと比較して, 性能改善効果に 加え,消費エネルギーも削減した.

以下,第2節で性能低下を抑制するキャッシュ制御 方式を説明し,その手法の消費エネルギー・モデルを第 3節で詳しく述べる.次に,第4節でベンチマーク・ プログラムを用いた定量的評価を行い,最後に第5節 で簡単にまとめる.

#### 2. 低リーク・キャッシュの性能低下抑制方式

待機状態の実現方法関して、下位記憶階層への参照 クロック・サイクルが長いならば状態保存,短いならば 状態破棄が適していると文献[6]で報告されている.し かしながら、トランジスタの微細化加工技術の進歩に 伴い,電源電圧値は今後降下していくと予測される. この場合,データが損なわれない程度の低い電源電圧 と通常の電源電圧を頻繁に切替えることは困難である. そのため、状態破棄による待機状態の実現方法が今後 主流になると予想される. そこで本稿では, 状態破棄 による低リーク・キャッシュを想定する.また,我々が 提案する低リーク・キャッシュの制御方法はどの低リ ーク・キャッシュに対しても適用可能であるが,本稿で は状態破棄により待機ラインを実現する手法として代 表的な" Cache decay"を採用する. Cache decay は, アクセスされること無しにキャッシュ内に滞在する期 間(非アクセスサイクル数)が閾値期間(decay-interval) 以上となった時点で待機状態へと変更し、 アクセスが 発生したラインに対して活性ラインに変更する事でリ ーク消費エネルギーを削減する.

状態破棄によって待機ラインを実現した場合,待機 ラインのデータは破棄されるため当該ラインへの参照 は必ずキャッシュ・ミスとなる.再参照されるデータを 破棄した場合,リーク削減手法を用いない通常のキャ ッシュ・メモリと比較してミス回数が増加する.その結 果,プロセッサの性能は低下する.本稿では,従来の 低リーク・キャッシュとして Cache decay を採用してい るので,リーク削減手法適用に伴い増加するミスの事 を"<u>Decay ミス</u>"と呼ぶ.高い性能と低消費エネルギ ーを両立させるためには,低リーク・キャッシュにお いて, Decay ミスによる性能低下を抑制することが重 要となる.

#### 2.1. Decay ミス密度

メモリ参照に局所性が存在するのと同様に, Decay ミスに関しても空間的局所性が存在する[5]. そこで, キャッシュ・ライン i における Decay ミスの参照密度 DMDi(Decay Miss Density)を以下の式で定義する.

$$DMD_i = \frac{N_i}{N_{avg}} \quad (1)$$

 $N_i$ はライン i における Decay ミス回数,  $N_{avg}$ は全ラインに関する Decay ミス回数の平均である. 例えば,  $DMD_2$ が 1 以上の場合, ライン 2 は平均以上の Decay ミスが発生していることになる.

#### 2.2. 常活性ライン方式

性能低下を抑制するには、再参照されるラインを活 性状態に保つ必要がある.その手段として、集中的に Decay ミスが発生するラインを常に活性ラインとして 動作させ、待機状態への切替えを防ぐ制御方式を提案 する.待機ラインへの参照局所性の判定には DMDiの



図1:高性能/低リーク・キャッシュ

値を用いる. DMDi がある閾値より大きいならばその ラインは性能低下を引き起こしていると判断し,常に 活性ラインとして動作させる.以降このラインを"<u>常</u> 活性ライン"と呼ぶ. DMDi が閾値以下の場合,当該 ラインは性能低下に影響を与えていないと推測される ため通常の低リーク・キャッシュ(本稿では Cache decay)と同様に動作する.この方式を"<u>常活性ライン</u> 方式"と呼ぶ.常活性ラインでは Decay ミスが発生し ないため,性能改善効果に加え,下位記憶階層への参 照エネルギーも削減できる.

例として、常活性ラインによる性能改善手法を支援 する1ウェイ1024 ラインのキャッシュを図1に示す. 内部の点線で囲まれた領域が従来の低リーク・キャッ シュ Cache decay である. Cache decay は、非アクセス カウンタにて非アクセスサイクル数をラインごとに保 持する. そのカウンタ値が decay-interval 以上となっ た時点で待機状態への遷移が起きる(Decay フラグ=1, データ領域の供給電圧=0). その後、アクセスが発生し たラインに対して活性ラインへの切替えを行う.

次に,常活性ライン方式を支援するために必要な機構を考える.常活性ラインへの切替えは以下の式が成 立した際に行われる.

 $DMD_i > 閾値$  (2)

ここで,式(1)を式(2)に代入する.

| $\frac{N_i}{N_{max}} > $              | 直 | (3) |
|---------------------------------------|---|-----|
| $\frac{N_i}{N_{avg}} > $ <b>B</b> $($ | 直 | (3) |

式(3)より,

$$N_i > N_{ava} \times 閾値$$
 (4)

式(4)の右辺は,総 Decay ミス回数を{log<sub>2</sub>(ライン数)log<sub>2</sub>(閾値)}ビット右シフトする事で求まる.したがっ て,常活性ライン方式を実現するには各ラインの Decay ミス回数および,総 Decay ミス回数の2つが必 要となる.そのため,各ラインに常活性フラグと Decay



図2:性能低下

ミスカウンタ,また、キャッシュ全体の Decay ミス回 数を保持する総 Decay ミスカウンタおよび比較器を追 加する. Decay ミス発生時(タグヒットかつ Decay フラ グ1の場合)に総 Decay ミスカウンタと当該ラインの Decay ミスカウンタをカウントアップする.当該ライ ンの Decay ミス回数が総 Decay ミスカウンタ値をシフ トした値より大きいならば、そのラインは性能低下を 引き起こしていると判断し、常活性ラインに切替える (常活性フラグ=1).常活性ラインは Decay フラグの状 態に関わらず,常に活性ラインとして動作する.逆に、 当該ラインの Decay ミス回数が総 Decay ミス 回数を シフトした値よりも小さい場合、そのラインは性能低 下に影響を与えていないと推測されるため、Cache decay と同様に動作する.

常活性ライン数が過剰になると、性能低下は改善さ れるがリーク消費エネルギーの削減効果が得られなく なる.それに対して、常活性ライン数が極端に少ない 場合は従来の低リーク・キャッシュと比較して性能が 改善されない.

#### 2.3. 性能改善効果

常活性ライン方式適用による性能低下改善効果は 文献[5]で既に評価した.評価モデルは,常活性ライン へ切替える DMDiの閾値が 1, 2, 4, 8 の 4 パタン(それ ぞれ閾値 1 モデル, 閾値 2 モデル, 閾値 4 モデル, 閾 値 8 モデルと呼ぶ)と Cache decay であり,各評価モデ ルの実行時間を図 2 に示す.各値はリーク削減手法を 適用しない通常のキャッシュ・メモリにおけるプログ ラム実行時間で正規化している.この評価結果から, 常活性ライン方式は Cache decay と比較して性能低下 を抑制できる事が示せた.全ベンチマークを平均する と,閾値 1, 2, 4,8 モデルにおいて,それぞれ 8.6%, 8.6%, 7.4%, 5.6%の性能低下抑制効果が得られた.

#### 3. 消費エネルギー・モデル

本節では、2.2 節で述べた常活性ライン方式が消費 エネルギーに与える影響を調査するため、下位記憶階 層も含めた消費エネルギー・モデルを定義する.本稿 では、データ L1 キャッシュに対する常活性ライン方 式の適用を想定する.そこで、データ L1 キャッシュ の消費エネルギー、およびその下位記憶階層である L2 キャッシュ、もしくは主記憶における消費エネルギー を考える.常活性ライン方式を用いた場合の消費エネ ルギー(*E*<sub>total</sub>)は以下のようになる.

| $E_{total} = E_{L1} + E_{\mathrm{Teta}}$                                                             | (5) |
|------------------------------------------------------------------------------------------------------|-----|
| $E_{L1} = LE_{L1} + DE_{L1}$                                                                         | (6) |
| $E_{\mathrm{F}\dot{\mathrm{m}}} = LE_{\mathrm{F}\dot{\mathrm{m}}} + DE_{\mathrm{F}\dot{\mathrm{m}}}$ | (7) |

ここで,  $E_{L1} \ge E_{Fcc}$ は, それぞれデータ L1 キャッシュおよび下位記憶階層で消費するエネルギーであり, それぞれリーク消費エネルギー(*LE*)と動的消費エネル ギー(*DE*)に分けられる.

まず, リーク消費エネルギーについて考える. *LE*<sub>L1</sub> は以下の式で与えられる.

$$LE_{L1} = \sum_{i=1}^{cc} LE_{bit} \times N_{active}(i) \quad (8)$$

CC はプログラム実行時間(クロックサイクル数), LE<sub>bit</sub> はクロックサイクル当りの1ビット SRAM セル平均リ ーク消費エネルギー, N<sub>active</sub>(i)はi クロックサイクル時 に活性状態で動作しているセルの総ビット数を表す. 常活性ライン数の増加に伴い N<sub>active</sub>(i)も増え,一方, CC は減少する.

下位記憶階層は我々が提案する常活性ライン方式 適用に関わらず,常に活性状態として動作している. そこで,本評価では下位記憶階層におけるリーク消費 エネルギーは考慮しない.

 $LE_{\pi t t} \doteq 0 \tag{9}$ 

次に,動的消費エネルギーを定義する.データ L1 キャッシュの回路構成は大きく 3 つに分けられる.1 つ目はリーク削減手法を用いない通常のキャッシュメ モリ実現に必要な回路,2つ目は Cache decay 実現に伴 い追加される回路(Decay フラグ,非アクセスカウンタ や比較器等),最後に3つ目は常活性ライン方式の実現 に必要な追加回路(常活性フラグ, Decay ミスカウンタ, シフタや比較器等)である.これらの回路の動作に伴い, データ L1 キャッシュはエネルギーを消費する.した がって, DE<sub>L1</sub>は以下のように表される.

$$DE_{L1} = DE_{L1\_org} \times N_{L1\_org} + DE_{L1\_decay} \times N_{L1\_decay} + DE_{L1\_aa} \times N_{L1\_aa}$$
(10)

表 1:プロセッサ構成

| 命令発行方式                  | インオーダ                |  |
|-------------------------|----------------------|--|
| 分岐予測器                   |                      |  |
| 種類                      | bimodal              |  |
| サイズ                     | テーブル:128 エントリ,1 ウェイ  |  |
| 命令デコード幅                 | 2命令/サイクル             |  |
| 命令発行幅                   | 2命令/サイクル             |  |
| IFQ サイズ                 | 2エントリ                |  |
| RUU サイズ                 | 16エントリ               |  |
| LSQ サイズ                 | 16エントリ               |  |
| キャッシュ・メモリ               |                      |  |
| L1データ                   | 32KB (32B/エントリ,      |  |
|                         | 32 ウェイ, 1K エントリ)     |  |
| L1 命令                   | 32KB (32B/エントリ,      |  |
|                         | 32 ウェイ, 1K エントリ)     |  |
| L2 共有                   | なし                   |  |
| ヒットレイテンシ                |                      |  |
| L1 キャッシュ                | 1クロック                |  |
| L2 キャッシュ                | なし                   |  |
| 主記憶                     | 32 クロック              |  |
| メモリ・バンド幅                | 8B                   |  |
| メモリ・ポート数                | 1                    |  |
| ITLB, DTLB              |                      |  |
| エントリ数                   | 1Mエントリ (4KB/エントリ,    |  |
|                         | 32 ウェイ, 32 エントリ/ウェイ) |  |
| ミスペナルティ                 | 30 サイクル              |  |
| 整数演算器                   |                      |  |
| (装置数, 実行レイテンシ, 発行レイテンシ) |                      |  |
| ALU                     | 1,1クロック,1クロック        |  |
| 乗算器                     | 1,3クロック,1クロック        |  |
| 除算器                     | 1,20 クロック,19 クロック    |  |
| 浮動小数点演算器                |                      |  |
| (装置数,実行レイテンシ,発行レイテンシ)   |                      |  |
| ALU                     | 1,2クロック,1クロック        |  |
| 来 算 器                   | 1,4クロック,1クロック        |  |
| 除算器                     | 1,12クロック,12クロック      |  |

ここで,  $DE_{L1_{org}}$  はリーク削減手法を用いないキャッシュにおける 1 参照あたりの平均動的消費エネルギー,  $DE_{L1_{decay}}$ ,  $DE_{L1_{aa}}$  は順に, 非アクセスカウンタ活性時, および, Decay ミスカウンタ活性時に消費する平均動 的エネルギーである.また,  $N_{L1_{org}}$ ,  $N_{L1_{decay}}$ ,  $N_{L1_{aa}}$ は各回路の動作回数であり, それぞれ, データ L1 キ ャッシュ参照回数, 非アクセスサイクル数, Decay ミ ス発生回数である.

最後に, *DE*<sub>下位</sub>は下位記憶階層における 1 参照あた りの平均動的消費エネルギー(*DE*<sub>下位\_org</sub>)と下位記憶階 層参照回数(*N*<sub>下φ</sub>)によって求められる.

$$DE_{\mathrm{Fit}} = DE_{\mathrm{Fit} \ ore} \times N_{\mathrm{Fit}} \tag{11}$$

常活性ライン方式を適用すると、N<sub>下位</sub>が削減される.

#### 4.評価

本節では、常活性ライン方式を適用した低リーク・ キャッシュの消費エネルギー評価を行う.具体的には リーク削減手法を適用しない通常のキャッシュ・メモ リの消費エネルギーで正規化した値を求め、従来の低



リーク・キャッシュである Cache decay と比較することで本方式の有効性を議論する.

#### 4.1. 評価環境

本実験で想定したプロセッサ構成を表1に示す. 評価対象アプリケーションは SPEC CPU 2000 ベンチマ ーク・セット[9]より4個の浮動小数点プログラムと6 個の整数プログラムを用いた. なお,本実験では各ベ ンチマークにおいて,実行開始時から10億命令をフォ ワードし,続く5億命令を評価対象とした.

第3節で定義した消費エネルギー・モデル式(8)~ (11)の, CC,  $N_{active}(i)$ ,  $N_{L1_{org}}$ ,  $N_{L1_{decay}}$ ,  $N_{L1_{aa}}$ およ び N<sub>下位</sub>を測定するため、マイクロプロセッサ・シミュ レータである SimpleScalar[8]を利用した. それ以外の 5つの変数 LEbit, DEL1 org, DEL1 decay, DEL1 aa および DE <sub>下位\_org</sub> は固定値を与える.まず,DE<sub>L1\_org</sub> はキャッシ ュ・アクセス時間およびエネルギーを算出するシミュ レータである hp 社の CACTI3.0[1]を用いて決定した. 具体的には、DE<sub>L1\_org</sub> =1.90197(nJ)であった.この値を 元に,  $DE_{L1_{aa}}$ と  $LE_{bit}$ を求める.  $DE_{L1_{aa}}$ は  $DE_{L1_{org}}$ に 対してビット数の比で求める. リーク削減手法を用い ないキャッシュ・メモリは1エントリあたり,有効フラ グが1ビット,タグ25ビット,データ領域32Bの計 9088 ビットから成っている. 一方, Decay ミスカウン タは20ビット,常活性フラグは1ビットである.した がって, DE<sub>L1 aa</sub>=4.20536(pJ)となる. また, 文献[2]に おいて  $LE_{bit}$  と  $DE_{L1 \text{ org}}$  の値が示されている. そこで, 本稿が想定するキャッシュ構成を考慮すると、  $LE_{bit}=0.1295 \times 10^{-2} (pJ) となる. 次に, DE_{L1_{decay}} を考え$ る.非アクセスカウンタは階層型カウンタを用いる事 により,非常に小さな回路規模で実現される[3].具体 的には、キャッシュ全体に対して1つのグローバルカ ウンタ,また,各ラインに2ビットカウンタを保持す るだけでよい.この階層型カウンタはグローバルカウ ンタにより一定サイクルをカウントし, そのカウンタ



図 4: 消費エネルギー内訳(Cache decay)

#### 4.2. 評価結果

本提案方式が消費エネルギーに与える影響につい て評価する.評価モデルは文献[5]と同様に,閾値1モ デル,閾値2モデル,閾値4モデルそして閾値8モデ ルの4パタンである.各モデルとCache decayの正規 化リーク消費エネルギーを図3に示す.

常活性ライン方式は全ベンチマーク,また全パタン において,リーク削減手法を用いない通常のキャッシ ュと比較して消費エネルギーを削減している.特に, f183.equake と i175.vpr は Cache decay と同等もしくは それ以上の消費エネルギー削減効果を上げている.こ れは,常活性ライン方式適用に伴う下位記憶階層参照 時の動的消費エネルギー( $DE_{\Gamma c}$ )の削減効果がL1キャ ッシュにおけるリーク消費エネルギー( $LE_{L1}$ )の増加を 上回ったからである.図4,5にCache decay および常 活性ライン方式の閾値2モデルにおける消費エネルギ ーの内訳を示す.f183.equakeの場合,常活性ライン方 式はCache decay と比べて56.2(mJ)  $LE_{L1}$ が増加したが, 95.1(mJ)  $DE_{\Gamma c}$ を削減した.この時,性能低下(図2) は 15.1%改善した.

一方,他のベンチマーク・プログラムは LEL1 増加の





影響が DE 下位削減効果よりも大きかったため、Cache decay と比較して消費エネルギーが大きい.特に, 閾 値1モデルはこの特徴を顕著に表す.図6に常活性ラ イン方式における閾値1モデルの消費エネルギー内訳 を示す.図5と比較して,閾値1モデルはLEL1が大き いことが分かる.他のモデルと比較して,閾値1モデ ルは常活性ライン数が多い. つまり,常活性ラインの 増大は消費エネルギーの増加を導く.しかしながら, 閾値2,4,8モデルは最大8.3%の消費エネルギー増加 に抑えている. また, いずれのモデルも性能低下抑制 効果は高く、最大 20.1%の改善効果が得られる.

これらの結果から、常活性ライン方式は適切なライ ン選択を行う事により従来の低リーク・キャッシュに 対する僅かな消費エネルギー・オーバヘッドで高い性 能改善効果を得られる手法になると言える.

また, α が大きいほど DE <sub>下位</sub>が消費エネルギーに占 める割合も増すため,常活性ライン方式適用に伴う Decay ミス回数削減の効果も大きい.よって、下位記 憶階層の消費エネルギーが大きいほど、本手法は有効 な手法になると言える.

#### 5. おわりに

我々は以前、待機状態時の参照局所性が高いライン に対して常に活性状態で動作させることによって性能 低下を抑制する方式を提案し、性能およびリーク消費 エネルギーの評価を行った.そこで、本稿では下位記 憶階層へのアクセスに伴う消費エネルギーや、本手法 適用に伴うエネルギー・オーバヘッド等も含めた詳細 な消費エネルギー評価を行った.

その結果、本方式が有効に動作した場合、Cache decay よりも消費エネルギーを削減し、性能改善でき ることがわかった.しかしながら、常に活性状態で動 作させるライン(常活性ライン)数が増えすぎると性能 低下は改善されるが消費エネルギーも増加することが わかった.





i175.vpr

l.mcf

Average

#### 謝辞

3

消費エネルギー内訳

0.4

0.2 0

f179.art

本研究を進めるにあたり、多くのご指導を頂いた富 士通株式会社の池田正幸氏、丸山拓巳氏、富士通研究 所の勝野昭氏,坂本真理子氏に深く感謝致します.な お,本研究は一部,文部省科学研究費補助金(課題番 号:14GS0218,17680005),ならびに,JST さきがけ研 究による.

#### 文 献

- http://research.compaq.com/wrl/people/ [1] CACTI, jouppi/CACTI.html
- [2] K.Flautner, N.S.Kim, S.Martin, D.Blaauw, and T.Mudge, "Drowsy Caches: Simple Techniques for Reducing Leakage Power," Proc. of the 29th Int. Symp. on Computer Architecture, pp.148-157, May 2002.
- [3] S.Kaxiras, Z.Hu, and M.Martonosi, "Cache Decay: Exploiting Generational Behavior to Reduce Cache Leakage Power," Proc. of the 28th Int. Symp. on Computer Architecture, pp.240-251, June 2001.
- [4] N.S.Kim, K.Flautner, D.Blaauw, and T.Mudge, Instruction Caches; Leakage Power "Drowsy Reduction using Dynamic Voltage Scaling and Cache Sub-bank Prediction," Proc. of the Int. Symp. on Microarchitecture, pp.219-230, Nov. 2002.
- [5] 小宮礼子,井上弘士,村上和彰 "待機ラインへの 参照密度に基づく低リーク・キャッシュの動的制 御" 情報処理学会研究報告, 2005-ARC-164, pp.73-78, Aug. 2005.
- [6] D. Parikh, Y. Zhang, K. Sankaranarayanan, K. Skadron, and M. Stan, "Comparison of State-Preserving vs. Non-State-Preserving Leakage Control in Caches," Workshop on Duplicating, Deconstructing and Debunking, pp.14-25, June 2003.
- [7] M. Powell, S. Yang, B. Falsafi, K. Roy, and T. N. Vijaykumar, "Gated-Vdd: A Circuit Technique to Reduce Leakage in Deep-Submicron Cache Memories," Int. Symp. on Low Power Electronic and Design, pp.90-95, July 2000.
- [8] SimpleScalarLLC, <u>http://www.simplescalar.com</u>
- [9] SPEC -Standard Performance Evaluation Corporation, http://www.spec.org/