九州大学学術情報リポジトリ Kyushu University Institutional Repository

待機ラインへの参照密度に基づく低リーク・キャッ シュの動的制御

**小宮, 礼子** 福岡大学工学研究科電子情報工学専攻

井上, 弘士 九州大学大学院システム情報科学研究院

村上, 和彰 財団法人九州システム情報技術研究所 | 九州大学大学院システム情報科学研究院

https://hdl.handle.net/2324/11883

出版情報:情報処理学会研究報告, 2005-ARC-164. 2005 (80), pp.73-78, 2005-08-03. 情報処理学会 バージョン:

権利関係:ここに掲載した著作物の利用に関する注意 本著作物の著作権は(社)情報処理学会に帰属し ます。本著作物は著作権者である情報処理学会の許可のもとに掲載するものです。ご利用に当たっては 「著作権法」ならびに「情報処理学会倫理綱領」に従うことをお願いいたします。 待機ラインへの参照密度に基づく低リーク・キャッシュの動的制御

小宮礼子<sup>††</sup> 井上弘士<sup>§</sup> 村上和彰<sup>‡§</sup>

福岡大学 工学研究科 電子情報工学専攻<sup>†</sup> 財団法人九州システム情報技術研究所<sup>‡</sup> 九州大学大学院 システム情報科学研究院<sup>§</sup> arch-ccc-lpc"at"c.csce.kyushu-u.ac.jp

#### 概要

これまでに多くの低リーク・キャッシュが提案された.しかしながら,これらの手法は待機状態ラインのデータを破棄するため、ミス回数が増加し必然的に性能が低下する.そこで本稿では低リーク・キャッシュにおける性能低下抑制方式として、常活性ライン方式を提案する.具体的には、性能低下の原因となる待機状態ライン・アクセスの局所性を考慮し、アクセスが集中するラインは常活性ラインにする.これまでに提案された Cache decay 方式では、15.1%程度の性能低下をもたらす事で 92.7%のリーク削減率を達成した.これに対し、本稿で提案する方式を適用すると、同程度のリーク削減率 90.6%を維持しつつ、性能低下を 5.0%に抑制することができた.

# Dynamic Performance Optimization for Low-Leakage Caches based on Increase-Miss Density

Reiko Komiya<sup>†‡</sup> Koji Inoue<sup>§</sup> Kazuaki Murakami<sup>‡§</sup>

Department of electronics engineering and computer Science, Fukuoka University<sup>†</sup> Institute of Systems & Information Technologies/KYUSHU<sup>‡</sup> Department of Informatics, Kyushu University<sup>§</sup>

arch-ccc-lpc"at"c.csce.kyushu-u.ac.jp

## Abstract

A number of techniques to reduce cache leakage energy have so far been proposed. However, in these techniques, flushing the data of a turning off line causes a new cache miss. And, the increase miss degrade processor performance. We have analyzed the detail of cache-access behavior, and have found that there is a locality of accesses to the turning-off lines. Based on this observation, we propose a cache management technique to alleviate the negative effect of low-leakage caches. In our approach, cache lines having high degree of increase-miss locality are forced to stay in the high-speed but high-leakage mode. In our evaluation, the proposed scheme worsens the performance by only 5.0% with the same degree of energy reduction of the Cache decay approach.

1. はじめに

携帯電話やノート型 PC といったバッテリー駆動型機器の普及に伴い,マイクロプロセッサ・システムの低消費エネルギー化が重要視されるようになった.一般に, CMOS 回路の消費エネルギーは,動的消費エネルギーと静的消費エネルギー

の2つに大別される.前者は回路負荷容量の充放 電によって,また,後者はトランジスタの漏れ電 流によって消費されるエネルギー(リーク消費エ ネルギー)である.従来のCMOS回路では動的消 費エネルギーが多くの割合を占めていた.しかし ながら,微細化加工技術の進歩に伴い,リーク消 費エネルギーによる影響が大きくなってきた.例 えば, Pentium4 プロセッサでは全消費電力の 20% がリークに起因しており, 更なるプロセス技術の 進歩に伴いこの割合はより大きくなると予想さ れる[3].特に,大量のトランジスタで構成され るキャッシュ・メモリにおいては,リーク消費エ ネルギーの削減が極めて重要となる.0.07 μmプ ロセスを想定した場合,キャッシュ全消費エネル ギーの 70% はリークに起因するとの予測もある [3].

この問題を解決するため、これまでに様々なキ ャッシュ・リーク消費エネルギー削減手法が提案 された.これらの手法は、以降参照されないと予 測されたキャッシュ・ラインを動的に活性状態か ら待機状態へ切替えることによってリークを削 減する.待機ラインの実現方法には状態破棄 ([2][5])と状態保存([1][3])の2通りがある.前者は 待機状態へと移行するラインの SRAM セルに対 して電源電圧の供給を停止することによりリー ク消費エネルギーを削減する. そのため SRAM セルに記憶されていた情報は失われる.一方,後 者は SRAM セルに記憶されたデータを失わない 程度まで電源電圧を下げることで実現される.状 態破棄と比較して, ライン当たりのリーク消費エ ネルギーは大きくなるものの, 従来型キャッシュ と同じヒット率を維持できる. 文献[4]において, 待機状態の実現方法は下位記憶階層への参照ク ロック・サイクルが長いならば状態保存、短いな らば状態破棄が適していると報告されている.し かしながら、トランジスタの微細化加工技術の進 歩に伴い,電源電圧値は今後降下していくと予測 される、この場合、データが損なわれない程度の 低い電源電圧と通常の電源電圧を頻繁に切替え ることは困難である. そのため、状態破棄による 待機状態の実現方法が今後主流になると予想さ れる.

状態破棄によって待機ラインを実現した場合, 待機ラインのデータは破棄されるため当該ライ ンへの参照は必ずキャッシュ・ミスとなる.再参 照されるデータを破棄した場合,リーク削減手法 を用いない従来型キャッシュ・メモリと比較して ミス回数が増加する.その結果,プロセッサの性 能は低下する.これは,増加したミスに伴い下位 記憶階層への参照が発生するからである.本稿で は,このミスを"増加ミス"と呼ぶ.高い性能と 低消費エネルギーを両立させるためには,低リー ク・キャッシュにおける増加ミスによる性能の低 下を抑制することが重要となる.

そこで本稿では、低リークキャッシュにおける 性能低下の抑制を目的として、待機ラインへの参 照の局所性を活用した動的キャッシュ制御方式 を提案する.また、ベンチマーク・プログラムを 用いたシミュレーションを行い,提案手法の有効 性を評価する.本手法では,増加ミスが集中して 発生するラインを活性状態で動作させる.これに より,増加ミスを回避し,性能低下を抑制する. 本方式が最も効果的に動作した結果,従来の低リ ークキャッシュと同程度のリーク削減率を維持 しつつ,性能低下を10%抑制できた.

以下,第2節では実験環境を定義し,第3節で は増加ミスの振る舞いを詳細に解析する.次に, 第4節で性能低下を抑制するキャッシュ制御方 式を提案し,第5節でベンチマーク・プログラム を用いた定量的評価を行う.最後に第6節で簡単 にまとめる.

#### 2. 評価環境

キャッシュ・メモリのリーク消費エネルギー (*LEtotal*)は、プログラム実行時間(*CC*)、クロック サイクル当りの 1 ライン平均リーク消費エネル ギー(*LEline*)、全キャッシュ容量における活性ラ イン数の割合(*AR*)、ならびに、キャッシュ全体の ライン数(*Nline*)によって近似できる.

| LEtotal = CC * LEline * AR * Nline | (1) |
|------------------------------------|-----|
| CC = CCconv + CCextra              | (2) |

ここで、CCconv はリーク削減手法を用いない場 合のプログラム実行時間(クロックサイクル数) であり、CCextra はリーク削減手法の採用に伴う 実行時間オーバヘッドを表す.リーク削減手法を 用いないキャッシュの場合はCCextra が0となり、 AR は1になる.一方、リーク削減手法を適用す ると CCextra が増加し、AR は減少する.なお、 本評価では、キャッシュ・アクセスやモード変更 に伴う動的消費エネルギーは考慮しない.

*CCconv*, *CCextra*, および*AR*を測定するため, マイクロプロセッサ・シミュレータである SimpleScalar[6]を利用した.本実験で想定したプ ロセッサ構成を表1に示す.評価対象アプリケー ションは SPEC CPU 2000 ベンチマーク・セット [7]より4個の浮動小数点プログラムと6個の整 数プログラムを用いた.なお,本実験では各ベン チマークにおいて,実行開始時から10億命令を フォワードし,続く5億命令を評価対象とした.

## 3. 増加ミスの振る舞い解析

状態破棄により待機ラインを実現する低リーク・キャッシュには様々な手法がある。それらの中で代表的な手法として"Cache decay"が挙げられる。我々が提案する低リーク・キャッシュの制御方法はどの低リーク・キャッシュに対しても適

| 命令発行方式                  | インオーダ                |  |
|-------------------------|----------------------|--|
| 分岐予測器                   |                      |  |
| 種類                      | bimodal              |  |
| サイズ                     | テーブル:128 エントリ, 1 ウェイ |  |
| 命令デコード幅                 | 2 命令/サイクル            |  |
| 命令発行幅                   | 2 命令/サイクル            |  |
| IFQ サイズ                 | 2エントリ                |  |
| RUU サイズ                 | 16エントリ               |  |
| LSQ サイズ                 | 16エントリ               |  |
| キャッシュ・メモリ               |                      |  |
| L1 データ                  | 32KB (32B/エントリ,      |  |
|                         | 32 ウェイ, 1K エントリ)     |  |
| L1 命令                   | 32KB (32B/エントリ,      |  |
|                         | 32 ウェイ, 1K エントリ)     |  |
| L2 共有                   | なし                   |  |
| ヒットレイテンシ                |                      |  |
| L1 キャッシュ                | 1クロック                |  |
| L2 キャッシュ                | なし                   |  |
| 主記憶                     | 32 クロック              |  |
| メモリ・バンド幅                | 8B                   |  |
| メモリ・ポート数                | 1                    |  |
| ITLB, DTLB              |                      |  |
| エントリ数                   | 1Mエントリ (4KB/エントリ,    |  |
|                         | 32 ウェイ, 32 エントリ/ウェイ) |  |
| ミスペナルティ                 | 30 サイクル              |  |
| 整数演算器                   |                      |  |
| (装置数, 実行レイテンシ, 発行レイテンシ) |                      |  |
| ALU                     | 1,1クロック,1クロック        |  |
| 乗算器                     | 1,3クロック,1クロック        |  |
| 除算器                     | 1,20 クロック,19 クロック    |  |
| 浮動小数点演算器                |                      |  |
| (装置数, 実行レイテンシ, 発行レイテンシ) |                      |  |
| ALU                     | 1,2クロック,1クロック        |  |
| 乗算器                     | 1,4クロック,1クロック        |  |
| 除算器                     | 1,12クロック,12クロック      |  |

表 1:プロセッサ構成

用可能であるが、本稿では Cache decay を基準として性能低下抑制手法を提案、評価する.

# 3.1 増加ミスが性能に与える影響

待機ライン数が多い場合,高いリーク削減効果 を得られる一方,増加ミス回数も増すため極端に 性能が低下する.つまり,ラインの状態がリーク 削減効果と実行時間に大きな影響を与える.した がって,待機/活性間の動作状態切替え制御は非 常に重要となる. Cache decay の場合,アクセス されること無しにキャッシュ内に滞在する期間 が閾値期間(decay-interval)以上となった時点で待 機状態へと変更し,アクセスが発生したラインに 対して活性ラインに変更する.本稿では decay-interval を 4K クロック・サイクル,また, リーク削減手法を L1 データ・キャッシュに適用 すると仮定する.

リーク削減手法を用いない従来のキャッシュ でのL1データ・キャッシュ・ミス回数によって正



図2: Cache decay の性能低下

規化された Cache decay のミス回数を図1に示す. f179.art と176.gcc を除いた8ベンチマークにおい て増加ミスが発生している.次に,実行時間増加 率を図2に示す.実行時間増加率とは,リーク削 減手法を用いない従来のキャッシュに対する Cache decay の性能低下である.これらの結果か ら,増加ミス回数が多いベンチマークほど性能が 低下することが明らかである.

## 3.2 Increase Miss Density

一般に、メモリ参照には局所性が存在するため、 増加ミスに関しても何らかの局所性が存在する と予測される.そこで、プログラム実行における 増加ミスの局所性を調査した.ここで、キャッシ ュ・ライン *i* における増加ミスの局所性 *IMD<sub>i</sub>*(*Increase Miss Density*)を以下の式で表す.

$$IMD_i = \frac{N_i}{N_{avg}} \tag{3}$$

*N<sub>i</sub>*はライン*i*における増加ミス回数,*N<sub>avg</sub>*は全ラ インに関する増加ミス回数の平均である.例えば, *IMD*<sub>2</sub>が1以上の場合,ライン2は平均以上の増 加ミスが発生していることになる.



図 3: Increase Miss Density (f183.equake, i181.mcf)



図 5: IMD<sub>i</sub>に関する増加ミス回数の内訳

L1 データキャッシュを想定し, 各ラインにお ける *IMD*<sub>i</sub>を測定した. 特徴的な結果を示した 2 ベンチマークの結果を図 3 に示す. 横軸はキャッ シュ・インデックスを表している. f183.equake の 場合, 増加ミスが一部のラインに集中している. したがって, 非常に局所性が高いといえる. 一方, i181.mcf の場合, 多くのラインが 1 以下の *IMD*<sub>i</sub> であり, 全ラインが平均的に参照されている. こ のことから, ベンチマークごとに増加ミスの局所 性は異なることが分かる. 図 4 はキャッシュ中で *IMD*<sub>i</sub>の値が 1 未満, 1 以上 2 未満, 2 以上 4 未満, または, 4 以上であったラインがキャッシュ全体



に占める割合を示している. 大多数のキャッシ ュ・ラインは IMD<sub>i</sub>の値が1未満であり,また,ご く僅かなライン(10%以下のライン)が 4 以上の *IMD*; 値を示している. 次に, 図5 に各 *IMD*; 値の ラインにおいて発生した増加ミスが全増加ミス 回数に占める割合を示す. 例えば f179.art の場合, 全増加ミスのうち 94%が IMD<sub>i</sub> 値 4 以上(黒の部 分)のラインで起きている.多くのベンチマーク において,高 IMD;のキャッシュ・ラインが多数の 増加ミスを引き起こしている.これらの結果から, ごく一部のラインが,多数の増加ミスを引き起こ していることが明らかになった.したがって, 増 加ミスには局所性があると言える. 例えば, IMD; が4以上であるラインは平均2.8%と非常に少な いにもかかわらず,28.6%もの増加ミスを引き起 こしている. また, 54.7%の増加ミスが 24.8%の IMD,1 以上であるラインにおいて起きている.

#### 4. 性能低下を抑制するキャッシュ制御方式

性能低下を抑制するには、再参照されるライン を活性状態に保つ必要がある.その手段として、 集中的に増加ミスが発生するラインを常に活性 ラインとして動作させ、待機状態への切替えを防 ぐ制御方式を提案する.以降このラインを"常活 性ライン"と呼ぶ.

例として、常活性ラインによる性能改善手法を 支援する1ウェイ1024 ラインのキャッシュを図 6 に示す.内部の点線で囲まれた領域が従来の Cache decay である.Cache decay はラインごとに 非アクセスサイクル数を待機カウンタにて保持 する.カウンタの値が decay-interval 以上になる と待機ラインへと切替わる(待機フラグ=1,デー 夕領域の供給電圧=0).次に、常活性ラインを支 援するために必要な機構を考える.待機ラインへ の参照局所性の判定には *IMD<sub>i</sub>*の値を用いる. *IMD<sub>i</sub>*を求めるには、式(3)より、全ラインに関す る増加ミス回数の平均および、各ラインの増加ミ



ス回数が必要である.そのため,キャッシュ全体 の増加ミス回数を保持する global カウンタ,また, 各ラインに常活性フラグと常活性カウンタを追 加する.増加ミス発生時に global カウンタと参照 されたラインの常活性カウンタをカウントアッ プする.これらのカウンタ値を用いて *IMD*<sub>i</sub>を求 め,その値が閾値以上ならばそのラインは性能低 下を引き起こしていると判断し,常活性ラインに 切替える(常活性フラグ=1).常活性ラインは待機 フラグの状態に関わらず,常に活性ラインとして 動作する.逆に,*IMD*<sub>i</sub>が閾値以下の場合,当該 ラインは性能低下に影響を与えていないと推測 されるため, Cache decay と同様に動作する.

常活性ライン数が過剰になると,性能低下は改善されるがリーク消費エネルギーの削減効果が 得られなくなる.それに対して,常活性ライン数 が極端に少ない場合は従来の低リーク・キャッシュと比較して性能が改善されない.

## 5. 評価

本節では、性能低下抑制方式を適用した低リー ク・キャッシュの評価を行う.具体的には性能オ ーバヘッドおよびリーク消費エネルギー削減率 を測定し、従来の低リーク・キャッシュである Cache decay と比較することで本方式の有効性を 議論する.

#### 5.1 実行時間増加率

本提案方式が性能低下抑制に与える影響について評価する. 評価モデルは常活性ラインへ切替える  $IMD_i$ の閾値が 1, 2, 4の3パタン(それぞれ 閾値 1 モデル, 閾値 2 モデル, 閾値 4 モデルと呼ぶ)と Cache decay であり, 各評価モデルの実行時間増加率を図7に示す. f179.art, i176.gcc の全モデル, また, i164.gzip の閾値 4 モデル, および i181.mcf の閾値 2, 4 モデルは Cache decay と同等



の性能低下を示している.一方,それ以外のモデ ルでは性能低下抑制方式の適用により,性能が改 善されている.特に,閾値に反比例して性能改善 効果が高まることがこの図から明らかである.全 ベンチマークを平均すると,閾値1,2,4モデル において,それぞれ5.3%,3.3%,2.7%性能低下 抑制効果が得られた.

## 5.2 リーク消費エネルギー削減率

次に,性能低下抑制方式がリーク消費エネルギ ーに与える影響を評価する.各モデルのリーク消 費エネルギー削減率を図8に示す. 閾値2,4モ デルは i176.gcc を除く全てのベンチマークにお いて高いリーク削減効果を維持している. Cache decay に対して,閾値2モデルは3.5%,閾値4モ デルは5.8%のリーク消費エネルギー増加に抑え ている.しかしながら,多くのベンチマークプロ グラムにおいて閾値1モデルはリーク削減効果 がCache decay と比較して低下する.具体的には, 閾値1モデルでは平均して21.6%リーク消費エネ ルギーが増加する.

# 5.3 考察

5.1 節および 5.2 節の結果から,提案方式の性 能改善とリーク削減効果について議論する.評価 結果は以下の4つのパタンに分類できる.

1 つ目は性能, リーク削減効果ともに Cache decay と変わらないパタンである.例えば, i181.mcf の閾値 2,4 モデルがこの分類に当ては まる.図5から,i181.mcf は *IMD<sub>i</sub>*の値が2以上 のラインにおいて増加ミスが発生しないことが 分かる.そのため,閾値2,4 モデルでは常活性 ラインへの切替えが少なくなり,Cache decay と 同様の動作をする.その結果,性能は改善されず, リーク削減効果もCache decay と等しいままであ った. 2 つ目のパタンは, f179.art や i176.gcc のように 性能低下が改善されず,かつ,リークが増加する パタンである.これらのベンチマーク・プログラ ムは Cache decay において性能が低下していない. そのようなベンチマークに対して性能低下改善 手法を適用すると,冗長な活性ラインが増加しリ ーク消費エネルギーも増してしまう.

3 番目は性能オーバヘッドを改善し,かつ, Cache decay と同等のリーク消費エネルギー削減 効果を得られるパタンである.fl83.equake の閾 値 2,4 モデルがこのパタンである.このベンチ マークはごく一部のラインが非常に多くの増加 ミスを引き起こしている(図 4,図 5).このよう な場合,待機ラインへの参照密度に基づく本提案 方式は非常に有効に働く.

最後はリーク削減効果を犠牲にして性能を改善するパタンである. i256.bzip2 がこの特徴をはっきりと示している. これは,常活性ラインの増加に伴い増加ミスは削減出来るものの,当該ラインで消費されるリークエネルギーが増加するためである. 閾値が小さいほど常活性ラインの数は増すため,閾値に反比例して性能改善効果は高まり,リーク消費エネルギーも増す. したがって性能へ高い要求がある場合,閾値を1として性能低下抑制方式を用いれば良い. 逆に,高いリーク削減率が求められる場合には閾値を大きくすると良い.

# 6. おわりに

本稿では、待機状態時の参照局所性が高いラインに対して常に活性状態で動作させることによって性能低下を抑制する方式を提案し、その評価を行った.その結果、多くのベンチマークプログラムにおいて Cache decay と比較して、性能を改善できることが分かった.しかしながら、常に活性状態で動作させるライン(常活性ライン)数に比例して性能低下は改善されるがリーク消費エネルギーも増加することがわかった.本手法が有効に動作した場合、Cache decay とほぼ同等のリーク削減率 90.6%を実現し、性能低下は 5.0%に抑えることが可能である(f183.equake 閾値 4 モデル).

本稿では、エネルギーはリーク消費エネルギー のみに着目している.キャッシュ・メモリで消費 されるエネルギーには動的消費エネルギーもあ る.それらも含めたキャッシュ全体のエネルギー 評価が今後の課題である.また、本評価ではライ ン状態の切替え等によって発生する動的消費エ ネルギー・オーバヘッドも含まれていない.今後、 これらを含んだより詳細な評価を行う予定であ る.

# 謝辞

本研究を進めるにあたり,多くのご指導を頂い た富士通株式会社の池田正幸氏,丸山拓巳氏,富 士通研究所の勝野昭氏,坂本真理子氏に深く感謝 致します.なお,本研究は一部,文部省科学研究 費補助金(課題番号:14GS0218,14702064, 14102027)による.

#### 参考文献

- K.Flautner, N.S.Kim, S.Martin, D.Blaauw, and T.Mudge, "Drowsy Caches: Simple Techniques for Reducing Leakage Power," *Proc. of the 29<sup>th</sup> Int. Symp. on Computer Architecture*, pp.148-157, May 2002.
- [2] S.Kaxiras, Z.Hu, and M.Martonosi, "Cache Decay: Exploiting Generational Behavior to Reduce Cache Leakage Power," *Proc. of the 28<sup>th</sup> Int. Symp. on Computer Architecture*, pp.240-251, June 2001.
- [3] N.S.Kim, K.Flautner, D.Blaauw, and T.Mudge, "Drowsy Instruction Caches; Leakage Power Reduction using Dynamic Voltage Scaling and Cache Sub-bank Prediction," *Proc. of the Int. Symp. on Microarchitecture*, pp.219-230, Nov. 2002.
- [4] D. Parikh, Y. Zhang, K. Sankaranarayanan, K. Skadron, and M. Stan, "Comparison of State-Preserving vs. Non-State-Preserving Leakage Control in Caches," *Workshop on Duplicating, Deconstructing and Debunking*, pp.14-25, June 2003.
- [5] M. Powell, S. Yang, B. Falsafi, K. Roy, and T. N. Vijaykumar, "Gated-Vdd: A Circuit Technique to Reduce Leakage in Deep-Submicron Cache Memories," *Int. Symp. on Low Power Electronic and Design*, pp.90-95, July 2000.
- [6] SimpleScalarLLC, <u>http://www.simplescalar.com</u>
- [7] SPEC –Standard Performance Evaluation Corporation, http://www.spec.org/