# CGRAのためのアプリケーションマッピングフレームワーク

# GenMapの実装と実機評価

小島 拓也† 天野 英晴†

† 慶應義塾大学大学院 理工学研究科 223-8522 神奈川県横浜市港北区日吉 3-14-1 E-mail: †{tkojima,hunga}@am.ics.keio.ac.jp

**あらまし** 粗粒度再構成可能アーキテクチャ CGRA は小さな電力で、高い性能を得ることができるエネルギー効率に 優れたデバイスである。しかしながら、汎用 CPU と比ベコンパイラが行うべき処理が多く、最適化などが複雑化す る。そのため、性能や電力効率はコンパイラ技術に大きく依存する。本研究ではいくつか異なるアーキテクチャに適 応することができるアプリケーションマッピングフレームワーク GenMap を提案する。GenMap は遺伝的アルゴリズ ムをベースとしており、ユーザーが任意の目的関数を追加することで多目的最適化を行うことができる。GenMap の 評価を行なった結果、既存手法と比較して約 20%の配線長削減や約 10%のエネルギー削減を得ることができた。 **キーワード** CGRA,粗粒度再構成可能アーキテクチャ,遺伝的アルゴリズム,多目的最適化

Takuya KOJIMA<sup>†</sup> and Hideharu AMANO<sup>†</sup>

† Graduate School of Science and Technology, Keio University – Hiyoshi 3–14–1, Kohoku-ku, Yokohama, Kanagawa, 223–8522 Japan

E-mail: *†*{tkojima,hunga}@am.ics.keio.ac.jp

# 1. はじめに

近年、IoT (Internet of Things) デバイスやエッジコンピュー ティングの実現のために高いエネルギー効率でプログラム可能 なデバイスが求められている。粗粒度再構成可能アーキテク チャ CGRA(Coarse-grained reconfigurable architecture) はこ のような要求に応える一つのデバイスである。

CGRA は 2 次元アレイ状に配置された PE(Processing Element)を計算資源として持ち、主にループ処理などの computeintensive なパートを CPU の代わりに実行するアクセラレータ として利用される。CGRA のコンパイラは PE アレイで実行 される処理をデータフローグラフとして受けとり、PE アレイ へ配置配線を行う。このデータフローグラフはノードが演算を 示し、エッジが演算間のデータ依存を示す。CGRA で達成さ れる性能はこのデータフローグラフマッピングの質に大きく左 右されるが、最適なマッピングの探索は NP 完全な問題である と知られている。したがって、効率的な探索手法が多く提案さ れている。既存手法の多くは性能の最適化のみに焦点を当てて おり、消費電力の削減は考慮されていない。しかし、CGRA の 利用が期待される用途では必ずしも最高性能を達成する必要は なく、低消費電力性が優先される場合がある。

そこで、本研究ではユーザーの要求に応じて様々な項目を同時に最適化する多目的最適化フレームワーク GenMap を提案する。GenMap は PE アレイのアーキテクチャに非依存な最適化を提供する。ユーザーは自分が利用したい PE アレイのアーキテクチャを指定することで、任意のアーキテクチャで最適化を行うことができる。

本研究では低電力志向の CGRA として提案された CMA(Cool



 (a) データフロー
 (b) 時間的マッピングの場合
 (c) 空間的マッピングの

 グラフの例
 場合

図 1 CGRA のアプリケーションマッピングと 2 つの再構成方式 Mega Array) [1] を対象に GenMap の評価を行う。また、本研究 では 3 種類の実チップ化された CMA: 1)CC-SOTB [2], 2)CC-SOTB2 [3], 3) NVCMA [4] を用いて実機評価を行う。

### 2. 本研究の背景: CGRA

#### 2.1 CGRA におけるマッピング

CGRA のマッピングには時間的マッピング (Temporarymapping) と空間的マッピング (Spatial-mapping) の 2 種類が 存在する。図 1(a) のデータフローグラフをそれぞれの方式で マッピングした例を図 1(b) と図 1(c) に示す。時間的マッピン グでは PE アレイがサイクル毎の再構成をサポートし、データ フローグラフを時間方向に拡張した PE アレイへマッピングす る方法である。図の例では 2×2 の PE アレイに対し 3 サイク ルかけてマッピングを行なっている。一般にこの方式ではソフ トウェアパイプラインの 1 つであるモジュロスケジューリング を行う。この場合、図に示すノード E' は直前のイテレーショ ン、ノード A", B" は次のイテレーションの演算を示す。一方、

| 衣 I 日/ イ/// 10/1度点 |               |               |         |  |  |  |  |
|--------------------|---------------|---------------|---------|--|--|--|--|
|                    | CC-SOTB       | CC-SOTB2      | NVCMA   |  |  |  |  |
| アレイサイズ             | $12 \times 8$ | $12 \times 8$ | 8×8     |  |  |  |  |
| ダイレクトリンク           | あり            | あり            | なし      |  |  |  |  |
| SE チャネル数           | 1             | 1             | 2       |  |  |  |  |
| パイプラインレジスタ         | なし            | あり            | なし      |  |  |  |  |
| ボディバイアス制御          | 考慮する          | 考慮する          | 考慮しない   |  |  |  |  |
| チップ宝壮              | Renesas       | Renesas       | 65nm 以降 |  |  |  |  |
| / / / 天衣           | SOTB $65nm$   | SOTB 65nm     | 詳細は割愛   |  |  |  |  |

表1 各アーキテクチャの相違点



空間的マッピン<sup>図</sup>ではデ<sup>ム</sup> ダラキ<sup>-</sup>ク<sup>チ</sup> ク<sup>チ</sup> アレイに静的 に割り付け、あるタスクを実行している間に PE アレイに静的 マッピングを利用し続ける。図の例では 3×3 の PE アレイに マッピングし、このマッピングはタスク終了まで変化しない。 時間的マッピングでは柔軟性が増す一方で、再構成のための電 力オーバーヘッドが大きくなる。このオーバーヘッドを削減す るために、本研究で用いる CMA アーキテクチャ [1] は空間的 マッピングを採用している。さらに、CMA の PE からはロー カルのレジスタファイルが排除され、クロック信号が不要な組 合わせ回路となっている。これによって、劇的なダイナミック 電力の削減を達成する。

#### 2.2 CMA アーキテクチャ

図 2(a) に CMA アーキテクチャのブロック図を示す。前述 の通り PE は組合わせ回路であるため、データメモリの読み書 きを自ら行うことはできない。その代わりに CMA は小規模な RISC プロセッサであるマイクロコントローラを備えており、 これが PE アレイとデータメモリとの間の入出力を制御する。 データメモリは一般的な CGRA と同様にいくつかのバンクに 分割され、インタリーブアクセスされる。データメモリと PE アレイの間にはデータマニピュレータと呼ばれるクロスバス イッチに似た接続網があり、柔軟なデータ転送が可能である。

本研究で用いる 3 種類の CMA アーキテクチャ (CC-SOTB, CC-SOTB2, NVCMA) の PE アレイはそれぞれいくつか異な る構造を持つ。表1にsの違いをまとめる。特に、PE 間の相

互接続網についての違いを図 2(b)(c)(d) に示す。どのアーキテ クチャも PE 内に SE(Switcing-Element) を持ち、PE アレイ 内にアイランドスタイルの相互接続網を形成する。CC-SOTB と CC-SOTB2 にはこれに加えて、近傍の PE へ SE を使わず にデータを転送するためのダイレクトリンクがある。ただし、 これら2つのダイレクトリンクの接続は図に示している通り 異なっている。一方で、NVCMA には各 PE に 2 つの SE が あり、チャネル数が2である。CC-SOTB2ではPE行の間に パイプラインレジスタがあり、必要に応じて行を跨ぐデータを ラッチする。CC-SOTB2 は計8行の PE 行があるため、7本の パイプラレジスタが用意されている。これらのパイプラレジス タは個別に有効化 (ラッチモード) または無効化 (バイパスモー ド)できるため、アプリケーションや要求性能に応じて可変的 なパイプライン構造をとることができる。さらに、CC-SOTB、 CC-SOTB2 は Renesas SOTB プロセス技術でチップが実装さ れており、リーク電力と性能のバランスを調整するボディバイ アス制御が適用されることを想定している。一方、NVCMA の チップ実装に関する詳細は共同研究先との都合上割愛する。

#### 2.3 関連研究

CGRA のマッピング最適化は NP 完全な問題であると知ら れており、様々なヒューリスティックスが提案されている。時 間的マッピング方式の手法としては RAMP [5], MEMMap [6], HyCube [7] などが提案されている。いずれもソフトウェアパイ プラインの Initial Interval(II) を最小化することを目的として いる。一方、空間的マッピング方式の手法としては SPKM [8], RLMap [9] などがある。SPKM では利用する PE の行を最小 化することを目的とした手法で、RLMap は利用する PE を最 小化し、コンパイル時間を短縮するために強化学習を用いて いる。

CGRA-ME [10], [11] は細かい粒度でアーキテクチャをモデ ル化可能な CGRA の評価フレームワークとなっており、時間 的マッピングと空間的マッピングの両方に対応した最適化ツー ルを備えている。配線資源の最小化を目的とした整数計画問題 (ILP) [10] を用いた手法とシミュレーテッドアニーリング [11] を用いた手法などが含まれている。

CGRA は組み込み機器などの用途で利用が期待されている にも関わらず、多くの手法が達成可能な最大性能を向上させる 最適化が多い。電力削減を意識しつつも多くの手法は積極的な 電力削減手法を取り入れたものは少なく、[12] の2レベル VDD を用いいる方法や本研究の先行研究 [3] におけるボディバイア ス制御を用いた方法などしか提案されていない。しかしながら、 先行研究 [3] では CC-SOTB2 にのみ焦点を当てており、有効 性もこのアーキテクチャに関してしか確認されていない。そこ で本研究では複数にアーキテクチャに対応可能で、多様な最適 化をサポートするフレームワーク GenMap を提案する。

#### 3. 提案手法: GenMap

GenMapによる最適化フローの概要を図3に示す。ユーザー はマッピングするデータフローグラフと要求性能を入力する。 その際に、対象となるアーキテクチャを記述した定義ファイル とチップ実装に基づくシミュレーション用のパラメータを指定 する。定義ファイルではPEアレイのサイズや、相互接続網の トポロジー、レジスタの有無、定数レジスタなどが記述可能で ある。シミュレーションパラメータはマッピングした結果を評 価する際に用いるもので、遅延時間や消費電力などの情報を



持つ。GenMap は与えられた定義情報を元に、PE アレイのリ ソースグラフを生成し、これをマッピング対象として利用する。

#### 3.1 NSGA-II による多目的最適化

GenMapではユーザーの要求に応じて、目的関数を追加、削除 することが可能である。デフォルトでは総配線長が目的関数に 含まれる。多目的最適化を可能にするために、GenMap は多目 的遺伝的アルゴリズムの一つである NSGA-II(Non-dominated Sorting Genetic Algorithms-II) [13] を用いている。多目的最 適化では他の解に優越されない評価値を持つ解をパレート最適 解と呼び、一般に複数個の解が存在する。NSGA-II は一般的な 遺伝的アルゴリズムを多目的にかつ効率的に探索することがで きるアルゴリズムである。アルゴリズムの流れは一般的なもの と大きな違いはなく、解の集合(世代)からいくつかの個体を選 択し、交叉、突然変異させることで世代の更新を進めていく。

3.1.1 遺伝子コーディングと遺伝子操作

遺伝的アルゴリズムでは解を遺伝子として表現する。Gen-Map では遺伝子情報として 1) 演算ノード-PE のマッピング, 2) パイプライン構造 (パイプライン化されている場合) を持つ。 ルーティング情報は遺伝子に含めていない。これは、遺伝子操 作 (交叉、突然変異) を行う場合にルーティング情報を含めるこ とが困難であるためである。

交叉は2つの親から2つの子を生成する。本研究では1点交 叉を用いている。図4にマッピングの遺伝子コーディングと交 叉の例を示す。図4(a)は2つの親として選択されたマッピン グを示す。マップされているデータフローグラフは1(a)と同 一のものを想定する。各演算ノードとPEの座標をペアにして 遺伝子情報に組み込まれている。パイプライン構造に関しては ここでは省略している。図のように交叉点としてノードCと ノード D の間が選択された場合、子マッピングは図 4(b) のよ うになる。左の親の遺伝子前半 (ノード A~C) と右の親の遺伝 子後半 (ノード D,E) が一方の子になり、反対の組み合わせが もう一方の子になる。ただし、右の子に関してはノード B,D が 重複してしまう。この場合、等確率でどちらか一方のノードが 選ばれ、近傍の空いている PE へ移動される。等距離の近傍の 空いている PE が複数存在する場合、ランダムに選択される。

また、一定の確率で遺伝子は突然変異を起こす。本研究では 図 4(d) 図 4(e) に示す 2 種類の突然変異を用いる。一方は選択 された 2 つのノードの割り当て PE を交換し (swap, 図 4(d))、 もう一方は選択された 1 つのノードを別の空いている PE へ移 動する (move, 図 4(e))。本研究では広く利用されている 0.7 の 交叉確率と 0.3 の突然変異確率を用いる [14]。

**3.1.2** PE間のルーティング

3.1.1節で述べたように、各個体は遺伝子情報に PE 間のルー ティング情報を含んでおらず、子が誕生するたびに PE 間を配 線資源でルーティングしなくてはいけない。GenMap では先行 研究 [3] の手法をベースとした A\* アルゴリズムを用いる方法 を採用している。マッピングと異なりルーティングは貪欲アル ゴリズムである理由は [15] の評価結果を見ると蟻コロニー最適 化を利用して広範囲の探索を行なっても、貪欲法と比較して数 パーセント程度の配線長削減しか得られないためである。

ただし、ルーティングを行う際にどの PE を優先的に配線す るかは結果に大きな影響をもたらす。また、ある source ノー ドから複数の destination ノードへエッジを持つデータフロー グラフではパスの共有を考慮すべきである。図 5 にルーティ ングの例を示す。図 5(a) ではパスの共有を考慮していないた め、同じデータを転送しているだけにも関わらず多くの配線資



(a) パスの共有を考慮 (b) ソートなしのパス共有 (c) ソートありのパス共有

図 5 パス共有を考慮したルーティング

源を浪費する。そこで、本手法では同一のデータに関する配線 を行う場合、ルーティングコストを0にすることで A\* アルゴ リズムを用いてもなるべくパスが共有されるように促す。この 場合、どのエッジから先にルーティングするべきかが重要とな る。例えば図 5(b) のようにノード Dst0 から先にルーティング すると、あとの二つもそれに引きずられてしまう。この場合、 図 5(c) のように Dst1 から先にルーティングするべきである。

以上から本手法では次のような優先度でエッジを選択し、ルー ティングを行う。

(1) 出力次数の小さいノードが source ノードが持つエッジ

(2) source ノードからマンハッタン距離が小さいノードへ のエッジ

出力次数が高いものが優先されるのは [16] でも取られている 方針であり、前述のパス共有によっていくつか経路を選択可能 であるからである。もし、単一の出力しかない source ノード のエッジを後回しにすると配線不能になってしまう可能性が高 まる。

#### 3.2 初期マッピングの生成

遺伝的アルゴリズムでは初期解の生成がアルゴリズムの収束 時間と得られる解の多様性、探索空間の広がりに大きな影響を もたらす。つまり、初期解の集団は短時間で収束できるように ある程度の良好な解で、局所最適解に陥らないように多様性を 持っている必要がある。そこで、本研究ではグラフ描画アルゴ リズムとして用いられる graphviz [17] を用いた手法を提案す る。一般にグラフ描画アルゴリズムはノード間の距離をできる だけ均一にし、エッジの交差を少なくすることを目的とする。 他にも力学モデルに基づくアルゴリズムなどが多数提案されて いるが、graphviz はデータフローグラフのような有向グラフに おいて階層構造を意識したレイアウトを行うアルゴリズムであ り、CGRA の空間的マッピングに適する。

以下に graphviz を用いて初期マッピングを生成する流れと 図 6 にその例を示す。

- 対象のデータフローグラフ (図 6(a))を graphviz でレイアウト
- (2) レイアウト結果の座標を正規化 ((図 6(b)))
- (3) 50%の確率で正規化結果を左右反転
- (4) マップする PE のサイズをランダムに決定し
   座標を拡張 (図 6(c)、図 6(e))
- (5) 各ノードを近傍の格子点 (PE) ヘランダムに移動
   (図 6(d)、図 6(f))

(3)~(5)の操作を繰り返すことで複数の異なるマッピングを 生成することができる。(5)の操作において複数のノードが同 じ PE にマップされた場合、交叉処理と同様に別の近傍 PE へ 移動させられる。







図7 CC-SOTB のチップ写真



図 8 CC-SOTB2 のチップ写真

# 4. 評 価

GenMap の評価を行う上で、消費電力は実機測定を行い取 得する。図 7 と図 8 はそれぞれ CC-SOTB と CC-SOTB2 の チップ写真である。

#### 4.1 予備評価

本研究では GenMap で最適化する目的関数を以下の 4 つに 設定して評価を行う。

| 表 2 モデル式の精度 |         |        |  |  |  |  |
|-------------|---------|--------|--|--|--|--|
|             | CC-SOTB | NVCMA  |  |  |  |  |
| 平均誤差        | 13.24%  | 11.84% |  |  |  |  |

- 総配線長 (最小化)
- マッピング幅 (最小化)
- 消費電力 (最小化)
- タイムスラック (最大化)

消費電力はダイナミック電力とスタティック電力の和を最小 化する。ただし、ボディーバイアス制御を考慮しない NVCMA では全ての解個体で同一のスタティック電力である。CC-SOTB と CC-SOTB2 に関しては、ルーティングが完了した個体は [18] で提案されている整数計画法を用いてタイミング違反を起こさ ない範囲でリーク電力を最小化し、最適なボディーバイアス 電圧を決定する。一方、ダイナミック電力はマッピングおよび ルーティング結果から [19] で提案されている電力モデル式を用 いて推定される。モデル式の詳細は文献 [19] を参照されたい。

しかしながら、前述の先行研究[19] ではこのモデル式のパラ メータを CC-SOTB2 についてしか導出していない。したがっ て、本研究では CC-SOTB および NVCMA に関してモデル式 のパラメータを決定する必要がある。パラメータ決定のために、 まず両チップに異なる約 100 個のマッピングをコンフィギュ レーションし、それぞれ消費電力を測定し、その結果を元にモ デル式のパラメータを決定する。パラメータの決定は非線形最 小二乗問題として扱い、Levenberg-Marquardt 法を用いる。決 定後のパラメータを用いて算出した電力値と実測値の平均誤差 を表2に示す。CC-SOTBとNVCMA はそれぞれ異なるアー キテクチャ、プロセス技術で実装されているものの、共通のモ デル式でパラメータを適切に決定することで平均誤差 10%程度 の精度で電力を推定することができる。本モデルはポストレイ アウトシミュレーションのような長い時間要して正確に電力を 見積もるためではなく、高速に各マッピングの評価を行うこと が目的である。したがって、10%程度の誤差はこの利用目的に は十分許容できるもである。

#### 4.2 最適化結果の比較

4.2.1 遺伝的アルゴリズムの収束

NSGA-II による最適化の収束を確認する。3.2節で提案した 初期マッピングの生成手法の効果を確認するために、3つのアー キテクチャに対して3種類の初期マッピング生成手法をそれぞ れ評価し、比較を行う。1つは graphviz を用いた提案手法で、 残りはランダムにマッピングを生成した場合である。ただし、 配置する PE をランダムに選択しつつ、データフローグラフの ノード割り当てにトポロジカルソートを用いる場合 (tsort)、と ノードの割り当ても完全にランダムに行う (random) 場合の 2 つを評価している。

各世代におけるパレート最適解の Hypervolume が変化する 様子を図 9 にまとめる。Hypervolume は解の多様性と収束性 の両方を示す尺度であり、アーキテクチャ間で値の違いは大き な意味を持たない。この結果には探索空間の大きさが関係して いる。3 つの中で最も探索空間が広いのは CC-SOTB2 であり、 マッピングに加えてパイプライン構造、ボディバイアス電圧の 決定も行う必要がある。一方、NVCMA は他の 2 つ比較して PE アレイサイズも小さく、ボディバイアス電圧の決定も不要 であるため探索空間は小さい。提案手法の graphviz を用いた 手法では探索空間の広い CC-SOTB2 で特に効果的であり、ト ポロジカルソートを利用する場合、100 世代を過ぎたあたりか

表 3 最適化結果の比較 (af)

| 毛法                      | CC-SOTB |       | CC-SOTB2 |       | NVCMA |       |  |  |
|-------------------------|---------|-------|----------|-------|-------|-------|--|--|
|                         | 配線長     | map 幅 | 配線長      | map 幅 | 配線長   | map 幅 |  |  |
| CGRA-ME [10]            | 45      | 3     | 69       | 3     | 103   | 3     |  |  |
| SPKM [8]                | 62      | 3     | 57       | 4     | 79    | 3     |  |  |
| GenMapwire              | 41      | 5     | 38       | 6     | 71    | 4     |  |  |
| GenMap <sub>width</sub> | 53      | 3     | 56       | 3     | 81    | 3     |  |  |

ら解の更新が進まなくなり、graphviz を用いる場合と比べて多 様性や最適化結果は劣る。また、どのアーキテクチャにおいて も完全にランダムな初期マッピングを用いると他の方法に比べ 収束に時間がかかる。しかし、探索空間の小さい NVCMA で は3つの方法にそれほど大きな違いはない。

4.2.2 配線長とマッピング幅の比較

GenMap による最適化結果と比較を行うために、CGRA-ME の ILP mapper [10] と SPKM [8] をベースにした手法でもマッ ピングを行なった。SPKM では CMA のような配線資源として SE を持つ CGRA を直接扱うことができない。そのため、マッ ピングのみ SPKM を用い、ルーティングには GenMap に組み 込まれているものを利用する。一方で、CGRA-ME は CMA の 各アーキテクチャを記述することができ、ルーティングまで行 うことができる。本論文ではスペースの都合上 24bit アルファ ブレンド (24 演算ノード) のアプリケーションのみに焦点を当 てる。

マッピング結果の比較を表3に示す。CGRA-ME はマッピ ング問題を整数計画問題ヘモデル化することにより、非常に強 力なマッピング能力を持つ。本評価で用いたアプリケーション は24ノードであるため、3列×8行の PE が最低限必要なマッ ピングサイズであるが、CGRA-ME はいずれのアーキテクチャ においてもこのサイズでのマッピングに成功している。SPKM をベースとした手法では CC-SOTB2 を除き、CGRA-ME と同 じ幅でマッピングに成功している。

GenMap による結果はパレート最適解の中から、配線長 が最小のもの (GenMapwire) とマッピング幅が最小のもの (GenMapwidth) のみを抽出し、表3に示している。CGRA-ME で確認されている最小マッピング幅をいずれのアーキテク チャでも得ることができている。さらに、配線長とマッピング 幅を同時に最適化していくため、同じマッピング幅でありながら CC-SOTB2、NVCMA においてそれぞれ約 19%, 21%の配線 長削減を達成した。しかし、CC-SOTB に関しては CGRA-ME と比べ 17%程度配線長が増加している。一方、配線長を優先す ると GenMap はいずれのアーキテクチャにおいて他の 2 つの 手法よりも配線長の短いマッピングを得ることができている。

多くのマッピング手法では配線資源として SE を持つことを 想定としておらず、CMA におけるダイレクトリンクのように隣 接 PE との相互接続のみで配線を行うことが多い。CGRA-ME は SE を持つ PE をモデル化することは可能であるが、それを考 慮したルーティング能力はやや低いと推測される。CC-SOTB には 2.2 節の図 2(b) に示した通り、1 つ先の PE にもダイレ クトリンクが伸びている。したがって、ダイレクトリンクを活 用すれば SE を利用しなくても配線可能なことが多く、結果的 CGRA-ME の方がよい配線結果を示している。

**4.2.3** 消費電力の比較

最後に、消費電力の比較を行う。本稿では CC-SOTB を用 いた場合の結果のみを報告する。様々な要求性能を想定して GenMap、CGRA-ME、SPKM が生成したマッピングを動作







させ電力を測定した結果を図 10 に示す。ただし、これらの電力 値は PE アレイ部のみの消費電力である。CGRA-ME、SPKM は要求性能に関わらず、常に一定のマッピングを生成するため、 動作周波数の増加によって線形にダイナミック電力が増加して いる。一方で、GenMap はボディバイアス制御を考慮しマッピ ングを決定できるため、要求性能が低い場合では、他の 2 つの マッピングよりも小さい電力を達成し、CGRA-ME と比べ平 均 11.3%、SPKM と比べ平均 14.6%の消費エネルギーを削減 している。さらに、ボディバイアス制御によってリーク電力増 加の対価として CGRA-ME と比べ 1.6 倍、SPKM と比べ 2.4 倍の成功性能を達成している。

# 5. 結 論

本稿では、空間的マッピングを行う CGRA のためのマッピ ングフレームワーク GenMap を提案した。GenMap は遺伝的 アルゴリズムを用いて多目的な最適化を行う。すでに実チップ 化されている3つのアーキテクチャ CC-SOTB、CC-SOTB2、 NVCMA を対象に評価を行なった結果、20%程度の配線長削 減や10%程度のエネルギー削減、1.6 倍以上の性能向上を達成 した。

#### 謝 辞

本研究は、JSPS 科研費(B) ビルディングブロック型計算シ ステムにおけるチップブリッジを用いた積層方式(18H03125) および科研費3次元積層技術を応用した粗粒度再構成可能デバ イスの研究(19J21493)の助成を受けたものである。また、東 京大学大規模集積システム設計教育研究センターを通し、シノ プシス株式会社の協力で行われたものです。関係者の皆様に感 謝致します。

#### 文 献

- N. Ozaki, Y. Yasuda, M. Izawa, Y. Saito, D. Ikebuchi, H. Amano, H. Nakamura, K. Usami, M. Namiki and M. Kondo: "Cool Mega-Arrays: Ultralow-Power Reconfigurable Accelerator Chips", IEEE Micro, **31**, 6, pp. 6–18 (2011).
- [2] Y. Matsushita, H. Okuhara, K. Masuyama, Y. Fujita, R. Kawano and H. Amano: "Body bias grain size exploration for a coarse grained reconfigurable accelerator", 2016 26th International Conference on Field

Programmable Logic and Applications (FPL), pp. 1–4 (2016).

- [3] T. Kojima, N. Ando, Y. Matshushita, H. Okuhara, N. A. V. Doan and H. Amano: "Real chip evaluation of a low power CGRA with optimized application mapping", Proceedings of the 9th International Symposium on Highly-Efficient Accelerators and Reconfigurable TechnologiesACM, p. 13 (2018).
- [4] T. Ikezoe, H. Amano, J. Akaike, K. Usami, M. Kudo, K. Hiraga, Y. Shuto and K. Yagami: "A Coarse Grained-Reconfigurable Accelerator with energy efficient MTJ-based Non-volatile Flip-flops", 2018 International Conference on ReConFigurable Computing and FPGAs (ReConFig)IEEE, pp. 1–6 (2018).
- [5] S. Dave, M. Balasubramanian and A. Shrivastava: "RAMP: resourceaware mapping for CGRAs", Proceedings of the 55th Annual Design Automation ConferenceACM, p. 127 (2018).
- [6] S. Yin, X. Yao, D. Liu, L. Liu and S. Wei: "Memory-aware loop mapping on coarse-grained reconfigurable architectures", IEEE Transactions on Very Large Scale Integration (VLSI) Systems, 24, 5, pp. 1895– 1908 (2016).
- [7] M. Karunaratne, A. K. Mohite, T. Mitra and L.-S. Peh: "Hy-CUBE: A CGRA with reconfigurable single-cycle multi-hop interconnect", Design Automation Conference (DAC), 2017 54th ACM/EDAC/IEEEIEEE, pp. 1–6 (2017).
- [8] J. W. Yoon, A. Shrivastava, S. Park, M. Ahn, R. Jeyapaul and Y. Paek: "SPKM: A novel graph drawing based algorithm for application mapping onto coarse-grained reconfigurable architectures", Proceedings of the 2008 Asia and South Pacific Design Automation ConferenceIEEE Computer Society Press, pp. 776–782 (2008).
- [9] D. Liu, S. Yin, G. Luo, J. Shang, L. Liu, S. Wei, Y. Feng and S. Zhou: "Data-Flow Graph Mapping Optimization for CGRA with Deep Reinforcement Learning", IEEE Transactions on Computer-Aided Design of Integrated Circuits and Systems (2018).
- [10] M. J. Walker and J. H. Anderson: "Generic connectivity-based cgra mapping via integer linear programming", 2019 IEEE 27th Annual International Symposium on Field-Programmable Custom Computing Machines (FCCM)IEEE, pp. 65-73 (2019).
- [11] S. A. Chin, N. Sakamoto, A. Rui, J. Zhao, J. H. Kim, Y. Hara-Azumi and J. Anderson: "Cgra-me: A unified framework for cgra modelling and exploration", Application-specific Systems, Architectures and Processors (ASAP), 2017 IEEE 28th International Conference onIEEE, pp. 184–189 (2017).
- [12] J. Gu, S. Yin, L. Liu and S. Wei: "Energy-aware loops mapping on multi-vdd CGRAs without performance degradation", Design Automation Conference (ASP-DAC), 2017 22nd Asia and South PacificIEEE, pp. 312-317 (2017).
- [13] K. Deb, A. Pratap, S. Agarwal and T. Meyarivan: "A fast and elitist multiobjective genetic algorithm: NSGA-II", IEEE transactions on evolutionary computation, 6, 2, pp. 182–197 (2002).
- [14] L. Davis: "Adapting operator probabilities in genetic algorithms", Proceedings of the third international conference on Genetic algor ithms, San Francisco, CA, USA, Morgan Kaufmann Publishers Inc., pp. 61–69 (1989).
- [15] L. Zhou, J. Zhang and H. Liu: "Ant Colony Algorithm for Steiner Tree Problem in CGRA Mapping", Information Science and Control Engineering (ICISCE), 2017 4th International Conference onIEEE, pp. 198-202 (2017).
- [16] H. Park, K. Fan, S. A. Mahlke, T. Oh, H. Kim and H.-s. Kim: "Edgecentric modulo scheduling for coarse-grained reconfigurable architectures", Proceedings of the 17th international conference on Parallel architectures and compilation techniquesACM, pp. 166-176 (2008).
- [17] E. R. Gansner, E. Koutsofios, S. C. North and K.-P. Vo: "A technique for drawing directed graphs", IEEE Transactions on Software Engineering, 19, 3, pp. 214–230 (1993).
- [18] T. Kojima, N. Ando, H. Okuhara, N. A. V. Doan and H. Amano: "Body bias optimization for variable pipelined CGRA", Field Programmable Logic and Applications (FPL), 2017 27th International Conference onIEEE, pp. 1–4 (2017).
- [19] T. Kojima, N. Ando, H. Okuhara and H. Amano: "Glitch-aware variable pipeline optimization for CGRAs", 2017 International Conference on ReConFigurable Computing and FPGAs (ReConFig), pp. 1–6 (2017).