# 多目的遺伝的アルゴリズムを用いた CGRA マッピング最適化手法と 実チップ評価

天野 英晴†

† 慶應義塾大学大学院 理工学研究科 223-8522 神奈川県横浜市港北区日吉 3-14-1 E-mail: †{tkojima,ando,matsushita,hayate,doan,hunga}@am.ics.keio.ac.jp

**あらまし** 粗粒度再構成可能アーキテクチャ (CGRA: Coarse-Grained Reconfigurable Architecture) 向けの様々な最 適化手法が提案されているが、さらなる電力削減のための最適化は未だ複雑な問題のままである。さらに、これらの 多くはシミュレーションによる評価に基づいており、実チップへ適用可能かどうかに関して疑問の余地が残る。そこ で、我々は実チップ化された CCSOTB2 と呼ばれる CGRA チップを用いて、提案する最適化手法の評価を行う。提 案する最適化手法にはメタヒューリスティックの一種である多目的遺伝的アルゴリズムを用いて、アプリケーション マッピングを含むすべての再構成可能な項目の最適化を同時に行う。実チップ実験の結果、既存手法と比較して平均 14.2%の電力削減を達成した。また、多目的遺伝的アルゴリズムを用いたことによりユーザは電力だけでなく、性能や スループットに優れるマッピングを選ぶこともでき、多様な要求に応じることが可能となる。 **キーワード** CGRA, 遺伝的アルゴリズム, 多目的最適化, 実チップ測定, ボディバイアス制御

Takuya KOJIMA<sup>†</sup>, Naoki ANDO<sup>†</sup>, Yusuke MATSUSHITA<sup>†</sup>, Hayate OKUHARA<sup>†</sup>,

Ng. Doan Anh $\mathrm{Vu}^\dagger,$  and Hideharu AMANO^\dagger

† Graduate School of Science and Technology, Keio University Hiyoshi 3–14–1, Kohoku-ku, Yokohama, Kanagawa, 223–8522 Japan

E-mail: *†*{tkojima,ando,matsushita,hayate,doan,hunga}@am.ics.keio.ac.jp

# 1. はじめに

近い将来、IoT デバイスやセンサーネットワーク、ウェアラ ブルコンピューティングなどがより広く普及すると予測されて いる。しかし、これらのデバイスでは高い処理能力と低電力性 の両方が同時に求められるため汎用の CPU は適さない。そこ で、計算負荷の高い部分を肩代わりする効率的なアクセラレー タが必要となる。

粗粒度再構成可能アーキテクチャ CGRA(Coarse-Grained Reconfigurable Architecture)はこれらの要求を満たす一つのプ ラットフォームである。多くの CGRA は多数の PE(Processing Element)が2次元のアレイ状に配置され、それらは相互に接 続される。PE は単純な ALU、SE (Switch Element)から構成 されており、ALU で実行される演算と相互接続を再構成する ことで効率的に処理を行うことができる。

CMA(Cool Mega Array) は計算に不要な電力の削減を図っ た低電力 CGRA の一つである [1]。CMA はサイクル単位での 再構成 (動的再構成) しないことで、大幅なダイナミック電力 の削減を実現している。これによる柔軟性の低下を避けるため に小規模なマイクロコントローラを備えており、PE アレイと データメモリの間の柔軟なデータ転送を可能にしている。しか し、CMA の PE アレイはレジスタファイルを持たない巨大な 組み合わせ回路のみで構成されるため、長いクリティカルパス 遅延が性能のボトルネックとなっていた。

VPCMA (Variable Pipeline Cool Mega Array) はこの問題 を解消するために提案された改良型 CMA である [2]。PE アレ イは必要最小限のレジスタによってパイプライン化され、各々 のパイプラインレジスタは選択的に利用される。これにより再 構成可能なパイプライン構造を実現し、電力オーバーヘッドを 必要最低限に抑えながら高い性能とスループットを得ること ができる。また、VPCMA は FD-SOI(Fully Depleted Silicon On Insulator) の一種である 65nm の SOTB(Silicon on Thin Buried Oxide) プロセスで設計されていて、リーク電力と性能 のバランスを調整するボディバイアス制御が適用可能である。 一般に CGRA のコンパイラは NP 困難であると知られてい るタスクマッピングを行う必要がありその処理は複雑化する。 そこで、様々なヒューリスティックスが提案されている [3],[4]。 ところが、VPCMA を最大限に活用するためには、タスクマッ ピングに加えてパイプライン構造とボディバイアス電圧の決定 も行う必要があり、さらなる複雑化を招く。本研究ではこの複 雑な処理を行うため多目的遺伝的アルゴリズムをベースとした コンパイラを開発し、本手法の有効性を実チップ評価により確 認する。本手法はパイプライン構造、ボディバイアス電圧を同 時に考慮しながら最適なタスクマッピングを決定することを目 標とする。

## **2. 背景と関連研究**

典型的な CGRA ではサイクル単位で構成を変化させる動的再 構成をサポートしているが、これは大きなダイナミック電力を消 費する。そこで、いくつかの CGRA ではエネルギー効率を高め るために静的再構成もしくは再構成頻度を抑えた動的再構成を 採用している。我々はこれらの CGRA を SF-CGRA(Straight Forward CGRA) と呼ぶ。SF-CGRA はパイプライン化された PE アレイとデータメモリ、そしてその間に柔軟なデータ転送 を実現する置換ネットワークを備えている。入力データはデー タメモリからロードされるとこの置換ネットワークを通じて PE アレイへ入力される。PE アレイからの出力データも同様 にしてデータメモリへ書き戻される。SF-CGRA の例として Piperench [7]、Kilo-core [8]、EGRA [9] などがある。

CMA アーキテクチャも静的再構成型の SF-CGRA である [1]。 CMA の PE はレジスタファイルを持たず、PE アレイが完全な 組み合わせ回路で構成されているため、PE アレイへのクロック 分配を必要としない。これによって演算に不要なダイナミック 電力を最低限に抑えている。しかし、巨大な組み合わせ回路故 にクリティカルパス遅延が増大し、性能向上には限界があった。

### 2.1 VPCMA アーキテクチャ

そこで改良型の CMA である VPCMA が提案された [2]。 VPCMA の概要を図 1 に示す。8×12 の PE アレイ、マイク ロコントローラ、データマニピュレータ、そしてバンクメモリ から構成されている。元の CMA と異なり、VPCMA は各 PE 行の間に計 7本のパイプラインレジスタが挿入されている。

入力データが Fetch Register へ送られると、PE アレイは 自動的に計算を開始する。数クロック後に計算結果が Gather Register へ格納される。PE 間の相互接続には 2 種類のタイプ が存在する。一方は図中の実線で表された各 SE によって構成 されるメッシュネットワークであり、他方は図中の点線で表さ れた ALU 間を直接結ぶダイレクトリンクである。ダイレクト リンクは北、北西、北東方向の 3 方向へ広がっている。

パイプラインレジスタを7本のみに制限しても、未だパイプ ライン化の電力オーバーヘッドは大きい。そこで、VPCMAで はユーザがパイプラインレジスタを選択的に利用することを可 能にし、再構成可能なパイプライン構造を実現している。図1 にはそのためのパイプラインレジスタの実装も示している。コ ンフィギュレーションデータに従いマルチプレクサはレジスタ のデータもしくは前段 PE の ALU が出力するデータのどちら か一方を後段 PE へ送る。パイプラインレジスタが利用されな い場合はこれらはクロックゲーティングが施される。

Fetch Register と Gather Register はそれぞれ PE アレイの 入力と出力に接続されている。マイクロコントローラはこれら のレジスタと 12 のバンクに分けられたデータメモリとの間の データ転送を制御する。マイクロコントローラが Fetch 命令を 実行すると即座にデータメモリから Fetch Register ヘデータが 転送されるのに対して、Gather 命令が発行された場合、この 実行は PE アレイの計算結果が Gather Register へ格納される までストールする。データマニピュレータは 12 入力-12 出力 の置換ネットワークであり、転送テーブルに基づき各出力ポー トは任意の入力ポートからのデータを転送することができる。 Fetch 命令及び Gather 命令はこのテーブル番号を指定するた めのオペランドを持っており、様々な転送パターンを容易に切 り替えることができる。

#### 2.2 SOTB プロセスにおけるボディバイアス制御

SOTB は FD-SOI の一種であり、図 2 に示すように薄い BOX 層の上にトランジスタが形成される。FD-SOI ではボディへ印 加するする電圧を変化させることで性能とリーク電力のトレー ドオフを広い範囲で調整することができる [10]。これをボディ バイアス制御と呼び、SOTB には PMOS 側と NMOS 側のバッ クゲート端子 VBN と VBP をそれぞれ持つ。VBN = 0 と した場合、閾値は通常レベルとなりこれをゼロバイアスと呼 ぶ。VBN < 0(リバースバイアス) とした場合、閾値レベルが 上がりリーク電力が削減される一方で性能が低下する。反対に VBN > 0(フォワードバイアス) とした場合、性能が向上する 一方でリーク電力は増大する。NMOS と PMOS のバランスを とるために、VBP+VBN = VDD となるように電圧を与え る。よって、以降では VBN の値をボディバイアス電圧として 示す。

ボディバイアス制御は FPGA をはじめとする再構成可能デ バイスに適用されている [11]。再構成可能デバイスでは構成に よってクリティカルパスと非クリティカルパスの差が大きくな ることがある。そのため、非クリティカルパスに対してリバー スバイアスを与えることでリーク電力を抑えることができる。 しかし、これらの研究の多くは決定されたコンフィグレーショ ンを元に後からボディバイアス電圧を決定しているいる。さら なる電力削減が要求される場合、ボディバイアス電圧とコン フィグレーションを同時に最適化していく必要がある。

#### 2.3 タスクマッピングの複雑さ

VPCMAにおいては以下の3つの項目を最適化することで、 電力を削減する機会がある。

(1) PE アレイへのタスクマッピング

- (2) パイプライン構造
- (3) 各ドメインのボディバイアス電圧
- 2.3.1 タスクマッピング

一般に CGRA で処理されるアプリケーションはデータフ
ローグラフ (DFG) で表現される。1つのノードは1つの演算
を意味し、エッジは演算間のデータ依存を示す。ノードは PE
の ALU へ割り当てられ、ノード間にエッジが存在する場合は



図 2: SOTB のトランジスタ構造

マップされた PE 間の配線を行う必要がある。この問題は NP-困難な問題であると知られている。

2.3.2 パイプライン構造

表1にパイプライン段数と性能、電力の関係をまとめる。パ イプライン段数が小さい場合でも消費電力が小さいとは限らな い。これは使用されるパイプラインレジスタが少ない場合、グ リッチ伝搬による消費電力の増加を引き起こすためである。グ リッチとは本来計算に不要なスイッチングであり、PEの入力 データがそれぞれ異なる遅延時間で到着することにより発生す る。パイプラインレジスタを利用しない場合、これらは後段の PE へ伝搬されさらに多くのグリッチを発生させる。VPCMA は7本のパイプラインレジスタを持つので最大で2<sup>7</sup> = 128 パ ターンのパイプラインレジスタを持つので最大で2<sup>7</sup> = 128 パ ターンのパイプライン構造を実現可能であり、表1の複雑なト レードオフのため最適なパイプライン構造を決定するのは容易 ではない。

# 2.3.3 ボディバイアス電圧

VPCMA の回路はいくつかのボディバイアスドメインに分 割されている。各ドメインはそれぞれ独立にボディバイアス電 圧を与えることができる。N 種類のボディバイアス電圧が利用 可能で *M* ドメインが存在する場合、*M<sup>N</sup>* パターンの組み合わ せがある。

多くのマッピング手法では動的再構成型の CGRA に焦点を 当てており、一般にモジュロスケジューリングなどのソフトウェ アパイプラインをベースとしている [3], [4]。また、これらの主 目的は高い性能のマッピングを短時間で得ることであり [3]、[4] で提案されている手法のように消費エネルギーを考慮していて も、性能が優先されている。したがった、これらの手法は高い エネルギー効率を目指す SF-CGRA には不適である。

先行研究として整数計画法 (ILP: Integer Linear Program) 用いてパイプライン構造とボディバイアス電圧の両方を同時に 最適化する手法を提案した。[5]。また、別の手法ではダイナミッ ク電力モデルに基づく、グリッチの影響を考慮したパイプライ ン構造の最適化を行なっていた[12]。しかし、この2つの先行 研究は共に、Black-Diamond コンパイラ[6]によって得られる 固定されたマッピングに対して最適化を行なっており、マッピ ングの最適化を行うことはできていない。そこで、さらなる電 力削減を目指し、マッピングを含む全ての項目を同時に最適化 する新たな手法を提案する。

# 3. 実チップ実装

我々は VPCMA アーキテクチャを実チップ化した CCSOTB2(CMA-Cube-SOTB2)を開発した。CCSOTB2の 仕様を表 2 にまとめる。図 3 は CCSOTB2 のチップ写真で ある。黄色の枠で囲まれた部分が PE 行であり、赤色の枠で 囲まれた部分はチップ間無線接続のためのインターフェース TCI(ThruChip Interface)である。ただし、TCI は本研究で利 用しない。

表2に示したように CCSOTB2 は5 つのボディバイアスド メインを持つ。PE アレイの6、7、8 行目はそれぞれ個別のドメ インになっていて、1 行目から5 行目は同一のドメインとなっ ている。理想的にはこれらもすべて独立のドメインとすべきで あったが、試作チップで利用可能な IO ピンの制約から同一ド メインとなっている。また、例えば2 行単位の均等なドメイン

| 表 2: CCSOTB2 の仕様 |                          |  |  |  |
|------------------|--------------------------|--|--|--|
| 設計               | Verilog HDL              |  |  |  |
| プロセス             | Renesas SOTB 65 nm       |  |  |  |
| ライブラリ            | LPT-8                    |  |  |  |
| 論理合成             | Synopsys Design Compiler |  |  |  |
|                  | 2016.03-SP4              |  |  |  |
| 配置配線             | Synopsys IC Compiler     |  |  |  |
|                  | 2016.03-SP4              |  |  |  |
| チップサイズ           | 6mm × 3mm                |  |  |  |
| ボディバイアスドメイン      |                          |  |  |  |
| Domain1          | PE 行 1-5                 |  |  |  |
| Domain2          | PE 行 6                   |  |  |  |
| Domain3          | PE 行 7                   |  |  |  |
| Domain4          | PE 行 8                   |  |  |  |
| Domain5          | マイクロコントローラを含むその他         |  |  |  |



図 3: CCSOTB2 のチップ写真



図 4: 個体評価のフロー

サイズに分割しなかったのは、経験的に上方の PE は利用され ないことが多く、これらの行に強いリバースバイアスを与える ことを想定したためである。ただし、パイプラインレジスタは マイクロコントローラと同一のドメイン (Domain5) に属して おり、同一のクロック周波数で動作する。

# 4. 最適化手法

すでに述べたように、タスクマッピングに加えたパイプライン構造とボディバイアス電圧を考慮した最適化手法が必要となる。しかし、タスクマッピング自体が NP-困難な問題であることから、メタヒューリスティックベースの手法を検討する。 そこで、本研究では多目的遺伝的アルゴリズムの一種である NSGA-II を採用した。多目的な最適化問題として扱うことで、 消費電力だけでなく、スループット、配線長、動作周波数など



図 5: 評価環境

様々な項目を同時に最適化することが可能となる。

本遺伝的アルゴリズムにおける、遺伝子コーディングは2種 類のパートで構成される1:) DFGの各ノードがマップされる PEの座標リスト、および、2:) 各パイプラインレジスタのた めの7bit ビットマップ。一般的な遺伝的アルゴリズムと同様 に、遺伝子操作として交叉と突然変異を定義する。交叉では各 パートごとに一点交叉を行う。突然変異では座標リストに関し ては2つのノード間で座標を交換、またはランダムに座標を変 更し、パイプラインレジスタのビットマップに関してはランダ ムにビット反転を行う。交叉と突然変異の確率は広く利用され ている0.7と0.3を用いる[13]. これによって、タスクマッピン グとパイプライン構造の両方を同時に探索することができる。

各遺伝子に対して図4に示すフローで各項目の個体評価と 最適なボディバイアス電圧の決定を行う。DFG の各ノードが マップされた座標リストから A\* アルゴリズムを用いて PE 間 のルーティングが行われる。ルーティングが完了すると総配線 長が定まり、さらにグリッチの分析が行われる。このグリッチ の分析には[12] で提案されたダイナミック電力モデルを利用す る。グリッチ分析が完了するとダイナミック電力の評価が完了 する。ボディバイアス電圧を決定するために[5] で用いられて いる手法と同様に整数計画法を用いる。この時、ユーザは目標 周波数を制約条件として与え、ユーザが求める動作周波数の範 囲でリーク電力を最小化する。並列度は同一の DFG マッピン グを PE アレイ上に繰り返し展開できる数を示しており、例え ば4列の PE を利用する DFG マッピングは 12 列の PE アレイ に3回繰り返すことができるため並列度は3となる。NSGA-II では個体評価結果に基づき、各個体をランク付けし、ソーティ ングを行い個体の取捨選択を繰り返し世代を進化させる。

# 5. 実チップ評価

本研究で提案した最適化手法の有効性を確認するために実 チップ評価を行う。

# 5.1 予備評価

ます、図5に示す測定環境を構築した。専用のマザーボード を用いて、CCSOTB2の評価ボードとホストコントローラとし て Artix-7 を搭載した FPGA を互いに接続している。電源電 圧 VDD と各ボディバイアス電圧 VBN、VBP は CCSOTB2 ボードの電源ピンから供給される。

表 3: 評価用アプリケーション

| アプリケーション | 説明                    |  |  |
|----------|-----------------------|--|--|
| gray     | 24 bit (RGB) グレースケール  |  |  |
| sepia    | 8 bit セピアフィルタ         |  |  |
| af       | 24 bit (RGB) アルファブレンダ |  |  |
| sf       | 24 bit (RGB) セピアフィルタ  |  |  |



評価には表3にまとめる4つの画像処理アプリケーション を用いる。比較のために、本手法が生成するマッピング結果と Black-Diamond コンパイラ[6]が生成するマッピング結果の両 方を利用する。ただし、Black-Diamond はボディバイアス制御 とパイプライン構造を考慮することはできない。加えて、ユー ザの要求性能に依らず常に同一のマッピングを生成する。

4. 節で説明した個体評価には PE の遅延時間、リーク電力 などの様々なパラメータが必要となる。これらのパラメータは 可能な限り実チップ実験を行なって取得する。ただし遅延時 間の測定は困難であるため本研究では Synopsys HSIM による シミュレーション結果を用いる。このシミュレーションでは *VDD*=0.55 V, 各ボディバイアス電圧を 0.2 V 単位で-0.8 V ~+0.4V の範囲で変化させて遅延時間を取得した。

#### 5.2 リーク電力

PEの行単位でのリーク電力を測定するために PE アレイの 4 つのドメイン (Domain1~4) 毎にリーク電力を測定した。あ るドメインのリーク電力を測定する際は、他のドメインは-2.0 V の強いリバースバイアスを与えることで無視できるほど小さ なリーク電流にした。1 行あたりリーク電力測定結果を図 6 に 示す。これらの値は 4 つのドメインで測定した電力の平均値と なっている。ただし、Domain1 に関しては 5 つの PE 行が含 まれるため 5 分の 1 にした値を利用している。ボディバイアス 電圧が大きくなるにつれて指数関数的にリーク電力が増加して いることがわかる。

#### 5.3 動作周波数

実験の結果、電源電E VDD = 0.55 V において CCSOTB2 のマイクロコントローラは 30MHz で動作し、この時すべての パイプラインレジスタを利用する必要はないことがわかった。 つまり、性能のボトルネックは PE アレイではなく、マイクロ コントローラにあると言える。以降では 30MHz を最適化の目 標周波数として設定する。

### 5.4 最適化結果

各アプリケーションに関して提案した最適化を施し、実行し



た場合の消費電力を測定した。比較対象の Black-Diamond の マッピングに対しては [12] で提案されているパイプライン構造 の最適化のみ適用した。これは Black-Diamond 自身はパイプ ライン構造を決定できないためである。また、30MHz で動作 させる場合 PE アレイをパイプライン化しない場合タイミング 制約を満たせないためです。

### 5.4.1 マッピング結果

図 7(a) および (b) はそれぞれ Black-Diamond と本手法の マッピング結果である。Black-Diamond を利用する場合、プ ログラマは利用する PE を手動で指定する必要があった。一 方、本手法ではプログラマは PE の座標を指定することなく自 動的にマッピングを生成することができている。また、Black-Diamond ではグリッチの影響を考慮せずにマッピングを決定 するため、タイミング制約を満たすためでなく、グリッチ伝搬 を抑制するために4本のパイプラインレジスタが利用されてい る。対して、本手法ではマッピングの時点でグリッチの影響を 考慮することができるため、より少ないパイプラインレジスタ を使用している。

本手法により最適化されたボディバイアス電圧を表4に示 す。この結果からアプリケーションによって最適なボディバイ アス電圧が異なることがわかる。afの場合、リバースバイアス は Domain4(8 行目の PE)のみに与えられている。afではリ バースバイアスの代わりにパイプラインレジスタが1本にす ることでダイナミック電力を抑えている。反対に、grayでは 3本のパイプラインレジスタを利用する代わりに、リバースバ イアスを最後の3行に対して利用しリーク電力を抑えている。 図7(b)を見ると最後のパイプラインステージには、シフト演算 (e.g. shift-right "SR")や論理演算(e.g. bit-wise OR "OR"), などの比較的遅延時間の小さい演算が割り当てられている。こ のためこれらの行にはリバースバイアスを印加できるほどの遅 延時間に余裕がある。このように、アプリケーションに応じて

|       | Domains        |              |             |              |  |  |
|-------|----------------|--------------|-------------|--------------|--|--|
|       | 1 (1-5th rows) | 2 (6 th row) | 3 (7th row) | 4 (8 th row) |  |  |
| af    | 0.0 V          | 0.0 V        | 0.0 V       | -0.2 V       |  |  |
| gray  | 0.0 V          | -0.4 V       | -0.4 V      | -0.4 V       |  |  |
| sf    | 0.0 V          | -0.6 V       | -0.2 V      | -0.2 V       |  |  |
| sepia | 0.0 V          | -0.8 V       | -0.8 V      | 0.0 V        |  |  |

表 4: 各ドメインの最適なボディバイアス電圧



図 8: 消費電力の比較

パイプライン構造とボディバイアス効果のトレードオフを調整 しながらマッピングを生成できていることがわかる。

# 5.4.2 消費電力

図 8 に各アプリケーションで両マッピングを実行した場合 の PE アレイでの消費電力を示す。本手法は Black-Diamond の場合と比べて最大で 16.7%(*af*)の削減を達成した。また、す べてのアプリケーションで電力削減を達成し、平均で 14.2%の 削減率を示した。これらの電力にはマイクロコントローラで の電力は含まれていないがどのアプリケーションにおいても 約 0.5mW ほどであり、本手法および Black-Diamond の間に はマイクロコントローラの動作に違いはないためこの電力に差 はない。*af*を 30 MHz で実行した場合、2160 MOPS (Million Operations Per Second)の性能を達成するため、チップ全体の 消費電力を考慮しても 680 MOPS/mW のエネルギー効率を実 現している。

# 6. 結 論

本研究では低電力 CGRA の VPCMA に向けた最適化手法 を提案した。一般に PE アレイにアプリケーションを割り当て る問題は非常に複雑な問題となるが、それに加えて本研究では VPCMA において必要なパイプライン構造の最適化とボディバ イアス電圧の最適化も同時に行なった。この問題の複雑さゆえ に我々は遺伝的アルゴリズムを採用した。

提案手法は既存手法の Black-Diamond を利用した場合と比 較して、優れたマッピング、パイプライン構造そしてボディバ イアス電圧を決定することができた。また、提案手法ではプロ グラマはデータフローグラフと目標周波数を入力するだけで自 動的にマッピングを決定することができた。実チップ実験の結 果、生成されたマッピング結果は平均で 14.2%の電力削減を達 成することができた。本研究では最適化項目として消費電力に 焦点を当てて評価を行ったが、多目的最適化であるためスルー プットなどのその他の項目とのトレードオフを調整することも 可能であり、今後詳しく比較、評価を行なっていく必要がある。

# 謝

辞

本研究は、JSPS 科研費 (S) 誘導結合を用いたビルディング ブロック型計算システムの研究 (25220002)、および JSPS 科研 費 (B) ビルディングブロック型計算システムにおけるチップブ リッジを用いた積層方式 (18H03125)の助成を受けたものであ る。また、東京大学大規模集積システム設計教育研究センター を通し、シノプシス株式会社の協力で行われたものです。関係 者の皆様に感謝致します。

- N. Ozaki, Y. Yasuda, M. Izawa, Y. Saito, D. Ikebuchi, H. Amano, H. Nakamura, K. Usami, M. Namiki and M. Kondo: "Cool Mega-Arrays: Ultralow-Power Reconfigurable Accelerator Chips", IEEE Micro, **31**, 6, pp. 6–18 (2011).
- [2] N. Ando, K. Masuyama, H. Okuhara and H. Amano: "Variable Pipeline Structure for Coarse Grained Reconfigurable Array CMA", 2016 International Conference on Field-Programmable Technology, pp. 231–238 (2016).
- [3] M. Hamzeh, A. Shrivastava and S. Vrudhula: "EPIMap: Using epimorphism to map applications on CGRAs", Design Automation Conference (DAC)IEEE, pp. 1280–1287 (2012).
- [4] J. Gu, S. Yin, L. Liu and S. Wei: "Energy-aware loops mapping on multi-vdd CGRAs without performance degradation", Design Automation Conference (ASP-DAC), 2017 22nd Asia and South PacificIEEE, pp. 312–317 (2017).
- [5] T. Kojima, N. Ando, H. Okuhara, N. Doan and H. Amano: "Optimization of body biasing for variable pipelined coarsegrained reconfigurable architectures", IEICE Transactions on Information and Systems, E101-D, 6 (2018).
- [6] V. Tunbunheng and H. Amano: "Black-diamond: a retargetable compiler using graph with configuration bits for dynamically reconfigurable architectures", *Proc. of The 14th* SASIMI, pp. 412–419 (2007).
- [7] H. Schmit, D. Whelihan, A. Tsai, M. Moe, B. Levine and R. R. Taylor: "Piperench: A virtualized programmable datapath in 0.18 micron technology", Custom Integrated Circuits Conference, 2002. Proceedings of the IEEE 2002IEEE, pp. 63–66 (2002).
- [8] B. Levine: "Kilocore: Scalable, High Performance and Power Efficient Coarse Grained Reconfigurable Fabrics", Proc. of International Symposium on Advanced Reconfigurable Systems, pp. 129–158 (2005).
- [9] G. Ansaloni, P. Bonzini and L. Pozzi: "Egra: A coarse grained reconfigurable architectural template", IEEE Transactions on Very Large Scale Integration (VLSI) Systems, **19**, 6, pp. 1062–1074 (2011).
- [10] Ishigaki, Takashi and Tsuchiya, Ryuta and Morita, Yusuke and Sugii, Nobuyuki and Kimura, Shin' ichiro: "Ultralowpower LSI Technology with Silicon on Thin Buried Oxide (SOTB) CMOSFET", Solid State Circuits Technologies, Jacobus W. Swart (Ed.), ISBN: 978-953-307-045-2, InTech, pp. 146–156 (2010).
- [11] M. Hioki and H. Koike: "Low Overhead Design of Power Reconfigurable FPGA with Fine-Grained Body Biasing on 65nm SOTB CMOS Technology", IEICE TRANSACTIONS on Information and Systems, 99, 12, pp. 3082–3089 (2016).
- [12] T. Kojima, N. Ando, H. Okuhara and H. Amano: "Glitchaware variable pipeline optimization for CGRAs", 2017 International Conference on ReConFigurable Computing and FPGAs (ReConFig), pp. 1–6 (2017).
- [13] L. Davis: "Adapting operator probabilities in genetic algorithms", Proceedings of the third international conference on Genetic algorithms, San Francisco, CA, USA, Morgan Kaufmann Publishers Inc., pp. 61–69 (1989).