昨日、
MPSoC勉強会で、”
MPSoCのPLの性能について”という発表をして来ました。MPSoC勉強会はいろいろと有意義なことが聞けて良かったです。中でもACPバスのコヒーレンシの制限についてはびっくりしました。良かったです。
このブログで、、”
MPSoCのPLの性能について”を詳しく書いておこうと思います。
まずは、Zynq-7000 のC言語で書いた AXI4 Stream 版ラプラシアンフィルタを用意しました。
lap_filter_axis.h を貼っておきます。
// lap_filter_axis.h
// 2015/05/01
#define HORIZONTAL_PIXEL_WIDTH 800
#define VERTICAL_PIXEL_WIDTH 600
//#define HORIZONTAL_PIXEL_WIDTH 50
//#define VERTICAL_PIXEL_WIDTH 10
#define ALL_PIXEL_VALUE (HORIZONTAL_PIXEL_WIDTH*VERTICAL_PIXEL_WIDTH)
lap_filter_axis.cppを貼っておきます。
#include <stdio.h>
#include <string.h>
#include <ap_int.h>
#include <hls_stream.h>
#include <ap_axi_sdata.h>
#include "lap_filter_axis.h"
int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2);
int conv_rgb2y(int rgb);
int lap_filter_axis(hls::stream<ap_axis<32,1,1,1> >& ins, hls::stream<ap_axis<32,1,1,1> >& outs){
#pragma HLS INTERFACE axis port=ins
#pragma HLS INTERFACE axis port=outs
#pragma HLS INTERFACE s_axilite port=return
ap_axis<32,1,1,1> pix;
ap_axis<32,1,1,1> lap;
unsigned int line_buf[2][HORIZONTAL_PIXEL_WIDTH];
#pragma HLS array_partition variable=line_buf block factor=2 dim=1
#pragma HLS resource variable=line_buf core=RAM_2P
int pix_mat[3][3];
#pragma HLS array_partition variable=pix_mat complete
int lap_fil_val;
do {
ins >> pix;
} while(pix.user == 0);
for (int y=0; y<VERTICAL_PIXEL_WIDTH; y++){
for (int x=0; x<HORIZONTAL_PIXEL_WIDTH; x++){
#pragma HLS PIPELINE
if (!(x==0 && y==0))
ins >> pix;
for (int k=0; k<3; k++){
for (int m=0; m<2; m++){
#pragma HLS UNROLL
pix_mat[k][m] = pix_mat[k][m+1];
}
}
pix_mat[0][2] = line_buf[0][x];
pix_mat[1][2] = line_buf[1][x];
int y_val = conv_rgb2y(pix.data);
pix_mat[2][2] = y_val;
line_buf[0][x] = line_buf[1][x];
line_buf[1][x] = y_val;
lap_fil_val = laplacian_fil( pix_mat[0][0], pix_mat[0][1], pix_mat[0][2],
pix_mat[1][0], pix_mat[1][1], pix_mat[1][2],
pix_mat[2][0], pix_mat[2][1], pix_mat[2][2]);
lap.data = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val;
if (x<2 || y<2)
lap.data = 0;
if (x==0 && y==0)
lap.user = 1;
else
lap.user = 0;
if (x == (HORIZONTAL_PIXEL_WIDTH-1))
lap.last = 1;
else
lap.last = 0;
outs << lap;
}
}
return 1;
}
int conv_rgb2y(int rgb){
int r, g, b, y_f;
int y;
b = rgb & 0xff;
g = (rgb>>8) & 0xff;
r = (rgb>>16) & 0xff;
y_f = 77*r + 150*g + 29*b;
y = y_f >> 8;
return(y);
}
int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2)
{
int y;
y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
if (y<0)
y = 0;
else if (y>255)
y = 255;
return(y);
}
Zynq-7010 (xc7z010clg400-1) の ZYBO 用のプロジェクトです。これで、AXI4 Stream 版のラプラシアンフィルタのC++ソースコードを HDLへ合成した結果はEstimated で 6.88 ns でした。

リソース使用量です。

メインのループのパイプライン段数は13 段です。

次にMPSoC (xczu9eg-ffvb1156-1-i-EVAL) でプロジェクトを作って、Zynq-7010 と全く同じ AXI4 Stream 版のラプラシアンフィルタのC++ソースコードを HDLへ合成した結果はEstimated で 4.53 ns でした。

リソース使用量です。MPSoC の方がパイプライン段数が1段減っているので、FFとLUT の使用量が少なかったです。

メインのループのパイプライン段数は12 段です。

Zynq-7000 が 6.88 ns で、145 MHz 動作、MPSoC が 4.53 ns で、221 MHz 動作なので、221/145 ≒ 1.52 倍 MPSoC が高速ということが言えると思います。
さて、AXI4 Stream 版ラプラシアンフィルタを IP にして、Vivado でプロジェクトを作って、実際の動作周波数を見てみましょう。
最初にZynq-7000 です。Zynq-7010 (xc7z010clg400-1) の ZYBO 用のプロジェクトを作って、IP Integrator のブロックデザインを作成しました。

ブロックデザインを拡大します。

インプリメントのSummary を示します。

6.8 ns のタイミング成約を満足できました。147 MHz で動作できるという結果ですが、スラックを考えると 149 MHz で動作できることになります。
次に、次にMPSoC (xczu9eg-ffvb1156-1-i-EVAL) でVivado 2015.4 のプロジェクトを作って、IP Integrator のブロックデザインを作成しました。

ブロックデザインを拡大します。

インプリメントのSummary を示します。

LUT 使用量が Zynq-7000 よりもMPSoC の方が2倍以上多いですね。FF の使用量も 1.5 倍位になっています。Vivado HLSでの推計上はZynq-7000 の方がリソース使用量が少なかったので、これは周辺のIP の規模が違うのかもしれない?です。
タイミングは 3 ns の成約に対して、-0.029 ns 足りなかったです。よって、約 330 MHz で動作すると思います。
よって、Vivado での性能比は 330 MHz /149 MHz = 2.21 倍でした。
Vivado HLS で推定された性能比は、1.52 倍だったので、Vivado HLS の推計が少し甘いのかも知れない?ですね。
- 2016年02月21日 05:52 |
- MPSoC
-
| トラックバック:0
-
| コメント:0
”MPSoCのVivado プロジェクトを作ってみよう1(MPSoC のプロジェクトを作製した)”の続き。
前回はMPSoC のプロジェクトを作製し、MPSoC のProcessing System をAdd IP した。今回は、MPSoC のProcessing System を開いて設定できる項目を見ていこう。
最初に、PS UltraScale+ Block Design から見ていこう。各ユニットをクリックするとその設定項目を表示することができる。

次に、I/O Configuration を見ていこう。Memory Interface とI/O Peripherals が見える。

I/O Configuration の続き、High Speed のI/O の設定もある。

Clock Configuration を見ていこう。
PL Fabric Clocks がPL でPS から供給されて使えるクロックだ。やはり4本のようだ。初期設定が400MHzとは、期待できそうだ。

Clock Configuration の続き。SERDES IO Clocks などが見える。

DDR Configurations を見ていこう。DRAM デバイスのビット幅は8, 16, 32ビット幅から選択できる。


最後に PS-PL Configuration だ。PS - PL間のインターフェース用のAXI バスの設定も行うことができる。



128ビット幅固定のS_AXI_ACP などは、活かすかどうか?の設定しか無いが、AXI_HP0_FPD などは、1 に変更すると、128/64/32 ビット幅を選択する事ができる。
- 2016年02月05日 05:11 |
- MPSoC
-
| トラックバック:0
-
| コメント:0
”
MPSoCのお勉強1(概要)”、”
MPSoCのお勉強2 (PSとPLのインターフェース)”を踏まえて、MPSoC のVivado プロジェクトを作って、MPSoC の中身がどうなっているかを探っていって、その後、適当に回路を組んで、どのくらいの動作周波数で動作するのか?を探っていきたいと思う。
使用するのは、Vivado 2015.4 とする。それではプロジェクトを作ってみよう。
Vivado 2015.4 を立ち上げて、Create New Project アイコンをクリックした。
New Project ダイアログが開いた。

Project name をMPSoC_test1 とした。

Project Type はRTL Project とした。

Add Source はそのままで、Next > ボタンをクリックした。

Add Existiing IP (optional) もそのままで、Next > ボタンをクリックした。

Add Constraints (optional) もそのままで、Next > ボタンをクリックした。

Default Part はどうしようか?迷ったが、適当に選択した。ピン数は多い方を選択した。スピードグレードはZYBO と比較しようとして、-1 を選択した。結局、選択したMPSoC は、xczu9eg-ffvb1156-1-e-EVAL だった。

Nww Project Summary が表示された。Finish ボタンをクリックした。

MPSoc_test1 プロジェクトが生成された。

IP Integrator を起動して、ブロックデザインを生成しよう。
IP Integrator から Create Block Design をクリックした。
Create Block Design ダイアログが開いた。
Design name を MPSoC_test1 に変更した。

add IP ボタンをクリックして、ZYNQ UltraScale+ MPSoC を選択した。

MPSoC のPS 部分がインスタンスされた。

ZYNQ UltraScale+ MPSoC をダブルクリックすると、設定ダイアログが開き、MPSoC のPS のブロック図が表示された。
- 2016年02月04日 04:49 |
- MPSoC
-
| トラックバック:0
-
| コメント:0
”
MPSoCのお勉強1(概要)”の続き。
今回はPSとPLのインターフェースについて見ていこう。
今回も、”
Zynq UltraScale+ MPSoC Technical Reference Manual UG1085 (v1.0) November 24, 2015”を参考にさせて頂いて、引用させていただくことにする。
まずは、PSとPLのインターフェースの図を”
Zynq UltraScale+ MPSoC Technical Reference Manual UG1085 (v1.0) November 24, 2015”の19ページの”Figure 2-1: Programmable Logic Block Diagram”を引用させていただくことにする。

もう1つ表を引用する。”
Zynq UltraScale+ MPSoC Technical Reference Manual UG1085 (v1.0) November 24, 2015”の26ページの”Table 2-8: AXI Interfaces”を引用させていただくことにする。

HPポートはZynq と同じ4ポートだが、128/64/32 ビット幅で、128 ビット幅が追加されている。これで少なくともZynq の2倍の帯域になった。Figure 1-1 を見ると、FPD (Full Power Domain ?) にもアクセスできそうだ。40ビット・アドレッシング、オプションで、 support I/O coherency to the APU L2 and L1 caches. (注:もしかするとI/O coherency はHPCだけかも?)
PL_LPD と LPD_PL が追加されて、LPD (Low Power Domain ?) にPL からアクセスすることができそうだ。Low Latency アクセス。Cortex-R5からPLへはここを通ると思う。
HPMがPS がマスターのハイ・パフォーマンスAXI インターフェースのようだ。
ACE が追加になって、36ビットアドレッシング、128ビット幅、PLとPS のAPU メモリシステム間で、full 2-way coherency。
HPCは、SMMUに直接接続されている。これは128ビット幅のみか。(追記:Vivado 2015.4 のIPI でPS を見ると、AXI_HPCは 32/64/128 ビット幅に設定できるようです) 40ビット・アドレッシング、オプションで、 support I/O coherency to the APU L2 and L1 caches.
HPM がZynq のGP ポートに相当するようだ。Cortex-A53 からPLへのアクセス。
ACP も健在で、128ビット幅になった。
プロセッサの種類がCortex-A53 とCortex-R5 と2つになったので、面倒になっているようだ。
- 2016年02月02日 05:05 |
- MPSoC
-
| トラックバック:0
-
| コメント:0
ZynqMP勉強会 に参加を申し込んだので、この際なので、Zynq UltraScale+ MPSoC (以下MPSoC とする)に付いて勉強していきたいと思った。
MPSoC のマニュアルといえば、”
Zynq UltraScale+ MPSoC Technical Reference Manual UG1085 (v1.0) November 24, 2015”がある。これを参考にして勉強していくことにする。
まずは、”
Zynq UltraScale+ MPSoC Technical Reference Manual UG1085 (v1.0) November 24, 2015”の13ページ、”Figure 1-1: Zynq UltraScale+ MPSoC Top-Level Block Diagram”を引用させて頂く。

・CPUとGPU
・Cortex-A53 application processing unit (APU) - ARM v8アーキテクチャで64ビットプロセッサ x4個
・Cortex-R5 real-time processing unit (RPU) - ARM v7アーキテクチャで32ビットプロセッサ x2個
・Mali-400 graphics processing unit (GPU) - 64KBのL2 キャッシュを持ったGPU
・MPSoCの4つのhigh-speed serial I/O (HSSIO) インターフェース
・PCI Express version 2.1
・SATA 3.1 (なんとSATA がある。これは嬉しい) 1.5G, 3G, 6G
・Display Port (4K-2K まで)
・USB 3.0
・1 Gb/s SGMII
・MIOのピンは78個、EMIOで288個。
・Figure 1-1 を見るとBattery Power, Low Power, Full Power に分かれている。
・DDRメモリ・コントローラ: DDR3, DDR3L, DDR4, LPDDR4 対応。ECCサポート。
・GPU: ジオメトリ・プロセッサ1つ、ピクセル・プロセッサ2つ、Open GL ES 1.1 and 2.0サポート、OpenVG 1.1
・OCM は 256KB でZynq と同じか。。。
・TCM (Tightly-coupled memory) というのが付いているのか?64KB、4バンク
- 2016年02月01日 05:29 |
- MPSoC
-
| トラックバック:0
-
| コメント:0