FC2カウンター FPGAの部屋 MPSoC
fc2ブログ

FPGAやCPLDの話題やFPGA用のツールの話題などです。 マニアックです。 日記も書きます。

FPGAの部屋

FPGAの部屋の有用と思われるコンテンツのまとめサイトを作りました。Xilinx ISEの初心者の方には、FPGAリテラシーおよびチュートリアルのページをお勧めいたします。

MPSoC勉強会で”MPSoCのPLの性能について”という発表をしてきた(サポート用のブログ)

昨日、MPSoC勉強会で、”MPSoCのPLの性能について”という発表をして来ました。MPSoC勉強会はいろいろと有意義なことが聞けて良かったです。中でもACPバスのコヒーレンシの制限についてはびっくりしました。良かったです。

このブログで、、”MPSoCのPLの性能について”を詳しく書いておこうと思います。

まずは、Zynq-7000 のC言語で書いた AXI4 Stream 版ラプラシアンフィルタを用意しました。
lap_filter_axis.h を貼っておきます。

// lap_filter_axis.h
// 2015/05/01

#define HORIZONTAL_PIXEL_WIDTH 800
#define VERTICAL_PIXEL_WIDTH 600

//#define HORIZONTAL_PIXEL_WIDTH 50
//#define VERTICAL_PIXEL_WIDTH 10

#define ALL_PIXEL_VALUE (HORIZONTAL_PIXEL_WIDTH*VERTICAL_PIXEL_WIDTH)


lap_filter_axis.cppを貼っておきます。

//
// lap_filter_axis.cpp
// 2015/05/01
// 2015/06/25 : 修正、ラプラシアンフィルタの値が青だけ担っていたので、RGBに拡張した
//

#include <stdio.h>
#include <string.h>
#include <ap_int.h>
#include <hls_stream.h>
#include <ap_axi_sdata.h>

#include "lap_filter_axis.h"

int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2);
int conv_rgb2y(int rgb);

int lap_filter_axis(hls::stream<ap_axis<32,1,1,1> >& ins, hls::stream<ap_axis<32,1,1,1> >& outs){
#pragma HLS INTERFACE axis port=ins
#pragma HLS INTERFACE axis port=outs
#pragma HLS INTERFACE s_axilite port=return

    ap_axis<32,1,1,1> pix;
    ap_axis<32,1,1,1> lap;

    unsigned int line_buf[2][HORIZONTAL_PIXEL_WIDTH];
#pragma HLS array_partition variable=line_buf block factor=2 dim=1
#pragma HLS resource variable=line_buf core=RAM_2P

    int pix_mat[3][3];
#pragma HLS array_partition variable=pix_mat complete

    int lap_fil_val;

    do {    // user が 1になった時にフレームがスタートする
        ins >> pix;
    } while(pix.user == 0);

    for (int y=0; y<VERTICAL_PIXEL_WIDTH; y++){
        for (int x=0; x<HORIZONTAL_PIXEL_WIDTH; x++){
#pragma HLS PIPELINE
            if (!(x==0 && y==0))    // 最初の入力はすでに入力されている
                ins >> pix;    // AXI4-Stream からの入力

            for (int k=0; k<3; k++){
                for (int m=0; m<2; m++){
#pragma HLS UNROLL
                    pix_mat[k][m] = pix_mat[k][m+1];
                }
            }
            pix_mat[0][2] = line_buf[0][x];
            pix_mat[1][2] = line_buf[1][x];

            int y_val = conv_rgb2y(pix.data);
            pix_mat[2][2] = y_val;

            line_buf[0][x] = line_buf[1][x];    // 行の入れ替え
            line_buf[1][x] = y_val;

            lap_fil_val = laplacian_fil(    pix_mat[0][0], pix_mat[0][1], pix_mat[0][2],
                                        pix_mat[1][0], pix_mat[1][1], pix_mat[1][2],
                                        pix_mat[2][0], pix_mat[2][1], pix_mat[2][2]);
            lap.data = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val; // RGB同じ値を入れる

            if (x<2 || y<2// 最初の2行とその他の行の最初の2列は無効データなので0とする
                lap.data = 0;

            if (x==0 && y==0// 最初のデータでは、TUSERをアサートする
                lap.user = 1;
            else
                lap.user = 0;

            if (x == (HORIZONTAL_PIXEL_WIDTH-1))    // 行の最後で TLAST をアサートする
                lap.last = 1;
            else
                lap.last = 0;

            outs << lap;    // AXI4-Stream へ出力
        }
    }

    return 1;
}

// RGBからYへの変換
// RGBのフォーマットは、{8'd0, R(8bits), G(8bits), B(8bits)}, 1pixel = 32bits
// 輝度信号Yのみに変換する。変換式は、Y =  0.299R + 0.587G + 0.114B
// "YUVフォーマット及び YUV<->RGB変換"を参考にした。http://vision.kuee.kyoto-u.ac.jp/~hiroaki/firewire/yuv.html
// 2013/09/27 : float を止めて、すべてint にした
int conv_rgb2y(int rgb){
    int r, g, b, y_f;
    int y;

    b = rgb & 0xff;
    g = (rgb>>8) & 0xff;
    r = (rgb>>16) & 0xff;

    y_f = 77*r + 150*g + 29*b; //y_f = 0.299*r + 0.587*g + 0.114*b;の係数に256倍した
    y = y_f >> 8// 256で割る

    return(y);
}

// ラプラシアンフィルタ
// x0y0 x1y0 x2y0 -1 -1 -1
// x0y1 x1y1 x2y1 -1  8 -1
// x0y2 x1y2 x2y2 -1 -1 -1
int laplacian_fil(int x0y0, int x1y0, int x2y0, int x0y1, int x1y1, int x2y1, int x0y2, int x1y2, int x2y2)
{
    int y;

    y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
    if (y<0)
        y = 0;
    else if (y>255)
        y = 255;
    return(y);
}


Zynq-7010 (xc7z010clg400-1) の ZYBO 用のプロジェクトです。これで、AXI4 Stream 版のラプラシアンフィルタのC++ソースコードを HDLへ合成した結果はEstimated で 6.88 ns でした。
MPSoC_test1_24_160221.png

リソース使用量です。
MPSoC_test1_25_160221.png

メインのループのパイプライン段数は13 段です。
MPSoC_test1_26_160221.png

次にMPSoC (xczu9eg-ffvb1156-1-i-EVAL) でプロジェクトを作って、Zynq-7010 と全く同じ AXI4 Stream 版のラプラシアンフィルタのC++ソースコードを HDLへ合成した結果はEstimated で 4.53 ns でした。
MPSoC_test1_27_160221.png

リソース使用量です。MPSoC の方がパイプライン段数が1段減っているので、FFとLUT の使用量が少なかったです。
MPSoC_test1_28_160221.png

メインのループのパイプライン段数は12 段です。
MPSoC_test1_29_160221.png

Zynq-7000 が 6.88 ns で、145 MHz 動作、MPSoC が 4.53 ns で、221 MHz 動作なので、221/145 ≒ 1.52 倍 MPSoC が高速ということが言えると思います。


さて、AXI4 Stream 版ラプラシアンフィルタを IP にして、Vivado でプロジェクトを作って、実際の動作周波数を見てみましょう。
最初にZynq-7000 です。Zynq-7010 (xc7z010clg400-1) の ZYBO 用のプロジェクトを作って、IP Integrator のブロックデザインを作成しました。
MPSoC_test1_30_160221.png

ブロックデザインを拡大します。
MPSoC_test1_31_160221.png

インプリメントのSummary を示します。
MPSoC_test1_32_160221.png

6.8 ns のタイミング成約を満足できました。147 MHz で動作できるという結果ですが、スラックを考えると 149 MHz で動作できることになります。

次に、次にMPSoC (xczu9eg-ffvb1156-1-i-EVAL) でVivado 2015.4 のプロジェクトを作って、IP Integrator のブロックデザインを作成しました。
MPSoC_test1_33_160221.png

ブロックデザインを拡大します。
MPSoC_test1_34_160221.png

インプリメントのSummary を示します。
MPSoC_test1_35_160221.png

LUT 使用量が Zynq-7000 よりもMPSoC の方が2倍以上多いですね。FF の使用量も 1.5 倍位になっています。Vivado HLSでの推計上はZynq-7000 の方がリソース使用量が少なかったので、これは周辺のIP の規模が違うのかもしれない?です。

タイミングは 3 ns の成約に対して、-0.029 ns 足りなかったです。よって、約 330 MHz で動作すると思います。
よって、Vivado での性能比は 330 MHz /149 MHz = 2.21 倍でした。

Vivado HLS で推定された性能比は、1.52 倍だったので、Vivado HLS の推計が少し甘いのかも知れない?ですね。
  1. 2016年02月21日 05:52 |
  2. MPSoC
  3. | トラックバック:0
  4. | コメント:0

MPSoCのVivado プロジェクトを作ってみよう2(MPSoCのPSの設定を確認した)

”MPSoCのVivado プロジェクトを作ってみよう1(MPSoC のプロジェクトを作製した)”の続き。

前回はMPSoC のプロジェクトを作製し、MPSoC のProcessing System をAdd IP した。今回は、MPSoC のProcessing System を開いて設定できる項目を見ていこう。

最初に、PS UltraScale+ Block Design から見ていこう。各ユニットをクリックするとその設定項目を表示することができる。
MPSoC_test1_13_160201.png

次に、I/O Configuration を見ていこう。Memory Interface とI/O Peripherals が見える。
MPSoC_test1_14_160205.png

I/O Configuration の続き、High Speed のI/O の設定もある。
MPSoC_test1_15_160205.png

Clock Configuration を見ていこう。
PL Fabric Clocks がPL でPS から供給されて使えるクロックだ。やはり4本のようだ。初期設定が400MHzとは、期待できそうだ。
MPSoC_test1_16_160205.png

Clock Configuration の続き。SERDES IO Clocks などが見える。
MPSoC_test1_17_160205.png

DDR Configurations を見ていこう。DRAM デバイスのビット幅は8, 16, 32ビット幅から選択できる。
MPSoC_test1_18_160205.png

MPSoC_test1_19_160205.png

最後に PS-PL Configuration だ。PS - PL間のインターフェース用のAXI バスの設定も行うことができる。
MPSoC_test1_20_160205.png
MPSoC_test1_21_160205.png
MPSoC_test1_22_160205.png

128ビット幅固定のS_AXI_ACP などは、活かすかどうか?の設定しか無いが、AXI_HP0_FPD などは、1 に変更すると、128/64/32 ビット幅を選択する事ができる。
MPSoC_test1_23_160205.png
  1. 2016年02月05日 05:11 |
  2. MPSoC
  3. | トラックバック:0
  4. | コメント:0

MPSoCのVivado プロジェクトを作ってみよう1(MPSoC のプロジェクトを作製した)

MPSoCのお勉強1(概要)”、”MPSoCのお勉強2 (PSとPLのインターフェース)”を踏まえて、MPSoC のVivado プロジェクトを作って、MPSoC の中身がどうなっているかを探っていって、その後、適当に回路を組んで、どのくらいの動作周波数で動作するのか?を探っていきたいと思う。

使用するのは、Vivado 2015.4 とする。それではプロジェクトを作ってみよう。

Vivado 2015.4 を立ち上げて、Create New Project アイコンをクリックした。

New Project ダイアログが開いた。
MPSoC_test1_1_160201.png

Project name をMPSoC_test1 とした。
MPSoC_test1_2_160201.png

Project Type はRTL Project とした。
MPSoC_test1_3_160201.png

Add Source はそのままで、Next > ボタンをクリックした。
MPSoC_test1_4_160201.png

Add Existiing IP (optional) もそのままで、Next > ボタンをクリックした。
MPSoC_test1_5_160201.png

Add Constraints (optional) もそのままで、Next > ボタンをクリックした。
MPSoC_test1_6_160201.png

Default Part はどうしようか?迷ったが、適当に選択した。ピン数は多い方を選択した。スピードグレードはZYBO と比較しようとして、-1 を選択した。結局、選択したMPSoC は、xczu9eg-ffvb1156-1-e-EVAL だった。
MPSoC_test1_7_160201.png

Nww Project Summary が表示された。Finish ボタンをクリックした。
MPSoC_test1_8_160201.png

MPSoc_test1 プロジェクトが生成された。
MPSoC_test1_9_160201.png

IP Integrator を起動して、ブロックデザインを生成しよう。

IP Integrator から Create Block Design をクリックした。

Create Block Design ダイアログが開いた。
Design name を MPSoC_test1 に変更した。
MPSoC_test1_10_160201.png

add IP ボタンをクリックして、ZYNQ UltraScale+ MPSoC を選択した。
MPSoC_test1_11_160201.png

MPSoC のPS 部分がインスタンスされた。
MPSoC_test1_12_160201.png

ZYNQ UltraScale+ MPSoC をダブルクリックすると、設定ダイアログが開き、MPSoC のPS のブロック図が表示された。
MPSoC_test1_13_160201.png
  1. 2016年02月04日 04:49 |
  2. MPSoC
  3. | トラックバック:0
  4. | コメント:0

MPSoCのお勉強2 (PSとPLのインターフェース)

MPSoCのお勉強1(概要)”の続き。

今回はPSとPLのインターフェースについて見ていこう。

今回も、”Zynq UltraScale+ MPSoC Technical Reference Manual UG1085 (v1.0) November 24, 2015”を参考にさせて頂いて、引用させていただくことにする。

まずは、PSとPLのインターフェースの図を”Zynq UltraScale+ MPSoC Technical Reference Manual UG1085 (v1.0) November 24, 2015”の19ページの”Figure 2-1: Programmable Logic Block Diagram”を引用させていただくことにする。
MPSoC_2_160202.png

もう1つ表を引用する。”Zynq UltraScale+ MPSoC Technical Reference Manual UG1085 (v1.0) November 24, 2015”の26ページの”Table 2-8: AXI Interfaces”を引用させていただくことにする。
MPSoC_3_160202.png

HPポートはZynq と同じ4ポートだが、128/64/32 ビット幅で、128 ビット幅が追加されている。これで少なくともZynq の2倍の帯域になった。Figure 1-1 を見ると、FPD (Full Power Domain ?) にもアクセスできそうだ。40ビット・アドレッシング、オプションで、 support I/O coherency to the APU L2 and L1 caches. (注:もしかするとI/O coherency はHPCだけかも?)

PL_LPD と LPD_PL が追加されて、LPD (Low Power Domain ?) にPL からアクセスすることができそうだ。Low Latency アクセス。Cortex-R5からPLへはここを通ると思う。

HPMがPS がマスターのハイ・パフォーマンスAXI インターフェースのようだ。

ACE が追加になって、36ビットアドレッシング、128ビット幅、PLとPS のAPU メモリシステム間で、full 2-way coherency。

HPCは、SMMUに直接接続されている。これは128ビット幅のみか。(追記:Vivado 2015.4 のIPI でPS を見ると、AXI_HPCは 32/64/128 ビット幅に設定できるようです) 40ビット・アドレッシング、オプションで、 support I/O coherency to the APU L2 and L1 caches.

HPM がZynq のGP ポートに相当するようだ。Cortex-A53 からPLへのアクセス。

ACP も健在で、128ビット幅になった。

プロセッサの種類がCortex-A53 とCortex-R5 と2つになったので、面倒になっているようだ。
  1. 2016年02月02日 05:05 |
  2. MPSoC
  3. | トラックバック:0
  4. | コメント:0

MPSoCのお勉強1(概要)

ZynqMP勉強会 に参加を申し込んだので、この際なので、Zynq UltraScale+ MPSoC (以下MPSoC とする)に付いて勉強していきたいと思った。

MPSoC のマニュアルといえば、”Zynq UltraScale+ MPSoC Technical Reference Manual UG1085 (v1.0) November 24, 2015”がある。これを参考にして勉強していくことにする。

まずは、”Zynq UltraScale+ MPSoC Technical Reference Manual UG1085 (v1.0) November 24, 2015”の13ページ、”Figure 1-1: Zynq UltraScale+ MPSoC Top-Level Block Diagram”を引用させて頂く。
MPSoC_1_160201.png

・CPUとGPU
  ・Cortex-A53 application processing unit (APU) - ARM v8アーキテクチャで64ビットプロセッサ x4個
  ・Cortex-R5 real-time processing unit (RPU) - ARM v7アーキテクチャで32ビットプロセッサ x2個
  ・Mali-400 graphics processing unit (GPU) - 64KBのL2 キャッシュを持ったGPU

・MPSoCの4つのhigh-speed serial I/O (HSSIO) インターフェース
  ・PCI Express version 2.1
  ・SATA 3.1 (なんとSATA がある。これは嬉しい) 1.5G, 3G, 6G
  ・Display Port (4K-2K まで)
  ・USB 3.0
  ・1 Gb/s SGMII

・MIOのピンは78個、EMIOで288個。
・Figure 1-1 を見るとBattery Power, Low Power, Full Power に分かれている。
・DDRメモリ・コントローラ: DDR3, DDR3L, DDR4, LPDDR4 対応。ECCサポート。
・GPU: ジオメトリ・プロセッサ1つ、ピクセル・プロセッサ2つ、Open GL ES 1.1 and 2.0サポート、OpenVG 1.1
・OCM は 256KB でZynq と同じか。。。
・TCM (Tightly-coupled memory) というのが付いているのか?64KB、4バンク
  1. 2016年02月01日 05:29 |
  2. MPSoC
  3. | トラックバック:0
  4. | コメント:0