FC2カウンター FPGAの部屋 Vitis
FC2ブログ

FPGAやCPLDの話題やFPGA用のツールの話題などです。 マニアックです。 日記も書きます。

FPGAの部屋

FPGAの部屋の有用と思われるコンテンツのまとめサイトを作りました。Xilinx ISEの初心者の方には、FPGAリテラシーおよびチュートリアルのページをお勧めいたします。

Ultra96-V2 用 Vitis アクセラレーション・プラットフォーム ultra96v2_min2 の公開

いつも使っていて、ikwzm さんの”Ultra96/Ultra96-V2 向け Debian GNU/Linux で XRT(Xilinx Runtime) を動かす(ビルド編)”にも使ってもらっているファイルを生成するために使用した Ultra96-V2 用 Vitis アクセラレーション・プラットフォーム ultra96v2_min2 をダウンロード公開します。

ultra96v2_min2 は作り方と検証の仕方は以下のブログで紹介しました。
Ultra96-V2 の Vitis アクセラレーション・プラットフォームの作り方1(ハードウェア・コンポーネント編)
Ultra96-V2 の Vitis アクセラレーション・プラットフォームの作り方2(ソフトウェア・コンポーネント編)
Ultra96-V2 の Vitis アクセラレーション・プラットフォームの作り方3(Vitis プラットフォーム作成)
Ultra96-V2 の Vitis アクセラレーション・プラットフォームの作り方4(Vitis アプリケーション・プロジェクトの作成)

プラットフォームの ultra96v2_min2.zip と PetaLinux 2019.2 で生成した RootFS aarch64-xilinx-linux_ultra96v2_min2.zip をここからダウンロードしてください。
なおこれらのファイルは無保証です。自分の責任でお試しください。


これらのファイルの使い方は”Ultra96-V2 用 Vitis アクセラレーション・プラットフォームのサンプルを公開”をご覧ください。名前は多少違いますが、同様に使えます。
  1. 2020年03月28日 04:18 |
  2. Vitis
  3. | トラックバック:0
  4. | コメント:0

Vitis 2019.2 で RTL カーネルを使用してストーミング接続を試す4

Vitis 2019.2 で RTL カーネルを使用してストーミング接続を試す3”の続き。

前回は、krnl_dma_read.xo と krnl_lap_filter_dmaw.xo ファイルがそろったので、Vitis アクセラレーション・アプリケーション・プロジェクトの streaming_lap_filter5 を作成し、ビルドが成功した。今回は、ビルドしたファイルを使用して、Ultra96-V2 の実機で動作を確認してみよう。

Vitis で生成されたBOOT.BIN をUltra96-V2 の MicroSD カードの第 1 パーティションに転送する。
Ultra96-V2 の PetaLinux を起動する。
/home/masaaki/Vitis_Work/2019.2/streaming_lap_filter5/Hardware/sd_card ディレクトリに移動し、 sudo su で root になって scp コマンドで SFTP する。
scp BOOT.BIN 192.168.3.23:/run/media/mmcblk0p1
RTL_kernel_36_200319.png

Ultra96-V2 の PetaLinux に ID: root , Pass: root でログインして、 reboot コマンドで再起動する。
PetaLinux が起動したら、 Ultra96-V2 のPetaLinux 上で zocl ドライバを起動した。
insmod /lib/modules/4.19.0-xilinx-v2019.2/extra/zocl.ko
RTL_kernel_37_200319.png

Vitis の Assistant ウインドウの streaming_lap_filter5_system の streaming_lap_filter5 -> Hardware を右クリックし、右クリックメニューから Run -> Run Configurations... を選択して、 streaming_lap_filter5 の Run Configuration を作成した。
RTL_kernel_38_200319.png

Run Configuration ダイアログで Run ボタンをクリックすると動作を確認することができた。
RTL_kernel_39_200319.png

実行時間は 2.787 ms だった。
後、 2 回実行した。
RTL_kernel_40_200319.png

RTL_kernel_41_200319.png

実行時間は 2.461 ms と 2.588 ms だった。平均実行時間は 2.612 ms だった。
C++ カーネルの場合の結果は、”Vitis 2019.2 で自作カーネルを使用してストーミング接続を試す9(streaming_lap_filter3 プロジェクト2)”に書いてあるが、平均実行時間は 1.649 ms だったので、だいぶ遅い。
そこで、”Vitis 2019.2 で自作カーネルを使用してストーミング接続を試す10(streaming_lap_filter3 のプロファイル)”の設定を解除して、もう一度、streaming_lap_filter3 を実行してみることにした。

Vitis の Assistant ウインドウの streaming_lap_filter3_system の streaming_lap_filter3 -> Hardware を右クリックし、右クリックメニューから Run -> Run Configurations... を選択して、 streaming_lap_filter3 の Run Configuration を立ち上げて、Run した。
RTL_kernel_42_200319.png

結果を示す。
RTL_kernel_43_200319.png

実行時間は 2.658 ms だった。

後、2 回実行した。
RTL_kernel_44_200319.png

RTL_kernel_45_200319.png

実行時間は 2.658 ms と 2.393 ms だった。平均実行時間は 2.570 ms だった。これだと RTL カーネルの streaming_lap_filter5 とほぼ同一だ。
なぜ、実行時間が伸びてしまったのだろか?
  1. 2020年03月19日 05:36 |
  2. Vitis
  3. | トラックバック:0
  4. | コメント:0

Vitis 2019.2 で RTL カーネルを使用してストーミング接続を試す3

Vitis 2019.2 で RTL カーネルを使用してストーミング接続を試す2”の続き。

RTL カーネルでストリーミング接続がうまく行くのか?を確かめるために、krnl_lap_filter_dmaw.cpp を Vivado HLS 2019.2 で RTL カーネルにすることにした。前回は、C シミュレーション、C コードの合成、C/RTL 協調シミュレーション、Export RTL を行って、krnl_lap_filter_dmaw.xo ファイルを出力した。これで krnl_lap_filter_dmaw の RTL カーネル作成は終了した。

krnl_dma_read は、

Vivado HLS 2019.2 で krnl_dma_read を作成する1(ソースコードの表示)
Vivado HLS 2019.2 で krnl_dma_read を作成する2(IP 化)

で、dma_read.xo ファイルを作ってある。

krnl_dma_read.xo と krnl_lap_filter_dmaw.xo ファイルがそろったので、Vitis アクセラレーション・アプリケーション・プロジェクトの streaming_lap_filter5 を作成した。
RTL_kernel_29_200317.png

すでに、Explorer ウインドウの streaming_lap_filter5_system -> streaming_lap_filter5 -> src には、 Import Sources... を使用して bmp_header.h, krnl_streaming_lap_host3.cpp, dma_read.xo, krnl_lap_filter_dmaw.xo, krnl_streaming_dmar_lap_dmaw.ini ファイルを入れてある。

Assistant ウインドウの streaming_lap_filter5_system -> streaming_lap_filter5 を右クリックして右クリックメニューから settings... を選択した。
Project Settings ダイアログが開く。
V++ linker options: に

--config ../src/krnl_stream_dmar_lap_dmaw.ini

を入力した。
RTL_kernel_30_200317.png

krnl_stream_dmar_lap_dmaw.ini の内容を示す。ストリーミング接続情報が書いてある。

[connectivity]
stream_connect=dma_read_1.outs:krnl_lap_filter_dmaw_1.ins


これで準備が整ったので、Assistant ウインドウの streaming_lap_filter5_system -> streaming_lap_filter5 -> Hardware を右クリックして、右クリックメニューから Build を選択して、ビルドを開始した。
RTL_kernel_31_200317.png

1 度目はエラーだったが、2 回目のビルドで緑チェックマークがついた。
RTL_kernel_32_200317.png

streaming_lap_filter5/Hardware/sd_card ディレクトリの様子を示す。
RTL_kernel_33_200318.png

streaming_lap_filter5 の Vivado プロジェクトのブロックデザインを示す。
dma_read_1 の outs ストリーミング出力と krnl_lap_filter_dmaw_1 の ins が接続されているのが分かる。
RTL_kernel_34_200318.png

Address Editor 画面を示す。
RTL_kernel_35_200318.png
  1. 2020年03月18日 04:58 |
  2. Vitis
  3. | トラックバック:0
  4. | コメント:0

Vitis 2019.2 で RTL カーネルを使用してストーミング接続を試す2

Vitis 2019.2 で RTL カーネルを使用してストーミング接続を試す1”の続き。

RTL カーネルでストリーミング接続がうまく行くのか?を確かめるために、krnl_lap_filter_dmaw.cpp を Vivado HLS 2019.2 で RTL カーネルにすることにした。前回は、ソースコードを貼って、Vivado HLS 2019.2 のプロジェクトを作成した。今回は、C シミュレーション、C コードの合成、C/RTL 協調シミュレーション、Export RTL を行う。

C シミュレーションからやってみよう。
RTL_kernel_20_200317.png

solution1/csim/build ディレクトリを見ると、lap.bmp が生成されている。
RTL_kernel_21_200317.png

C コードの合成を行った。
RTL_kernel_22_200317.png

Latency も問題無さそうだ。リソース使用量は多いが、やはり、ほとんど dma_write で消費されている。サイズを固定すればリソース使用量が減るのは確認済みだ。

C/RTL 協調シミュレーションを行った。
RTL_kernel_23_200317.png

C/RTL 協調シミュレーションの波形を見てみよう。全体波形から。
RTL_kernel_24_200317.png

拡大してみよう。
RTL_kernel_25_200317.png

WVALID が 1 の間の幅 320 ns はクロックが 5 ns とすると 64 クロック分となる。つまり画像の 1 行のピクセル数と一致する。WVALID が 0 に落ちている間は、 20 ns つまり、 4 クロック分となる。

次に、Export RTL を行うが、その前に”extern "C" { }”を元に戻した。
RTL_kernel_26_200317.png

Export RTL を行った。
RTL_kernel_27_200317.png

問題無さそうだ。

krnl_lap_filter_dmaw.xo が生成されていた。
RTL_kernel_28_200317.png
  1. 2020年03月17日 04:30 |
  2. Vitis
  3. | トラックバック:0
  4. | コメント:0

Vitis 2019.2 で RTL カーネルを使用してストーミング接続を試す1

Vitis 2019.2 で自作カーネルを使用してストーミング接続を試す9(streaming_lap_filter3 プロジェクト2)”でカーネルのストリーミング接続の動作を確かめたところ、カーネルが 2 個だったら動作した。それだったら、RTL カーネルではストリーミング接続できるのか?ということで、krnl_lap_filter_dmaw.cpp と krnl_dma_read.cpp をそれぞれ Vivado HLS 2019.2 で RTL カーネルにしてVitis 2019.2 でストリーミング接続してみよう。

前に貼ってあったと思うが、 krnl_lap_filter_dmaw.cpp を示す。なお、”extern "C" { }”はコメントアウトしてある。

// krnl_lap_filter_dmaw.cpp
// 2020/02/08 by marsee

#include <ap_int.h>
#include <hls_stream.h>
#include <ap_axi_sdata.h>
#include <stdint.h>

// RGBからYへの変換
// RGBのフォーマットは、{8'd0, R(8bits), G(8bits), B(8bits)}, 1pixel = 32bits
// 輝度信号Yのみに変換する。変換式は、Y =  0.299R + 0.587G + 0.114B
// "YUVフォーマット及び YUV<->RGB変換"を参考にした。http://vision.kuee.kyoto-u.ac.jp/~hiroaki/firewire/yuv.html
// 2013/09/27 : float を止めて、すべてint にした
int32_t conv_rgb2y(int32_t rgb){
    int32_t r, g, b, y_f;
    int32_t y;

    b = rgb & 0xff;
    g = (rgb>>8) & 0xff;
    r = (rgb>>16) & 0xff;

    y_f = 77*r + 150*g + 29*b; //y_f = 0.299*r + 0.587*g + 0.114*b;の係数に256倍した
    y = y_f >> 8; // 256で割る

    return(y);
}

// ラプラシアンフィルタ
// x0y0 x1y0 x2y0 -1 -1 -1
// x0y1 x1y1 x2y1 -1  8 -1
// x0y2 x1y2 x2y2 -1 -1 -1
int32_t laplacian_fil(int32_t x0y0, int32_t x1y0, int32_t x2y0, int32_t x0y1,
        int32_t x1y1, int32_t x2y1, int32_t x0y2, int32_t x1y2, int32_t x2y2)
{
    int32_t y;

    y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
    if (y<0)
        y = -y;
    else if (y>255)
        y = 255;
    return(y);
}

void krnl_lap_filter(hls::stream<ap_axiu<32,0,0,0> >& ins, hls::stream<ap_axiu<32,0,0,0> >& outs,
        int32_t x_size, int32_t y_size){

    ap_axiu<32,0,0,0> pix;
    ap_axiu<32,0,0,0> lap;

    int32_t line_buf[2][1920]; // supported HD resolution
#pragma HLS array_partition variable=line_buf block factor=2 dim=1
#pragma HLS resource variable=line_buf core=RAM_2P

    int32_t pix_mat[3][3];
#pragma HLS array_partition variable=pix_mat complete

    int32_t lap_fil_val;

    LOOP_X : for (int y=0; y<y_size; y++){
#pragma HLS LOOP_TRIPCOUNT min=48 max=600
        LOOP_Y : for (int x=0; x<x_size; x++){
#pragma HLS LOOP_TRIPCOUNT min=64 max=800
#pragma HLS PIPELINE II=1
            ins >> pix; // AXI4-Stream からの入力

            Loop4 : for (int k=0; k<3; k++){
                Loop5 : for (int m=0; m<2; m++){
#pragma HLS UNROLL
                    pix_mat[k][m] = pix_mat[k][m+1];
                }
            }
            pix_mat[0][2] = line_buf[0][x];
            pix_mat[1][2] = line_buf[1][x];

            int32_t y_val = conv_rgb2y(pix.data);
            pix_mat[2][2] = y_val;

            line_buf[0][x] = line_buf[1][x];    // 行の入れ替え
            line_buf[1][x] = y_val;

            lap_fil_val = laplacian_fil(    pix_mat[0][0], pix_mat[0][1], pix_mat[0][2],
                                            pix_mat[1][0], pix_mat[1][1], pix_mat[1][2],
                                            pix_mat[2][0], pix_mat[2][1], pix_mat[2][2]);
            lap.data = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val; // RGB同じ値を入れる

            if (x<2 || y<2) // 最初の2行とその他の行の最初の2列は無効データなので0とする
                lap.data = 0;

            if (x==(x_size-1) && y==(y_size-1)) // フレームの最後で TLAST をアサートする
                lap.last = 1;
            else
                lap.last = 0;

            outs << lap;    // ストリームへ出力
        }
    }

    LOOP_WAIT_LAST: while(pix.last == 0) { // last が 1 になるまで待つ
#pragma HLS PIPELINE II=1
#pragma HLS LOOP_TRIPCOUNT min=1 max=1 avg=1
        ins >> pix;
    };
}

void dma_write(hls::stream<ap_axiu<32,0,0,0> >& ins, volatile int32_t *outm,
        int32_t x_size, int32_t y_size){

    ap_axiu<32,0,0,0> pix;

    LOOP_DWY: for(int y=0; y<y_size; y++){
#pragma HLS LOOP_TRIPCOUNT min=48 max=600
        LOOP_DWX: for(int x=0; x<x_size; x++){
#pragma HLS LOOP_TRIPCOUNT min=64 max=800
#pragma HLS PIPELINE II=1
            ins >> pix;
            outm[x_size*y+x] = pix.data;
        }
    }
}

//extern "C" {
void krnl_lap_filter_dmaw(hls::stream<ap_axiu<32,0,0,0> >& ins, volatile int32_t *outm,
        int32_t x_size, int32_t y_size){
#pragma HLS DATAFLOW
#pragma HLS INTERFACE m_axi depth=3072 port=outm offset=slave bundle=gmem
#pragma HLS INTERFACE axis register both port=ins
#pragma HLS INTERFACE s_axilite port=y_size bundle=control
#pragma HLS INTERFACE s_axilite port=x_size bundle=control
#pragma HLS INTERFACE s_axilite port=return bundle=control

    hls::stream<ap_axiu<32,0,0,0> > lap_stream;

    krnl_lap_filter(ins, lap_stream, x_size, y_size);
    dma_write(lap_stream, outm, x_size, y_size);
}
//}


krnl_lap_filter_dmaw_tb.cpp を示す。

// krnl_lap_filter_dmaw_tb.cpp
// 2020/02/08 by marsee

#include "hls_opencv.h"
#include <ap_int.h>
#include <hls_stream.h>
#include <ap_axi_sdata.h>

void krnl_lap_filter_dmaw(hls::stream<ap_axiu<32,0,0,0> >& ins, volatile int32_t *outm,
        int32_t x_size, int32_t y_size);

void krnl_lap_filter_soft(hls::stream<ap_axiu<32,0,0,0> >& ins, hls::stream<ap_axiu<32,0,0,0> >& outs,
        int32_t x_size, int32_t y_size);

const char INPUT_BMP_FILE[] = "test.bmp";
const char OUTPUT_BMP_FILE[] = "lap.bmp";

int main(){
    hls::stream<ap_axiu<32,0,0,0> > ins;
    hls::stream<ap_axiu<32,0,0,0> > ins_soft;
    hls::stream<ap_axiu<32,0,0,0> > outs_soft;

    ap_axiu<32,0,0,0> pix;
    ap_axiu<32,0,0,0> vals_soft;

   // BMPファイルをMat に読み込む
    cv::Mat img = cv::imread(INPUT_BMP_FILE);

    // ピクセルを入れる領域の確保
    std::vector<int32_t> rd_bmp(sizeof(int32_t)*img.cols*img.rows);
    std::vector<int32_t> hw_lap(sizeof(int32_t)*(img.cols)*(img.rows));
    std::vector<int32_t> sw_lap(sizeof(int32_t)*(img.cols)*(img.rows));

    // rd_bmp にBMPのピクセルを代入
    cv::Mat_<cv::Vec3b> dst_vec3b = cv::Mat_<cv::Vec3b>(img);
    for (int y=0; y<img.rows; y++){
        for (int x=0; x<img.cols; x++){
            cv::Vec3b pixel;
            pixel = dst_vec3b(y,x);
            rd_bmp[y*img.cols+x] = (pixel[0] & 0xff) | ((pixel[1] & 0xff)<<8) | ((pixel[2] & 0xff)<<16);
            // blue - pixel[0]; green - pixel[1]; red - pixel[2];
        }
    }

    // ins に入力データを用意する
    for(int j=0; j < img.rows; j++){
        for(int i=0; i < img.cols; i++){
            pix.data = (ap_int<32>)rd_bmp[(j*img.cols)+i];

            if ((i==img.cols-1) && (j==img.rows-1)) // フレームの最後で last をアサートする
                pix.last = 1;
            else
                pix.last = 0;

            ins << pix;
            ins_soft << pix;
        }
    }

    krnl_lap_filter_dmaw(ins, hw_lap.data(), img.cols, img.rows);   // ハードウェアのソーベルフィルタ
    krnl_lap_filter_soft(ins_soft, outs_soft,img.cols, img.rows);   // ソフトウェアのソーベルフィルタ

    // ハードウェアとソフトウェアのソーベルフィルタの値のチェック
    for (int y=0; y<img.rows; y++){
        for (int x=0; x<img.cols; x++){
            ap_int<32> val = hw_lap[y*img.cols+x];
            outs_soft >> vals_soft;
            ap_int<32> val_soft = vals_soft.data;
            if (val != val_soft){
                printf("ERROR HW and SW results mismatch x = %ld, y = %ld, HW = %x, SW = %x\n",
                        x, y, val, val_soft);
                return(1);
            }
        }
    }
    printf("Success HW and SW results match\n");

    const int lap_rows = img.rows;
    const int lap_cols = img.cols;
    cv::Mat wbmpf(lap_rows, lap_cols, CV_8UC3);
    // wbmpf にラプラシアンフィルタ処理後の画像を入力
    cv::Mat_<cv::Vec3b> lap_vec3b = cv::Mat_<cv::Vec3b>(wbmpf);
    for (int y=0; y<wbmpf.rows; y++){
        for (int x=0; x<wbmpf.cols; x++){
            cv::Vec3b pixel;
            pixel = lap_vec3b(y,x);
            int32_t rgb = hw_lap[y*wbmpf.cols+x];
            pixel[0] = (rgb & 0xff); // blue
            pixel[1] = (rgb & 0xff00) >> 8; // green
            pixel[2] = (rgb & 0xff0000) >> 16; // red
            lap_vec3b(y,x) = pixel;
        }
    }

    // ハードウェアのソーベルフィルタの結果を bmp ファイルへ出力する
    cv::imwrite(OUTPUT_BMP_FILE, wbmpf);

    return(0);
}

// RGBからYへの変換
// RGBのフォーマットは、{8'd0, R(8bits), G(8bits), B(8bits)}, 1pixel = 32bits
// 輝度信号Yのみに変換する。変換式は、Y =  0.299R + 0.587G + 0.114B
// "YUVフォーマット及び YUV<->RGB変換"を参考にした。http://vision.kuee.kyoto-u.ac.jp/~hiroaki/firewire/yuv.html
// 2013/09/27 : float を止めて、すべてint にした
int32_t conv_rgb2y_soft(int32_t rgb){
    int32_t r, g, b, y_f;
    int32_t y;

    b = rgb & 0xff;
    g = (rgb>>8) & 0xff;
    r = (rgb>>16) & 0xff;

    y_f = 77*r + 150*g + 29*b; //y_f = 0.299*r + 0.587*g + 0.114*b;の係数に256倍した
    y = y_f >> 8; // 256で割る

    return(y);
}

// ラプラシアンフィルタ
// x0y0 x1y0 x2y0 -1 -1 -1
// x0y1 x1y1 x2y1 -1  8 -1
// x0y2 x1y2 x2y2 -1 -1 -1
int32_t laplacian_fil_soft(int32_t x0y0, int32_t x1y0, int32_t x2y0, int32_t x0y1,
        int32_t x1y1, int32_t x2y1, int32_t x0y2, int32_t x1y2, int32_t x2y2)
{
    int32_t y;

    y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
    if (y<0)
        y = -y;
    else if (y>255)
        y = 255;
    return(y);
}

void krnl_lap_filter_soft(hls::stream<ap_axiu<32,0,0,0> >& ins, hls::stream<ap_axiu<32,0,0,0> >& outs,
        int32_t x_size, int32_t y_size){
    ap_axiu<32,0,0,0> pix;
    ap_axiu<32,0,0,0> lap;

    int32_t line_buf[2][1920]; // supported HD resolution

    int32_t pix_mat[3][3];
    int32_t lap_fil_val;

    LOOP_X : for (int y=0; y<y_size; y++){
        LOOP_Y : for (int x=0; x<x_size; x++){
            ins >> pix; // AXI4-Stream からの入力

            Loop4 : for (int k=0; k<3; k++){
                Loop5 : for (int m=0; m<2; m++){
                    pix_mat[k][m] = pix_mat[k][m+1];
                }
            }
            pix_mat[0][2] = line_buf[0][x];
            pix_mat[1][2] = line_buf[1][x];

            int32_t y_val = conv_rgb2y_soft(pix.data);
            pix_mat[2][2] = y_val;

            line_buf[0][x] = line_buf[1][x];    // 行の入れ替え
            line_buf[1][x] = y_val;

            lap_fil_val = laplacian_fil_soft(   pix_mat[0][0], pix_mat[0][1], pix_mat[0][2],
                                                pix_mat[1][0], pix_mat[1][1], pix_mat[1][2],
                                                pix_mat[2][0], pix_mat[2][1], pix_mat[2][2]);
            lap.data = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val; // RGB同じ値を入れる

            if (x<2 || y<2) // 最初の2行とその他の行の最初の2列は無効データなので0とする
                lap.data = 0;

            if (x==(x_size-1) && y==(y_size-1)) // フレームの最後で TLAST をアサートする
                lap.last = 1;
            else
                lap.last = 0;

            outs << lap;    // ストリームへ出力
        }
    }

    LOOP_WAIT_LAST: while(pix.last == 0) { // last が 1 になるまで待つ
        ins >> pix;
    };
}


Vivado HLS 2019.2 の krnl_lap_filter_dmaw プロジェクトを作成した。
RTL_kernel_18_200316.png

solution メニューのSolution Settings... を選択して、Synthesis の設定項目で、Vitis Bottom Up Flow にチェックを入れてある。
RTL_kernel_19_200316.png
  1. 2020年03月16日 20:50 |
  2. Vitis
  3. | トラックバック:0
  4. | コメント:0

Vitis 2019.2 アプリケーション・プロジェクトでラプラシアン・フィルタAXI4-Streamバージョンのカーネルを複数インスタンス

今回は、Vitis 2019.2 アプリケーション・プロジェクトでラプラシアン・フィルタAXI4-Streamバージョンのカーネルを複数インスタンスしてみよう。

Vitis 統合ソフトウェア プラットフォームの資料 アプリケーション アクセラレーション開発 UG1393 (v2019.2) 2019 年 11 月 11 日”の”第 55 章 アドバンス トピック: 複数の計算ユニットおよびカーネルのストリーミング”の”複数の計算ユニット”によると、

Vitis 環境では、v++ コマンドで --nk オプションを使用してカーネル (計算ユニット) のインスタンス数を指定します。--nk オプションは、xlcbin ファイルにインスタンシエートするカーネルの数と名前マップを指定します。

ということなので、やってみよう。

Vitis 2019.2 の streaming_lap_filter4 プロジェクトを作成した。(もうすでにビルドしてあるが)
streaming_lap_filter_92_200219.png

Assistant ウインドウの streaming_lap_filter4_system -> streaming_lap_filter4 を右クリックして右クリックメニューから Settings... を選択する。

Project Settings ダイアログが表示される。
V++ linker options: に

--config ../src/krnl_stream_dmar_lap_dmaw.ini

を入力した。
streaming_lap_filter_93_200219.png

krnl_stream_dmar_lap_dmaw.ini の内容を示す。

[connectivity]
nk=dma_read:1:dma_read_2
nk=krnl_lap_filter_dmaw:1:krnl_lap_filter_dmaw_2

stream_connect=dma_read_2.outs:krnl_lap_filter_dmaw_2.ins
stream_connect=dma_read_1.outs:krnl_lap_filter_dmaw_1.ins


これで Hardware をビルドした。

Vivado のブロックデザインを見てみよう。
streaming_lap_filter_94_200219.png

dma_read_1, dma_read_2, krnl_lap_filter_dmaw_1, krnl_lap_filter_dmaw_2 が実装されているのが分かる。2 組のストリーミング接続のカーネルが実装された。

アドレス・エディタの画面を示す。
streaming_lap_filter_95_200219.png

ホスト・プログラムも作ったが、まだうまく動いていない。とりあえず、他に書きたい内容が目白押しなので、後でデバックしようと思う。

(追記)
Vitis_Accel_Examples/host/mult_compute_units/ が複数の計算ユニットを使った簡単な例だそうだ。ホスト・プログラムを作る際には、Vitis_Accel_Examples/host/mult_compute_units/ を参考にしよう。
  1. 2020年02月19日 04:07 |
  2. Vitis
  3. | トラックバック:0
  4. | コメント:0

Vitis 2019.2 アプリケーション・プロジェクト ラプラシアン・フィルタAXI4-Streamバージョン5

Vitis 2019.2 で自作カーネルを使用してストーミング接続を試す10(streaming_lap_filter3 のプロファイル)”で、カーネル間のストリーミング接続は、カーネルを起動するレイテンシがかかっていることが分かった。ここでは、2 個のカーネルを連続して起動していた。それでは、カーネルが 1 個の時はどうなのだろうか? 同じ、ラプラシアン・フィルタの実装で確かめてみよう。もうすでに、Vitis のプロジェクトは作ってあって、ブログも書いてある。
Vitis 2019.2 アプリケーション・プロジェクト ラプラシアン・フィルタAXI4-Streamバージョン2
Vitis 2019.2 アプリケーション・プロジェクト ラプラシアン・フィルタAXI4-Streamバージョン3
Vitis 2019.2 アプリケーション・プロジェクト ラプラシアン・フィルタAXI4-Streamバージョン4”参照

Vitis 2019.2 アプリケーション・プロジェクト ラプラシアン・フィルタAXI4-Streamバージョン3”でプロファイル無しの状態での平均実行時間は、430 us だった。
Vitis 2019.2 アプリケーション・プロジェクト ラプラシアン・フィルタAXI4-Streamバージョン4”では、Appliction Timeline を表示したが、カーネルのプロパティは変更していなかったので、ソフトウェアだけのプロファイルを取っているようだった。この時の実行時間は 712 us だった。

今回は、カーネルのプロパティの Data Transfer を Counter + Trace に変更し、Stall Profiling にチェックを入れて、Appliction Timeline を表示してみよう。

Vitis 2019.2 の lap_filter_axis_dma プロジェクトを示す。
streaming_lap_filter_77_200213.png

Assistant ウインドウの lap_filter_axis_dma_system -> lap_filter_axis_dma -> Hardware -> lap_filter_axis_dma -> lap_filter_axis_dma を右クリックし、右クリックメニューから Settings... を選択する。
すると、Hardware Function Settings ダイアログが立ち上がる。そこで、、Data Transfer を Counter + Trace に変更し、Stall Profiling にチェックを入れた。
streaming_lap_filter_78_200213.png

ビルドを行って終了した。成功だ。
streaming_lap_filter_79_200213.png

Vivado のプロジェクトを見ると、”Vitis 2019.2 で自作カーネルを使用してストーミング接続を試す10(streaming_lap_filter3 のプロファイル)”と同様に System DPA が追加されている。
streaming_lap_filter_80_200213.png

ビルドが成功したので、BOOT.BIN をUltra96-V2 のPetaLinux の /rum/media/mmcblk0p1 ディレクトリに転送した。つまり、MicroSD カードの第 1 パーティションに転送した。
/home/masaaki/Vitis_Work/2019.2/lap_filter_axis_dma/Hardware/sd_card に移動する。
scp BOOT.BIN 192.168.3.23:/run/media/mmcblk0p1

Ultra96-V2 の PetaLinux をリブートして、Ultra96-V2 のPetaLinux で zocl ドライバをロードした。
insmod /lib/modules/4.19.0-xilinx-v2019.2/extra/zocl.ko

Assistant ウインドウの Hardware を右クリックして、右クリックメニューから Run -> Run Configurations... を選択する。
Vitis 2019.2 アプリケーション・プロジェクト ラプラシアン・フィルタAXI4-Streamバージョン4”ですでに設定は終了しているので、Run ボタンをクリックして、起動した。
streaming_lap_filter_81_200213.png

実行時間は 917 us だった。
streaming_lap_filter_82_200213.png

Assistant ウインドウの lap_filter_axis_dma_system -> lap_filter_axis_dma -> Hardware の下に、Debugger_lap_filter_axis_dma -> Run Summary(xclbin) をダブルクリックして Viits Analyzer を起動した。
Appliction Timeline をクリックして表示した。
streaming_lap_filter_83_200213.png

clEnqueueTask からカーネルの lap_filter_axis_dma が起動するまでの時間を計測した。 636 us だった。長い。。。
streaming_lap_filter_84_200213.png

clEnqueueTask から clFinish が終了するまでの時間は、1.830 ms だった。実行時間と合わない。
streaming_lap_filter_85_200213.png

これは、時間計測に OpenCL の event.getProfilingInfo() を使用しているからだろうか? ”Vitis 2019.2 で自作カーネルを使用してストーミング接続を試す10(streaming_lap_filter3 のプロファイル)”では、gettimeofday() を使用している。以前測った時は、どちらでも値は変わらなかったのだが。。。

m_axi_gmem-DDR (inm|outm) などのトランザクションを拡大してみた。
streaming_lap_filter_86_200213.png

更に拡大すると、AXIインターフェースのトランザクションが見える。
streaming_lap_filter_87_200213.png

最後に Profile Summary を示す。
streaming_lap_filter_88_200213.png

streaming_lap_filter_89_200213.png

streaming_lap_filter_90_200213.png

streaming_lap_filter_91_200213.png

やはり、2 個のカーネルをカーネル間のストリーミング接続するよりも、ハードウェアで接続したほうが速い。
  1. 2020年02月14日 04:44 |
  2. Vitis
  3. | トラックバック:0
  4. | コメント:0
»