FC2カウンター FPGAの部屋 2020年01月02日
FC2ブログ

FPGAやCPLDの話題やFPGA用のツールの話題などです。 マニアックです。 日記も書きます。

FPGAの部屋

FPGAの部屋の有用と思われるコンテンツのまとめサイトを作りました。Xilinx ISEの初心者の方には、FPGAリテラシーおよびチュートリアルのページをお勧めいたします。

ラプラシアン・フィルタをRTLカーネルとしてVitisで実装する1

テンプレートで書いた畳み込みニューラルネットワークをRTLカーネルとしてVitisで実装しようとしていたが、ソースコードとやり方が全くやったこと無いのはやり方が間違っているかコードが間違っているのか分からないので、トラブった時に大変だと考えた。そこで、”Vitis 2019.2 アプリケーション・プロジェクト ラプラシアン・フィルタAXI4-Streamバージョン2”で使用したラプラシアン・フィルタだったら、カーネル・アプリケーションはできているので、これを RTL カーネルとして実装することにした。

新たに Vivado HLS 2019.2 の lap_filter_axis_dma プロジェクトを作成した。
lap_fitler_59_200102.png

lap_filter_axis_dma.cpp は”Vitis 2019.2 アプリケーション・プロジェクト ラプラシアン・フィルタAXI4-Streamバージョン2”に貼ってあるソースコードそのままだ。

bmp_header.h は”Vitis 2019.2 アプリケーション・プロジェクト ラプラシアン・フィルタAXI4-Streamバージョン1”に貼ってある。

temp.bmp は”Vivado HLS勉強会5(AXI4 Stream)を公開しました”に貼ってある。

lap_filter_axis_dma_tb.cpp を貼っておく。

// lap_filter_axis_dma_tb.c
// BMPデータをハードウェアとソフトウェアで、ラプラシアン・フィルタを掛けて、それを比較する
// m_axi offset=slave version
// 2019/12/31 by marsee
//

#include <stdio.h>
#include <stdlib.h>
#include <string.h>
#include <stdint.h>

#include "bmp_header.h"

int32_t laplacian_fil_soft(int32_t x0y0, int32_t x1y0, int32_t x2y0, int32_t x0y1, int32_t x1y1, int32_t x2y1, int32_t x0y2, int32_t x1y2, int32_t x2y2);
int32_t conv_rgb2y_soft(int32_t rgb);
void lap_filter_axis_dma(volatile int32_t *inm, volatile int32_t *outm, int32_t x_size, int32_t y_size);    // hardware
void laplacian_filter_soft(int32_t *cam_fb, int32_t *lap_fb, long width, long height); // software

int main()
{
    int32_t *s, *h;
    long x, y;
    BITMAPFILEHEADER bmpfhr; // BMPファイルのファイルヘッダ(for Read)
    BITMAPINFOHEADER bmpihr; // BMPファイルのINFOヘッダ(for Read)
    FILE *fbmpr, *fbmpw;
    int32_t *rd_bmp, *hw_lapd, *sw_lapd;
    int32_t blue, green, red;
    char blue_c, green_c, red_c;

    if ((fbmpr = fopen("test.bmp", "rb")) == NULL){ // test.bmp をオープン
        fprintf(stderr, "Can't open test.bmp by binary read mode\n");
        exit(1);
    }
    // bmpヘッダの読み出し
    fread(&bmpfhr.bfType, sizeof(uint16_t), 1, fbmpr);
    fread(&bmpfhr.bfSize, sizeof(uint32_t), 1, fbmpr);
    fread(&bmpfhr.bfReserved1, sizeof(uint16_t), 1, fbmpr);
    fread(&bmpfhr.bfReserved2, sizeof(uint16_t), 1, fbmpr);
    fread(&bmpfhr.bfOffBits, sizeof(uint32_t), 1, fbmpr);
    fread(&bmpihr, sizeof(BITMAPINFOHEADER), 1, fbmpr);

    // ピクセルを入れるメモリをアロケートする
    if ((rd_bmp =(int32_t *)malloc(sizeof(int32_t) * (bmpihr.biWidth * bmpihr.biHeight))) == NULL){
        fprintf(stderr, "Can't allocate rd_bmp memory\n");
        exit(1);
    }
    if ((hw_lapd =(int32_t *)malloc(sizeof(int32_t) * (bmpihr.biWidth * bmpihr.biHeight))) == NULL){
        fprintf(stderr, "Can't allocate hw_lapd memory\n");
        exit(1);
    }
    if ((sw_lapd =(int32_t *)malloc(sizeof(int32_t) * (bmpihr.biWidth * bmpihr.biHeight))) == NULL){
        fprintf(stderr, "Can't allocate sw_lapd memory\n");
        exit(1);
    }

    // rd_bmp にBMPのピクセルを代入。その際に、行を逆転する必要がある
    for (y=0; y<bmpihr.biHeight; y++){
        for (x=0; x<bmpihr.biWidth; x++){
            blue = fgetc(fbmpr);
            green = fgetc(fbmpr);
            red = fgetc(fbmpr);
            rd_bmp[((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x] = (blue & 0xff) | ((green & 0xff)<<8) | ((red & 0xff)<<16);
        }
    }
    fclose(fbmpr);

    lap_filter_axis_dma((volatile int32_t *)rd_bmp, (volatile int32_t *)hw_lapd, (int32_t)bmpihr.biWidth, (int32_t)bmpihr.biHeight);    // ハードウェアのラプラシアン・フィルタ
    laplacian_filter_soft(rd_bmp, sw_lapd, bmpihr.biWidth, bmpihr.biHeight);    // ソフトウェアのラプラシアン・フィルタ

    // ハードウェアとソフトウェアのラプラシアン・フィルタの値のチェック
    for (y=0, h=hw_lapd, s=sw_lapd; y<bmpihr.biHeight; y++){
        for (x=0; x<bmpihr.biWidth; x++){
            if (*h != *s){
                printf("ERROR HW and SW results mismatch x = %ld, y = %ld, HW = %x, SW = %x\n", x, y, *h, *s);
                return(1);
            } else {
                h++;
                s++;
            }
        }
    }
    printf("Success HW and SW results match\n");

    // ハードウェアのラプラシアンフィルタの結果を temp_lap.bmp へ出力する
    if ((fbmpw=fopen("temp_lap.bmp", "wb")) == NULL){
        fprintf(stderr, "Can't open temp_lap.bmp by binary write mode\n");
        exit(1);
    }
    // BMPファイルヘッダの書き込み
    fwrite(&bmpfhr.bfType, sizeof(uint16_t), 1, fbmpw);
    fwrite(&bmpfhr.bfSize, sizeof(uint32_t), 1, fbmpw);
    fwrite(&bmpfhr.bfReserved1, sizeof(uint16_t), 1, fbmpw);
    fwrite(&bmpfhr.bfReserved2, sizeof(uint16_t), 1, fbmpw);
    fwrite(&bmpfhr.bfOffBits, sizeof(uint32_t), 1, fbmpw);
    fwrite(&bmpihr, sizeof(BITMAPINFOHEADER), 1, fbmpw);

    // RGB データの書き込み、逆順にする
    for (y=0; y<bmpihr.biHeight; y++){
        for (x=0; x<bmpihr.biWidth; x++){
            blue = hw_lapd[((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x] & 0xff;
            green = (hw_lapd[((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x] >> 8) & 0xff;
            red = (hw_lapd[((bmpihr.biHeight-1)-y)*bmpihr.biWidth+x]>>16) & 0xff;

            fputc(blue, fbmpw);
            fputc(green, fbmpw);
            fputc(red, fbmpw);
        }
    }
    fclose(fbmpw);
    free(rd_bmp);
    free(hw_lapd);
    free(sw_lapd);

    return(0);
}

void laplacian_filter_soft(int32_t *cam_fb, int32_t *lap_fb, long width, long height)
{
    int32_t **line_buf;
    int32_t *lap_buf;
    int32_t x, y, i;
    int32_t lap_fil_val;
    int32_t a, b;
    int32_t fl, sl, tl;

    // line_buf の1次元目の配列をアロケートする
    if ((line_buf =(int32_t **)malloc(sizeof(int32_t *) * 3)) == NULL){
        fprintf(stderr, "Can't allocate line_buf[3][]\n");
        exit(1);
    }

    // メモリをアロケートする
    for (i=0; i<3; i++){
        if ((line_buf[i]=(int32_t *)malloc(sizeof(int32_t) * width)) == NULL){
            fprintf(stderr, "Can't allocate line_buf[%d]\n", i);
            exit(1);
        }
    }

    if ((lap_buf=(int32_t *)malloc(sizeof(int32_t) * (width))) == NULL){
        fprintf(stderr, "Can't allocate lap_buf memory\n");
        exit(1);
    }

    // RGB値をY(輝度成分)のみに変換し、ラプラシアンフィルタを掛けた。
    for (y=0; y<height; y++){
        for (x=0; x<width; x++){
            line_buf[y%3][x] = conv_rgb2y_soft(cam_fb[y*width+x]);

            fl = (y+1)%3;       // 最初のライン, y%3=0 120, y%3=1 201, y=2 012, y=3 120
            sl = (y+2)%3;   // 2番めのライン
            tl = y%3;   // 3番目のライン

            // ラプラシアンフィルタ・データの書き込み
            if (y<2 || x<2){
                lap_fil_val = 0;
                lap_fb[(y*width)+x] = 0;
            } else {
                lap_fil_val = laplacian_fil_soft(   line_buf[fl][x-2], line_buf[fl][x-1], line_buf[fl][x],
                                                    line_buf[sl][x-2], line_buf[sl][x-1], line_buf[sl][x],
                                                    line_buf[tl][x-2], line_buf[tl][x-1], line_buf[tl][x]);
                lap_fb[(y*width)+x] = (lap_fil_val<<16)+(lap_fil_val<<8)+lap_fil_val ;
            }
        }
    }
    free(lap_buf);
    for (i=0; i<3; i++)
        free(line_buf[i]);
    free(line_buf);
}

// RGBからYへの変換
// RGBのフォーマットは、{8'd0, R(8bits), G(8bits), B(8bits)}, 1pixel = 32bits
// 輝度信号Yのみに変換する。変換式は、Y =  0.299R + 0.587G + 0.114B
// "YUVフォーマット及び YUV<->RGB変換"を参考にした。http://vision.kuee.kyoto-u.ac.jp/~hiroaki/firewire/yuv.html
// 2013/09/27 : float を止めて、すべてint にした
int32_t conv_rgb2y_soft(int32_t rgb){
    int32_t r, g, b, y_f;
    int32_t y;

    b = rgb & 0xff;
    g = (rgb>>8) & 0xff;
    r = (rgb>>16) & 0xff;

    y_f = 77*r + 150*g + 29*b; //y_f = 0.299*r + 0.587*g + 0.114*b;の係数に256倍した
    y = y_f >> 8; // 256で割る

    return(y);
}

// ラプラシアンフィルタ
// x0y0 x1y0 x2y0 -1 -1 -1
// x0y1 x1y1 x2y1 -1  8 -1
// x0y2 x1y2 x2y2 -1 -1 -1
int32_t laplacian_fil_soft(int32_t x0y0, int32_t x1y0, int32_t x2y0, int32_t x0y1, int32_t x1y1, int32_t x2y1, int32_t x0y2, int32_t x1y2, int32_t x2y2)
{
    int32_t y;

    y = -x0y0 -x1y0 -x2y0 -x0y1 +8*x1y1 -x2y1 -x0y2 -x1y2 -x2y2;
    if (y<0)
        y = 0;
    else if (y>255)
        y = 255;
    return(y);
}



Configuration Settings は

config_interface -m_axi_addr64
config_sdx -target xocc


にしてある。
lap_fitler_60_200102.png

C シミュレーションを行ったがエラーになってしまった。
lap_fitler_61_200102.png

/home/masaaki/Vivado_HLS/Ultra96/test/lap_filter_axis_dma/solution1/csim/build/../../../lap_filter_axis_dma_tb.cpp:67: `lap_filter_axis_dma(int volatile*, int volatile*, int, int)' に対する定義されていない参照です
collect2: エラー: ld はステータス 1 で終了しました


調べた結果 extern "C" { } がまずいようだったので、コメントアウトした。
lap_fitler_62_200102.png

もう一度、C シミュレーションを行った。今度は成功した。
lap_fitler_63_200102.png

C コードの合成を行った。
lap_fitler_64_200102.png

1 クロック毎に約 1 ピクセル処理できている。これが見たかった。

C/RTL 協調シミュレーションを行ったところ、再度エラー。
lap_fitler_65_200102.png
そういえば、AXI4 Master のINTERFACE 指示子の depth の設定がなかったので、追加した。

#pragma HLS INTERFACE m_axi depth=480000 port=outm offset=slave bundle=gmem
#pragma HLS INTERFACE m_axi depth=480000 port=inm offset=slave bundle=gmem


lap_fitler_66_200102.png

これでもう一度、C/RTL 協調シミュレーションを行った。
lap_fitler_67_200102.png

今度はLatency は 3538 クロックと表示されたが、エラーで終了している。
でも、波形表示のアイコンは表示されているので、波形は表示できそうだ。
Open Wave Viewer... アイコンをクリックして、波形を表示した。
lap_fitler_68_200102.png

波形が表示できた。
データを書き込むWrite トランザクションの m_axi_gmem_WVALID と m_axi_gmem_WREADY を見るとほとんど 1 になっていてスループットが取れていることが分かった。良さそうだ。

次に、本番用に lap_filter_axis_dma.ccp の extern "C" { } を戻した。
lap_fitler_69_200102.png

C コードの合成を行った。
lap_fitler_70_200102.png

結果は extern "C" { } を外した場合と同じだった。

Exprot RTL を行った。
Vivado synthesis, place and route にチェックを入れた。
lap_fitler_71_200102.png

結果を示す。
lap_fitler_72_200102.png

LUT と FF は合成時よりも、だいぶ少なくなった。DSP は 1 個少なくなった。BRAM が 4 個少なくなったのはなぜだろうか?

lap_filter_axis_dma.xo が生成された。
lap_fitler_73_200102.png

やり方をまとめると

1. Vivado HLS プロジェクトを作成して、Soulition メニューからSolution Settings... のGeneral でconfig_interface -m_axi_addr64、 config_sdx -target xocc に設定する。
2. カーネル・アプリケーションのソースコードで、 extern "C" { } をコメントアウトして、C シミュレーション、C コードの合成、C/RTL 協調シミュレーションを行う。
3. C/RTL 協調シミュレーションはエラーになるが、波形は確認できる。
4. extern "C" { } を戻して、C コードの合成をして、Export RTL を行って、”.xo”ファイルを生成する。


という手順になる。

  1. 2020年01月02日 08:44 |
  2. Vitis
  3. | トラックバック:0
  4. | コメント:0