<img src="https://www.zjujournals.com/eng/images/1008-973X/images/logo.png" class="img-responsive">

图 1 1 024点基2² SDF FFT结构图

Fig.1 Radix 2² SDF FFT architecture for 1 024-Point

2.1. 控制模块

控制模块主要由5个10 bit计数器组成. 因为数据经过复杂旋转因子乘法器会产生延迟，W_{1 024}、W₂₅₆和W₆₄需要24个时钟周期，W₁₆需要3个时钟周期，所以计数器2~4比前一级计数推迟24个时钟周期，计数器5推迟3个时钟周期. 各模块的控制信号为相应计数器的某一位，如表1所示.

表 1 控制信号表

Tab.1 Table of control signal

计数器	计数延迟	计数器位	控制信号	控制模块
Counter_1	0clk	Counter_1[9]	Control_10	BF10、TR10
Counter_1	0clk	Counter_1[8]	Control_9	BF9、W_{1 024}
Counter_2	24clk	Counter_2[7]	Control_8	BF8、TR8
Counter_2	24clk	Counter_2[6]	Control_7	BF7、W₂₅₆
Counter_3	24clk	Counter_3[5]	Control_6	BF6、TR6
Counter_3	24clk	Counter_3[4]	Control_5	BF5、W₆₄
Counter_4	24clk	Counter_4[3]	Control_4	BF4、TR4
Counter_4	24clk	Counter_4[2]	Control_3	BF3、W₁₆
Counter_5	3clk	Counter_5[1]	Control_2	BF2、TR2
Counter_5	3clk	Counter_5[0]	Control_1	BF1

如图2所示为1 024点FFT的时序图. 经过1 024个时钟周期完成数据的输入，在第513个时钟周期开始BF10的计算并输出计算结果，TR10的时序与BF10相同且没有数据延迟，在256个时钟周期后开始BF9模块的计算并输出计算结果，再经过24个时钟周期后数据完成W_{1 024}模块的计算并输入下一级. 后续模块的流水线时序以此类推.

图 2

图 2 1 024点基2² SDF FFT时序图

Fig.2 Radix 2² SDF FFT sequence diagram for 1 024-point

2.2. 蝶形单元模块

传统的SDF蝶形结构如图3（a）所示. 当使用N输入的LUT进行2个数的加法运算时，只会占用2个输入端口，其他几个端口会闲置. 若将加法器输入端一侧的其他逻辑输入合并到该LUT的闲置端口，则可以更加充分地利用LUT资源^[18]. 将传统蝶形结构中的加法器和选择器交换位置，使得选择器位于加法器输入端一侧，就可以将选择器和加法器综合进同一个 LUT单元中，从而节省硬件资源. 改进后的碟形单元结构如图3（b）所示^[6]. 现代Xilinx FPGA具有6输入LUT，允许将2个长度相同且长度≤16的1 bit位宽短移位寄存器映射到同一个LUT6资源中，输出为1 bit位宽的加法器需要映射到一个完整的LUT6资源中. 这意味着短移位寄存器的LUT成本是加法器的一半. 对于所需移位寄存器长度≤16的情况，将传统蝶形结构中的一个加法器换成一个短移位寄存器，可以减少硬件资源占用. 改进后的碟形单元结构如图3（c）所示^[7]. 基于上述2种思想，第6~10级蝶形单元采用图3（b）的改进结构，第1~5级蝶形单元采用图3（c）的改进结构，可以减少硬件资源占用，且这2种改进结构具有相同的数据顺序和控制结构，因此组合起来控制时序很简单. 分别以第6级和第2级蝶形单元为例说明工作时序，如图4所示.

图 3

图 3 蝶形单元结构图

Fig.3 Structure of butterfly elements

图 4

图 4 蝶形单元时序图

Fig.4 Butterfly element sequence diagram

2.3. 旋转因子乘法器模块

2.3.1. 简单旋转因子乘法器模块和复杂旋转因子乘法器模块W₁₆

奇数级蝶形单元之前的简单旋转因子乘法器需要对数据进行乘−j操作：

(12) $\left( {a + b{\rm{j}}} \right){\rm{\cdot}}\left( { - {\rm{j}}} \right) = b - a{\rm{j}}.$

由式（12）可知，只需将实部取反后再将实部、虚部换位即可完成乘法操作，结构如图5所示.

图 5

图 5 简单旋转因子（-j）乘法器

Fig.5 Multiplier of trivial rotation (-j)

W₁₆的系数如表2所示. 当θ=0时，输入数据不需要经过乘法器，可以直接送入下一级；当θ=π/2时，处理方法与2.3.1节相同. 利用旋转因子的对称性，只需要设计出0.923 9、0.382 7、0.707 1这3种数值的常数乘法器. 整数的常数乘法器设计更加简单，因此可以先将其扩大2⁸倍后取整，采用 1.3节的MCM方法，用移位操作和三输入加减法器来代替常规的乘法器，设计出236、97、181的常数乘法器，且最大限度地复用组成这3个常数的中间结果，从而减少硬件资源占用，提高计算速度. 这3个常数的MCM结构如图6所示. 如图7所示为W₁₆旋转因子乘法器结构. 可知，输入数据的实部和虚部分别进入MCM模块后，得到扩大236、97、181倍后的3个值，再将其缩小2⁸倍后得到乘0.923 9、0.382 7、0.707 1的结果. 通过乘法结果选择器中的Counter_4信号，从中选出相应的2个结果相加减，可得乘W₁₆旋转因子的最终值. 该设计方法共使用8个加法器，且在加法器处插入寄存器，关键路径约为1个加法器，有效提高了FFT的系统性能.

表 2 W₁₆的旋转因子系数

Tab.2 Coefficients of rotation W₁₆

Counter_4	${ {\rm{exp} }\;({ {\rm{ - j} }2{\text{π}} nk/N}) }$	n	θ	实部	虚部
0、4、8、12~15	${{\rm{e}}^0}$	0	0	1	0
5	${ {\rm{exp} }\;({ {\rm{ - j} }{\text{π}} k/8}) }$	1	π/8	0.923 9	−0.382 7
1、6	${ {\rm{exp} }\;({ {\rm{ - j} }{\text{π}} k/4} )}$	2	π/4	0.707 1	−0.707 1
7、9	${ {\rm{exp} }\;({ {\rm{ - j3} }{\text{π}} k/8}) }$	3	3π/8	0.382 7	−0.923 9
2	${ {\rm{exp} }\;({ {\rm{ - j} }{\text{π}} k/2}) }$	4	π/2	0	−1
3、10	${ {\rm{exp} }\;({ {\rm{ - j3} }{\text{π}} k/4}) }$	6	3π/4	−0.707 1	−0.707 1
11	${ {\rm{exp} }\;({ {\rm{ - j9} }{\text{π}} k/8}) }$	9	9π/8	−0.923 9	0.382 7

图 6

图 6 236、97、181的MCM 流水线加法器图

Fig.6 Pipelined adder graph of MCM with coefficients {236、97、181}

图 7

图 7 W₁₆旋转因子乘法器结构图

Fig.7 Multiplier of general rotation W₁₆

2.3.2. 复杂旋转因子乘法器模块W₆₄、W₂₅₆、W_{1 024}

　FFT中的旋转因子复数乘法可以表示为

(13) $\left( {{x_{{\rm{re}}}} + {\rm{j}}{x_{{\rm{im}}}}} \right)W_N^n = \left( {{x_{{\rm{re}}}} + {\rm{j}}{x_{{\rm{im}}}}} \right){{\rm{exp}}\;\left( {{ - {\rm{j}}\frac{{2\pi n}}{N}}} \right)}.$

即

(14) $\begin{array}{*{20}{l}} {\left[ {\begin{array}{*{20}{c}} {{x_{{\rm{re}} }^{'}}}\\ {{x_{{\rm{im}}}^{'}}} \end{array}} \right] = \left[ {\begin{array}{*{20}{c}} {\cos \;\left( { - \dfrac{{2{\text{π}} n}}{N}} \right)}&{ - \sin\; \left( { - \dfrac{{2{\text{π}} n}}{N}} \right)}\\ {\sin \;\left( { - \dfrac{{2{\text{π}} n}}{N}} \right)}&{\cos\; \left( { - \dfrac{{2{\text{π}} n}}{N}} \right)} \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {x_{{\rm{re}}}^{}}\\ {x_{{\rm{im}}}^{}} \end{array}} \right]{\rm{ = }}}\\ {\cos \left( { - \dfrac{{2{\text{π}} n}}{N}} \right)\left[ {\begin{array}{*{20}{c}} 1&{ - \tan \;\left( { - \dfrac{{2{\text{π}} n}}{N}} \right)}\\ {\tan \;\left( { - \dfrac{{2{\text{π}} n}}{N}} \right)}&1 \end{array}} \right]\left[ {\begin{array}{*{20}{c}} {x_{{\rm{re}}}^{}}\\ {x_{{\rm{im}}}^{}} \end{array}} \right].} \end{array} $

将式（14）、（6）进行比较可知，两者具有相同的形式，因此将输入序列的实部和虚部代入X₀、Y₀，将旋转角度代入Z₀，可以通过CORDIC算法的移位和加减运算，完成输入序列与旋转因子的复数乘法功能. 20级流水线CORDIC算法的硬件结构如图8所示.

图 8

图 8 流水线型CORDIC算法结构图

Fig.8 Structure of pipelined CORDIC unit

CORDIC算法所能获得的最大旋转角度为 $ \mathop {{\rm{lim}}}\limits_{n \to \infty } \displaystyle\sum\limits_{{{i}} = 0}^n {{\rm{arctan}}\;{{\rm{2}}^{{{ - i}}}}} \approx {\rm{99}}^\circ $，故设定旋转区间为［0，π/2］. 对于其他区间的旋转角度，可以利用三角函数的性质，将旋转角度转换到第一象限内进行运算，如表3所示. 表中，Data_re、Data_im分别为信号的实部和虚部.

表 3 旋转角度预处理表格

Tab.3 Pretreatment of rotation angle

旋转角度Z₀	角度预处理	X₀	Y₀
[0, π/2]	Z	Data_im	Data_re
[π/2, π]	Z − π/2	−Data_re	Data_im
[π, 3π/2]	Z − π	−Data_im	−Data_re

根据旋转因子角度的规律，用简单的累加器实时生成旋转角度，设计方法如图9所示.

图 9

图 9 旋转角度生成模块

Fig.9 Angle generator module

每一级旋转因子模块的角度如表4所示. 旋转角度都是2π/N的倍数，因此将2π/N作为累加器的初始角度，累加结果依次为0, 2π/N,···,2π/N×（N/4−1），最终的旋转角度在这一组值的基础上根据k₁、k₂的不同分别扩大0倍、2倍、1倍和3倍.

表 4 旋转角度规律表

Tab.4 Mathematical law of rotation angles

k₁	k₂	n₃	$W_N^{{n_3}\left( {{k_1} + 2{k_2}} \right)}$	旋转角度
0	0	0, 1,···, N/4−1	$W_N^0$	0
0	1	0, 1,···, N/4−1	$W_N^{2{n_3}}$	$0,\dfrac{ { {\rm{4} }{\text{π} } } }{ {{N} } },\dfrac{ { {\rm{8} }{\text{π} } } }{ {{N} } }, \ldots ,\dfrac{ { {\rm{4} }{\text{π} } } }{ {{N} } }\left( {\dfrac{ {{N} } }{ {\rm{4} } } - 1} \right)$
1	0	0, 1,···, N/4−1	$W_N^{{n_3}}$	$0,\dfrac{ { {\rm{2} }{\text{π} } } }{ {{N} } },\dfrac{ {4{\text{π} } } }{ {{N} } }, \ldots ,\dfrac{ { {\rm{2} }{\text{π} } } }{ {{N} } }\left( {\dfrac{ {{N} } }{ {\rm{4} } } - 1} \right)$
1	1	0, 1,···, N/4−1	$W_N^{3{n_3}}$	$0,\dfrac{ { {\rm{6} }{\text{π} } } }{ {{N} } },\dfrac{ { {\rm{12} }{\text{π} } } }{ {{N} } }, \ldots ,\dfrac{ { {\rm{6} }{\text{π} } } }{ {{N} } }\left( {\dfrac{ {{N} } }{ {\rm{4} } } - 1} \right)$

对CORDIC计算的结果乘增益因子M进行校正，M采用单常数乘法器（single constant multiplication，SCM）的方式实现，如图10所示.

图 10

图 10 增益因子M的SCM流水线加法器图

Fig.10 Pipelined adder graph of SCM with coefficient M

3. 实验结果对比分析

3.1. 功能仿真

测试数据形式如式（15）所示，采用常见的直流分量与余弦分量叠加的信号形式作为输入数据^[19]. 如图11所示为Matlab和本文的FFT处理器的结果，测试数据如表5所示. 将FFT处理器的结果与信号的频域特性对比可知，相对误差均小于0.2%. 设计的FFT处理器可以正确地提取信号的频域特性，实现FFT的功能.

图 11

图 11 直流分量与余弦分量叠加信号的FFT结果图

Fig.11 FFT result of signal superimposed by DC component and cosine component

表 5 信号频域特性测试数据表

Tab.5 Table of signal frequency domain characteristic test data

点	FFT结果	结果幅值	信号幅值	相对误差/%	相位	相对误差/%
第0点	（64, 0）	64	0.062 5	0	−	−
第100点	（55.418, −32.031）	64.008 9	0.125 02	0.013 9	−30.027 4	0.091 5
第300点	（0.031, 127.949）	127.949 0	0.249 9	0.039 8	89.986 1	0.015 4
第724点	（0.059, −127.910）	127.910 0	0.249 8	0.070 3	−89.973 6	0.02936
第924点	（55.523, 32.082）	64.125 3	0.125 24	0.195 8	30.019 9	0.066 5

(15) $\begin{split} {{S}} =& {\rm{0}}{\rm{.062\; 5}} + 0.125 {\rm{cos}}\left( {{\rm{2}} {\text{π}} \times 100 {{t - 30{\text{π}}}} /{\rm{18}}0} \right){\rm{ + }} \\ & {\rm{ 0}}{\rm{.25}} {\rm{cos}}\left( {{\rm{2}} {\text{π}} \times 300 {{t}} + 90{\text{π}}/{\rm{18}}0} \right). \end{split}\!\!\!\!\!\!\!\! $

3.2. 电路性能分析

本文实现了数据位宽为16 bit的64点、256点和1 024点基2² SDF FFT架构，得到在Virtex-5、Virtex-7 FPGA芯片上的电路性能. 该设计没有使用DSP48E资源，因此在比较硬件性能时，采用文献[20]的方法，将slice regs、LUTs、DSP48E都转换为slice数量进行统一度量. 在Xilinx Virtex-5和Virtex-7 FPGA中，每个DSP48E相当于占用大约500个slice. 电路性能和硬件资源的对比情况如表6所示. 表中，N 为计算点数，f为频率，T_p为吞吐率，T_p,u为单位slice吞吐率. Valencia等^[21]将旋转因子储存到ROM中，通过状态机控制读取旋转因子的地址，实现了紧凑的基2/4 FFT架构. 本文设计的64点、1 024点FFT架构吞吐率虽然仅提升10%，但因为硬件资源占用更少，单位面积吞吐率分别提高了35.20%和66.29%. Wang等^[22]提出组合SDC-SDF FFT架构，通过共享算术资源，减少了近50%的复数乘法器，但需要使用DSP48E资源，提高了控制时序的复杂度；本文设计的256点FFT单位面积吞吐率提高了30.37%. Nguyen等^[23]使用优化的CORDIC算法，通过设置误差阈值来减少CORDIC模块的迭代次数，但吞吐率较低；本文设计的单位面积吞吐率提高了115%. Nguyen等^[20]提出基于CORDIC算法的并行双路延迟换向结构FFT处理器，提升了吞吐率且不占用BRAM资源，但整序换向模块会占用较多的LUT资源；本文设计的FFT架构单位面积吞吐率提高了25.38%.

表 6 FPGA实现的电路性能和硬件资源比较表

Tab.6 FPGA implementation results of circuit performance and hardware resources for different architectures

方法	FPGA型号	N	Slices	LUTs	Regs	DSP48Es		slice总量	f /MHz	T_p /（MS·s⁻¹）	T_p,u /（kS·s⁻¹）
方法	FPGA型号	N	Slices	LUTs	Regs	实际数	等效slice数	slice总量	f /MHz	T_p /（MS·s⁻¹）	T_p,u /（kS·s⁻¹）
文献[21]方法	V7	64	−	848	626	8	4 000	5 474	335	335	61.20
本文方法	V7	64	667	2 423	1 924	0	0	4 347	359.69	359.69	82.74
文献[22]方法	V5	256	−	1 733	1 073	12	6 000	8 806	297	297	33.72
本文方法	V5	256	1 093	3 925	3 258	0	0	7 183	315.77	315.77	43.96
文献[23]方法	V7	1 024	−	11 865	1 393	0	0	13 258	200	200	15.08
文献[21]方法	V7	1 024	−	1 671	2 065	25	12 500	16 236	317	317	19.52
文献[20]方法	V7	1 024	−	12 737	2 715	0	0	15 452	200	400	25.89
本文方法	V7	1 024	1 645	6 098	4 785	0	0	10 883	353.21	353.21	32.46

3.3. 误差分析

FFT处理器的精度通过测量1 024个点的平均相对误差（mean relative error, MRE）来评估，如下所示：

(16) ${\rm{MRE}} = {{{N}^{-1}}}{{\displaystyle\sum\limits_{i = 1}^N {{{\left| {A(i) - B(i)} \right|}}/{{\left| {A(i)} \right|}}} }} \times 100{\text{%}} .$

式中：A为Matlab的FFT函数计算结果，B为FFT处理器的计算结果.

本文的FFT架构MRE为0.94%，误差来源主要是旋转因子乘法器模块和10级流水线运算的误差累积. 其中W_{1 024}模块的MRE约为4.3×10⁻⁴，W₂₅₆模块约为9.5×10⁻⁵，W₆₄模块约为2.7×10⁻⁵，这3部分采用20级流水线CORDIC算法来实现，由于旋转角度由初始角度2π/N通过累加的方式实时生成，输入角度本身会产生误差. 20级运算的分辨率为10⁻⁴度，造成CORDIC算法的误差. W₁₆模块采用MCM方法实现，先将旋转因子左移扩大后量化取整，完成乘法计算后再将结果进行截断取整，左移位数越多，误差越小，但资源消耗越多. 折中考虑这2个因素，选定扩大倍数为2⁸，误差如表7所示.

表 7 W₁₆旋转角度误差表

Tab.7 Rotation angle error of W₁₆

理想系数	扩大取整后系数	实际旋转因子系数	相对误差/%
0.923 9	236	0.921 8	0.227
0.382 7	98	0.382 8	0.026
0.707 1	181	0.707 0	0.014

传统的基于内存的FFT处理器MRE为0.52%，文献[20]的MRE为0.81%，文献[23]的MRE为0.72%，文献[24] 的MRE为0.314%. 虽然本文的MRE略高于上述文献的架构，但相对误差小于1%，且硬件性能更具优势，以较少的硬件资源消耗得到了较好的计算结果.

4. 结　语

本文针对FFT硬件实现中旋转因子乘法器消耗硬件资源较多的问题，采用CORDIC与MCM混合的方法，实现了无需常规乘法器的FFT架构，不必占用DSP48E资源. 利用现代FPGA可以实现三输入加法器的特点，设计旋转角度数量较少的W₁₆旋转因子模块，减少了硬件资源占用. 对于旋转角度数量较多的模块，采用流水线CORDIC架构实现，且旋转角度实时生成，避免了存储单元的使用. 蝶形单元中的存储模块均使用移位寄存器实现，整体架构只占用分布式逻辑资源，不需要BRAM资源. 本文提出的FFT架构可以应用于处理数据较多、计算较复杂的雷达成像处理领域，因为它可以把节省下来的硬件资源和ROM、DSP48E用于实现其他功能模块，以减少整体系统的资源消耗. 通过与Nguyen等^[20-23]提出的FFT架构对比可知，利用本文的设计方法大大提高了硬件效率.

参考文献

原文顺序

文献年度倒序

文中引用次数倒序

被引期刊影响因子

[1]

GROGINSKY H L, WORKS G A

A pipeline fast Fourier transform

[J]. IEEE Transactions on Computers, 1970, 19 (11): 1015- 1019

[2]

HE S, TORKELSON M. A new approach to pipeline FFT processor[C]// International Parallel Processing Symposium. Hawaii: IEEE, 1996: 766-770.

[3]

GARRIDO M, QURESHI F, TAKALA J, et al. Hardware architectures for the fast Fourier transform[M]//SHUVRA S, LEUPERS R, TAKALA J, et al. Handbook of signal processing systems. Switzerland: Springer, 2018: 613-648.

[4]

QURESHI F. Optimization of rotations in FFTs[D]. Linköping: Linköping University, 2012.

[5]

GARRIDO M, HUANG S, CHEN S, et al

The serial commutator FFT

[J]. IEEE Transactions on Circuits and Systems II: Express Briefs, 2016, 63 (10): 974- 978

DOI:10.1109/TCSII.2016.2538119 [本文引用: 1]

[6]

INGEMARSSON C, KALLSTROM P, GUSTAFSSON O. Using DSP block pre-adders in pipeline SDF FFT implementations in contemporary FPGAs[C]// 22nd International Conference on Field Programmable Logic and Applications. Oslo: IEEE, 2012: 71-74.

[本文引用: 2]

[7]

INGEMARSSON C, GUSTAFSSON O

SFF: the single-stream FPGA-optimized feedforward FFT hardware architecture

[J]. Journal of Signal Processing Systems, 2018, 90 (11): 1583- 1592

DOI:10.1007/s11265-018-1370-y [本文引用: 2]

[8]

MA Z G, YIN X B, YU F

A novel memory-based FFT architecture for real-valued signals based on a radix-2 decimation-in-frequency algorithm

[J]. IEEE Transactions on Circuits and Systems II: Express Briefs, 2015, 62 (9): 876- 880

DOI:10.1109/TCSII.2015.2435522 [本文引用: 1]

[9]

TANG A M, YU L, HAN F J, et al. CORDIC-based FFT real-time processing design and FPGA implementation[C]// 12th International Colloquium on Signal Processing and its Applications. Malacca: IEEE, 2016: 233-236.

[10]

SHI J Y, TIAN Y H, WANG M X, et al. A novel design of 1024-point pipelined FFT processor based on Cordic algorithm[C]// 2nd International Conference on Intelligent System Design and Engineering Application. Sanya: IEEE, 2012: 80-83.

[11]

MANKAR A, PRASAD N, DAS A D, et al

Multiplier: less VLSI architectures for radix‐2² folded pipelined complex FFT core

[J]. International Journal of Circuit Theory and Applications, 2015, 43 (11): 1743- 1758

DOI:10.1002/cta.2038 [本文引用: 1]

[12]

ZHANG J F, LIU H Z, CHEN T, et al

Enhanced hardware efficient FFT processor based on adaptive recoding CORDIC

[J]. Electronics and Electrical Engineering, 2013, 19 (4): 97- 103

[13]

MAHDAVI H, TIMARCHI S

Area-time-power efficient FFT architectures based on binary-signed-digit CORDIC

[J]. IEEE Transactions on Circuits and Systems I: Regular Papers, 2019, 66 (10): 3874- 3881

DOI:10.1109/TCSI.2019.2922988 [本文引用: 1]

[14]

MEYER-BASE U, MEYER-BASE A, HILBERG W. Coordinate rotation digital computer (CORDIC) synthesis for FPGA[C]// International Workshop on Field-programmable Logic. Berlin: Springer, 1994: 397–408.

[15]

VORONENKO Y, PUSCHEL M

Multiplierless multiple constant multiplication

[J]. ACM Transactions on Algorithms, 2007, 3 (2): 11- 49

DOI:10.1145/1240233.1240234 [本文引用: 1]

[16]

KUMM M, HARDIECK M, WILLKOMM J, et al. Multiple constant multiplication with ternary adders[C]// 23rd International Conference on Field Programmable Logic and Applications. Porto: IEEE, 2013: 1-8.

[17]

KUMM M. Multiple constant multiplication optimizations for programmable gate arrays [M]. Wiesbaden: Springer, 2016.

[18]

EHLIAR A. Optimizing Xilinx designs through primitive instantiation[C]// 7th FPGA World Conference. Copenhagen: ACM, 2010: 20-27.

[19]

MA Y K, LIANG H H. Implementation of a pipeline large-FFT processor based on the FPGA[C]// International Conference in Communications, Signal Processing and Systems. Harbin: Springer, 2017: 638-644.

DOI:10.1016/j.micpro.2018.04.003 [本文引用: 5]

[20]

NGUYEN H N, KHAN S A, KIM C H, et al

A high-performance, resource-efficient, reconfigurable parallel-pipelined FFT processor for FPGA platforms

[J]. Microprocessors and Microsystems, 2018, 60: 96- 106

[21]

VALENCIA D, ALIMOHAMMAD A

Compact and high-throughput parameterizable architectures for memory-based FFT algorithms

[J]. IET Circuits, Devices and Systems, 2019, 13 (5): 696- 703

DOI:10.1049/iet-cds.2018.5556 [本文引用: 3]

[22]

WANG Z, LIU X, HE B, et al

A combined SDC-SDF architecture for normal I/O pipelined radix-2 FFT

[J]. IEEE Transactions on Very Large Scale Integration Systems, 2015, 23 (5): 973- 977

DOI:10.1109/TVLSI.2014.2319335 [本文引用: 2]

[23]

NGUYEN H N, KHAN S A, KIM C H, et al

A pipelined FFT processor using an optimal hybrid rotation scheme for complex multiplication: design, FPGA implementation and analysis

[J]. Electronics, 2018, 7 (8): 137

DOI:10.3390/electronics7080137 [本文引用: 4]

[24]

VINAY K M, DAVID S A, SOBHA P M. Area and frequency optimized 1024 point radix-2 FFT processor on FPGA[C]// 2015 International Conference on VLSI Systems, Architecture, Technology and Applications. Bengaluru: IEEE, 2015: 1-6.