一、32位浮点加法器的优化设计(论文文献综述)
贾志[1](2021)在《浮点除法器的设计与性能改进》文中研究说明浮点运算已经被广泛应用于实时图形、多媒体应用处理以及数字信号处理等多个领域,许多数字信号处理算法使用浮点运算时,每秒需要执行数百万次计算,如此严苛的要求推动电路设计向更快速、更精确、更高效的方向发展,因此对浮点运算的研究尤为重要。传统的浮点运算处理对单精度浮点数和双精度浮点数研究较多,但是这些高精度的处理单元面积和功耗也相应很高,对于一些精度要求不高的低功耗设计而言,高精度的浮点运算单元不仅消耗更多的资源,而且影响其运行速率。为了更好地解决上述问题,本文设计了一款基于融合式对数转换器的半精度浮点除法器。该除法器的尾数处理部分运用了对数转换的思想,通过对数转换可将复杂的尾数除法运算转变为减法运算。在对数转换的基础上提出了除法器硬件实现的三种架构,分析比较三种架构的面积、延时和周期,最终确定运用融合对数转换器来实现除法器。在融合式对数转换器的设计过程中,本文首先分别设计了对数转换器和反对数转换器,然后通过分析对数函数和反对数函数的函数特性,利用二者的数学相似性创造性地提出了二者融合的硬件结构,即在对数转换器的基础上添加微弱的硬件资源,使得融合结构可以同时实现对数转换和反对数转换两个功能。该设计使得硬件可以复用,从而达到了节省资源的目的。在设计出融合结构后,本文从部分和整体两方面入手,分别对融合式对数转换器结构和半精度浮点除法器整体进行了性能分析。对于融合式对数转换器,在SMIC.18工艺下,对数转换器可以以14%的单元面积和6%的延迟为代价实现反对数功能。对于半精度浮点除法器整体,与Xilinx内置的半精度浮点数除法器IP核相比,其主频提高了接近一倍,查找表减少了25%,触发器减少了56%。
钱堃[2](2021)在《多精度神经网络加速器设计》文中认为神经网络是人工智能算法的一个重要分支,这种算法具有统一的结构,更换权值即可实现不同的任务,同时权值还可以通过自动的训练获得。这些特性使神经网络可以广泛应用在很多领域,如机器视觉、自然语言处理、加密解密等。但是神经网络具有运算消耗算力大的特点,因此构造一种可以高效处理神经网络算法的推理任务的加速器非常有必要。本文首先分析了卷积神经网络和神经网络加速器的基本理论,在此基础上对神经网络计算模型进行分析,包括需要实现的算子和算子规格。卷积神经网络中最关键同时也是出现频率最高的算子是卷积算子及其配套的激活函数,卷积算子的加速是本加速器设计的重点。在对卷积算子的分析中,明确了出现频率较高的几种卷积规格,卷积尺寸为1或3,步长为1或2。本文随后介绍了卷积加速器的架构,包括全并行架构、数据窗口复用、Systolic架构和矩阵实现架构。本设计使用矩阵实现架构,并在此基础上添加了对多精度计算的支持,本设计支持在半精度浮点数或8位定点数下执行神经网络的推理任务。为了实现多精度推理,本文介绍了低精度神经网络推理的实现方式和相关参数的获取方式。最后介绍了多精度运算器的设计,包括多精度乘法器和多精度加法器。然后,本文根据架构设计,详细设计了存储子系统和计算子系统。存储子系统负责对主存储器的管理和为计算子系统提供数据,主存储器由两个单口SRAM存储构成,交替负责内部数据提供和外部访问服务。在提供数据方面,存储子系统根据配置生成地址,取出数据,对数据进行复用,最终将数据保存在寄存器阵列中,提供给计算子系统。计算子系统根据配置,从主存储器中取出偏置和权值,配合寄存器阵列中的数据,完成矩阵乘法和激活函数的运算。最后本文对所有设计部件进行仿真测试,所有部件均达到预计效果,和桌面CPU(AMD R5-3500X)相比,同频率下运行时间最高缩短11.2倍,本次设计达到预计设计目标。本设计通过通道复用的存储方法,解决了不同数据类型运算的位宽冲突问题,通过统一存储的方式缓解了片上存储空间的浪费问题,通过详细的部件设计,实现输入输出数据同构,消除了回写带宽瓶颈。
王宇,李涛,邢立冬,冯臻夫[3](2021)在《OpenVX高效能并行可重构运算通路的设计与实现》文中研究指明针对专用硬件在处理图形图像时无法同时兼顾灵活性、可扩展性和时效性的问题,设计一种支持OpenVX 1.3标准的专用处理器。通过对OpenVX 1.3标准中的核函数进行数据通路映射,分析实现函数高效处理所需的运算单元数目,确定适用于该标准的数据通路运算器的结构。通过编写指令对数据通路进行重构,适应OpenVX标准的演进和扩展。应用65 nm CMOS工艺库对整体电路进行综合验证,实现的OpenVX可重构数据通路运算器面积为21 076.21μm2、功耗为778.63 mW、系统主频为500 MHz、吞吐量为1.86 GB/s。实验结果表明,该数据通路运算器具有较强的可编程性和可扩展性,能够有效满足实时和高速的通用图像处理要求。
邹霞枫[4](2019)在《128位浮点指数函数的硬件实现》文中研究表明随着世界信息化进程的高速发展,需要计算机处理计算的数据量变得十分庞大。浮点数拥有表示范围广的特性,因此浮点计算在高精度计算领域应用增多,浮点数的计算变得越来越重要。浮点超越函数在天文、测绘等领域应用十分广泛。而在集成电路的设计中,由于制造工艺、芯片面积等条件的限制,传统的浮点硬件运算单元架构简单、速度慢,难以实现复杂的超越函数计算,因此在实际中多采用软件方法实现复杂浮点运算。集成电路工艺的提升为设计复杂浮点超越函数运算单元提供了基础,因此设计更快速、精确的浮点硬件运算单元已经成为集成电路设计中必须面对的课题。指数函数是超越函数中应用最广的函数,本文基于坐标旋转数字计算方法(Coordinate Rotation Digital Compute,CORDIC),提出了128位浮点指数函数硬件并行处理架构。架构中使用了一种改进四次预测CORDIC算法,在一个时钟上预测四次迭代的符号值,减少了迭代运算周期,提高了算法速度,解决了CORDIC算法在高精度计算情况下迭代次数较多的问题。在128位浮点指数运算中,将原本至少需要128次迭代缩减为37次,大大减少了算法运行周期,提高了算法的运行效率。相比于传统CORDIC算法只能根据下一次迭代结果值判断符号,四次预测CORDIC算法从四次迭代的整体值来判断符号,因此更能保证计算精度,也更适合于高精度浮点指数函数计算。本文实现了128位浮点指数函数运算单元的硬件电路结构设计。整体结构分为三个部分:预处理模块、指数函数尾数迭代模块和规则化模块。预处理模块负责异常分析,并对输入的128位浮点数进行处理,将输入的浮点数转化为定点数通过计算单元计算出结果的指数值,并输出尾数迭代的初始计算值。指数函数尾数迭代计算模块利用改进四次预测CORDIC算法进行迭代计算,是本算法的核心。将预处理得到的定点数输入到尾数迭代模块,经过一定时钟周期后迭代结果为预处理定点数相对应的双曲正余弦值。规则化模块负责将尾数迭代模块计算结果相加,得到计算结果的尾数值,通过前导零检测电路和减法器将尾数值、指数值与符号位整合输出为标准浮点数格式。本设计使用Verilog语言进行编程,完成了128位浮点指数函数硬件电路的设计。在TSMC 65 nm工艺下,利用Synopsys的综合设计工具进行仿真综合。利用Python生成的10万个随机浮点数与实验结果对比验证。经过测试,本算法的计算结果在输入输出为128位浮点数的情况下,可以满足113位满精度输出。在500 MHz的工作频率下,硬件面积消耗为0.66 mm2,功耗为62.65m W,计算周期为37个时钟。综上,本文实现了预期设计目标,完成了128位高精度浮点指数函数运算单元的设计。
刘昊[5](2019)在《128位浮点对数运算单元硬件设计》文中研究表明在科学计算、气象预测等应用场景中,使用了大量的浮点超越函数计算。目前的硬件处理器还不包含超越函数基本运算硬件单元,仍然采用软件库函数通过迭代逼近等方式将超越函数转化为近似的代数函数进行求解。该类方法往往需要频繁的调用各种浮点运算的子程序,运算效率低下。此外随着科学计算的发展,对计算精度的要求也不断提高,一般的双精度计算已经无法满足军事、天文等领域的应用要求,128位或更高精度的浮点运算的需求不断被提出。随着集成电路生产工艺水平的不断进步,处理器能够集成的电路门数越来越多,单位门数的功耗与面积呈指数递减,超越函数计算的全硬件化成本不断降低。将超越函数算法硬件化作为CPU的协处理器,将成为提高处理器运算性能的一个新方向。对数运算是超越函数中应用最多的函数之一,本文针对128位的高精度浮点对数运算单元完成了硬件IP设计。论文针对CORDIC(COordinate Rotation DIgital Computer)算法进行了分析和改进,设计了一种新的面向128位浮点对数运算的四步并行分支CORDIC算法。128位浮点数包含113位精度位,论文中提出的改进算法支持每步骤完成4位并行计算。提出的改进算法以双曲坐标系下的CORDIC算法作为基础,设定算法中的y恒为负值,将迭代方向的取值由{-1,1}简化为{0,1},并通过并行计算x,y,z的方式每次进行四步迭代方向的预测。由于和y的取值特点,可以直接根据并行计算结果获得下四次迭代方向,根据预测的迭代方向直接选择并行计算结果中正确一组作为当次迭代输出。以这种方式将四次单步迭代合并成一次四步迭代,解决了原有算法需要大量计算周期的缺陷,提高了运行效率。论文在硬件设计过程中采用模块化的设计方式,依照浮点对数运算的特点,将整个浮点对数运算单元的设计分为四个模块,分别为预处理模块、尾数对数运算模块、指数乘法模块以及加法合并输出模块。预处理模块主要负责进行输入浮点数的解码,将浮点计算转化为定点计算,同时对输入的异常数值进行检测并进行处理。尾数对数运算模块作为对数运算单元的核心模块,将四步并行分支CORDIC算法进行了硬件实现,通过并行预测计算的方式提高运算速度。在指数乘法模块的实现中,采用基-8 Booth乘法和超前进位加法的思想设计了高速的专用乘法器,对输入的指数部分进行相应的计算。最后将以上两个模块的结果输入加法合并模块,通过超前进位加法器进行结果合并,然后进行舍入和浮点规范化的处理,得到最终结果。论文硬件设计使用Verilog语言进行硬件建模,利用Synopsys的设计工具在TSMC 65nm工艺下进行了设计的仿真和综合。在测试过程利用python平台生成了2000万组128位浮点随机数据,经测试,所有的计算结果均能达到113位的有效精度,达到计算精度要求。在500MHz的工作频率下,硬件总面积约为0.72mm2,硬件功耗约为62.38mW,总计算周期仅为37个时钟周期。综上,论文实现了预期目标,完成了128位高精度浮点对数运算单元的设计。
王佩琪[6](2019)在《神经网络软硬件协同加速关键技术》文中研究表明深度神经网络的快速发展,推动了人工智能领域的革命性进步,同时也改变了人们的生产生活方式,在广泛的应用领域中取得了令人瞩目的成果。这些深度神经网络通常拥有很大规模,对硬件平台的计算资源和存储资源的需求也十分庞大,限制了在实际应用中的部署范围,尤其是在一些移动端或者嵌入式等资源受限平台上的使用。由于摩尔定律的发展速度正在逐渐放缓,同时神经网络算法仍然在以很快的速度进行发展和演化,单独地从硬件层面或者软件层面进行神经网络的加速和优化,很难有效地解决资源受限的问题。本文采用软硬件协同的方法,分别从硬件适配软件、软硬件耦合优化、软件适配硬件三个方面进行深入的研究,主要成果和创新点包括:·在硬件适配软件方面,本文提出一种数据为中心的卷积神经网络加速架构。架构采用一种全新的计算数据流,通过对算法计算中数据重用模式的利用,有效地减少片上的总数据传输量以及单次数据传输量。针对卷积操作进行优化有效地实现卷积神经网络的计算性能加速,专用架构的设计实现大幅度的功耗和面积的开销降低。·在软硬件耦合优化方面,本文提出一种基于Re RAM的稀疏神经网络加速架构SNrram。SNrram在软件层面采用对硬件平台更为友好的剪枝算法进行稀疏化,然后在硬件层面对规则化的稀疏权值数据的分解和重组操作。SNrram中提出一种稀疏性转移算法,可以最大限度地对网络的权值数据和激活值数据中的稀疏特征进行利用,实现高效地稀疏神经网络加速。·在软件适配硬件方面,本文提出两种神经网络量化方法。针对循环神经网络在量化后准确率大幅下降的问题,本文提出一种混合的三值循环神经网络量化方法Hit Net,针对不同分布的数据采用不同的量化策略,成功量化循环神经网络中全部权值数据和部分激活值数据至{-1,0,1}三值状态,可有效缩小量化模型与原始模型之间的精度差距。·针对生成式对抗网络训练过程不稳定的问题,本文提出一种生成式对抗神经网络量化方法QGAN,采用基于EM算法的线性量化策略和多精度的量化策略,成功实现了生成式对抗网络的量化操作。在仅使用1比特或者2比特进行数据表示的极端情况下,QGAN仍然可以生成质量与原始模型具有可比性的图片样本。
张祖扬[7](2019)在《深度神经网络硬件加速研究》文中研究指明随着半导体工艺的不断进步,机器学习领域研究的深入,神经网络成为了近年来实现人工智能的重要机器学习算法之一。神经网络尤其是深度神经网络因其结构的复杂带来的计算复杂度的上升,使得单纯用中央处理器顺序串行执行耗时越来越长。这样不仅给网络的训练带来问题,也给对于实时性有一定要求的网络计算任务带来了问题。因此人们提出了各种各样硬件加速的方式。其中一种比较常见的硬件加速方式是取代了过去数字信号处理器而出现的现场可编程门阵列(Fieled Programmable Gate Array,FPGA)。FPGA以其比较好的并行性和灵活性以及开发成本相对较低等特性受到高校等研究机构的青睐,甚至在一些应用场景直接用于商用产品的开发。目前,大多数FPGA的加速主要针对复杂指令集计算机,即CPU以X86或AMD64为主的计算机,并通过PCIe接口与CPU交换数据和控制信息。并且目前大多数FPGA仅仅加速已经完成训练的神经网络,而不会加速网络的训练过程。为了达到最佳的加速性能,通常FPGA加速会针对特定的神经网络进行优化,使得神经网络的FPGA加速的通用性变差。本文提出一种基于ZYNQ的FPGA加速结构。它以ZYNQ内部自带的ARM(Advanced RISC Machine)作为主要计算核心,ZYNQ自带的FPGA作为神经网络的硬件加速部分,兼顾结构中软硬件的通用性和可扩展性,实现嵌入式神经网络的计算加速。本文提出的结构中,将神经网络中的全连接的矩阵乘法运算以及卷积运算放到FPGA上进行,而ARM负责流程控制,池化和激活函数的运算。本文结构在尽量满足通用性的前提下加速神经网络,因此本文结构中FPGA的互联采用标准的AXI系列协议,并且通过互联模块连接逻辑与处理器。本文中详细描述了关键的软件函数流程以及硬件加速电路的结构。并且在实现了整个结构后,通过LeNet-5手写数字识别网络对加速架构进行测试。在10000张MNIST图像的测试下,识别率在92%,使用FPGA加速前后效果不是特别明显,一张图片的处理时间仅仅减少了1%。
张俊[8](2019)在《高精度浮点指数和对数函数硬件设计》文中指出最近几年随着大数据的爆发性增长,面对数据处理的要求越来越高。无论在速度和精度上都有了更高的需求。在数据的运算中超越函数因其计算的复杂性,在计算速度的提升上一直被众多学者关注。现今超越函数的应用范围越来越广泛,在图像和语音处理中包含有大量指数,对数,三角函数的操作,这些函数运算的速度和精度会直接影响到系统的性能。在科学计算程序,三维图形的应用以及系统性能评测程序等里也包含大量的超越函数计算单元,对这些超越函数计算的速率和准确度也会影响到程序的运行性能。如何对这些数据操作进行高速的处理,提高函数运算的精度成为了当下的研究热点。在本课题中进行了指数和对数函数的硬件设计。针对指数和对数函数运算速度和精度的提高,在硬件架构上常采用CORDIC算法的流水线架构,利用增加迭代级数换取精度的提升。但受到算法中的收敛因子的限制,导致函数运算的计算域很窄,这对当前的海量数据处理是不能够满足要求的。针对计算域过窄的状况,本文提出新的硬件设计方案,完成函数运算域的扩展。在指数和对数函数方案设计中主要依靠浮点数特征和函数性质,采用数学原理推导的方法对计算域进行了很好的提升。对数函数的运算主要是将其分为小范围的对数运算和乘法运算完成。指数函数的运算首次直接对指数函数的结果中的指数部分和尾数部分进行硬件实现,解决了函数计算中中间数据容易出现溢出的状况。通过新方案的提出对函数运算的计算域有了很好的提升。同时鉴于函数运算的精度要求,首次采取四精度浮点数作为输入,通过增加存储资源的消耗实现函数运算中精度的提升。在硬件架构中根据提出的新方案进行设计,主要包括函数运算模块,时序控制模块和电路整体控制模块。为提高函数运算的精度,对浮点数输入的尾数部分进行数据处理保证所有的尾数进入函数运算模块,同时在计算中采用67级流水的CORDIC算法进行小范围的指数和对数运算。因为算法中的迭代次数很多,对算法模块进行优化,节约硬件资源消耗。最后对硬件设计中的函数运算进行误差分析,将输入输出转换为十进制与计算器得到的结果进行对比,完成误差的分析。在数据运算中指数和对数函数的计算精度都很高,满足现在图像和科学计算程序等对数据运算的高精度需求。
陈强[9](2018)在《雷达信号脉冲压缩方法与实现研究》文中研究说明在脉冲雷达系统中,脉冲压缩处理解决了雷达探测距离和距离分辨力矛盾的问题,是雷达信号处理中重要的预处理环节。在脉冲压缩的工程实现中,选择合适的雷达脉冲压缩信号、脉冲压缩算法、硬件实现平台,对于雷达脉冲压缩的处理性能非常关键,具有重要研究价值。本文首先介绍了雷达信号脉冲压缩的基本工作原理,对比分析了线性调频信号、相位编码信号、非线性调频信号、混合调制信号四种常用脉冲压缩信号的脉压性能,讨论了匹配滤波法、去斜率法、分数阶傅里叶变换法、压缩感知法四种数字脉冲压缩算法。接着重点研究了R22SDF倒逆序脉压算法及其FPGA实现方法,设计了基于R22-DIF结构实现的FFT和基于R22-DIT结构实现的IFFT。在FPGA实现上,FFT/IFFT采用单路延迟反馈流水处理结构,内部处理采用倒逆序的数据流,复数乘法模块采用三乘法器复乘结构,脉压内部数据格式采用自制18位浮点。最后,对设计进行了FPGA实现和性能测试,测试结果表明所设计的FPGA平台18位浮点R22SDF倒逆序脉压处理器量化信噪比优于60d B,满足高性能雷达需求;4K点以上的脉压延时比传统顺序脉压设计缩短50%以上;存储资源开销比传统顺序脉压设计减少50%以上。经过速度与资源优化设计的倒逆序脉压实现具有良好的精度和实时性。
杨玉权[10](2018)在《高性能浮点型DSP协处理器的设计》文中研究说明AVP335是一款32位高性能浮点型的数字信号处理器(DSP),具有非常丰富的片内外设与大量的片内存储,它的浮点处理单元(FPU)具有非常强大的数值计算和处理的能力。协处理器(coprocessor)是针对某些特定且CPU处理缓慢或无法处理的应用而设计的芯片,主要辅助CPU完成这些特定任务的处理。例如浮点运算、超越函数的计算等。因此,协处理器的设计是针对某种特定的应用,而不必将它设计为一款通用型处理器。本研究设计了一款32位高性能浮点型DSP的协处理器,该协处理器主要用于协助CPU完成浮点数的数值计算和处理。根据协处理器的基本功能与设计要求,首先对协处理器的组成结构进行介绍,包括浮点数标准、寄存器、流水线、指令集以及寻址方式。其次,本研究对FPU的数值运算单元进行了分析与设计,主要包括对加法器、乘法器以及除法器等算法的研究。此外,为了使数值运算单元获得更好的性能,对相应的算法做出了进一步的改进。因此,加法器的设计采用改进型的Two-Path算法实现,即通过减少运算路径中的移位操作以及提高路径的并行度。乘法器采用基4 Booth算法将乘数进行编码,降低产生部分积的数量,然后使用Wallace树型压缩器完成部分积的压缩,并通过保留进位加法器(CSA)完成最终的相加。除法器采用基4 SRT算法实现。最后是译码控制单元的设计,首先对浮点指令和指令执行过程进行详细的分析,然后对指令译码器进行设计。完成FPU各个功能模块的设计后,编写了各个功能模块的RTL代码,并使用VCS和Ncverilog仿真工具完成FPU各个功能的验证,仿真结果表明了该处理器的逻辑设计完全正确。最后,基于0.13μm CMOS工艺用半定制的方式对协处理器系统进行仿真与验证。
二、32位浮点加法器的优化设计(论文开题报告)
(1)论文研究背景及目的
此处内容要求:
首先简单简介论文所研究问题的基本概念和背景,再而简单明了地指出论文所要研究解决的具体问题,并提出你的论文准备的观点或解决方法。
写法范例:
本文主要提出一款精简64位RISC处理器存储管理单元结构并详细分析其设计过程。在该MMU结构中,TLB采用叁个分离的TLB,TLB采用基于内容查找的相联存储器并行查找,支持粗粒度为64KB和细粒度为4KB两种页面大小,采用多级分层页表结构映射地址空间,并详细论述了四级页表转换过程,TLB结构组织等。该MMU结构将作为该处理器存储系统实现的一个重要组成部分。
(2)本文研究方法
调查法:该方法是有目的、有系统的搜集有关研究对象的具体信息。
观察法:用自己的感官和辅助工具直接观察研究对象从而得到有关信息。
实验法:通过主支变革、控制研究对象来发现与确认事物间的因果关系。
文献研究法:通过调查文献来获得资料,从而全面的、正确的了解掌握研究方法。
实证研究法:依据现有的科学理论和实践的需要提出设计。
定性分析法:对研究对象进行“质”的方面的研究,这个方法需要计算的数据较少。
定量分析法:通过具体的数字,使人们对研究对象的认识进一步精确化。
跨学科研究法:运用多学科的理论、方法和成果从整体上对某一课题进行研究。
功能分析法:这是社会科学用来分析社会现象的一种方法,从某一功能出发研究多个方面的影响。
模拟法:通过创设一个与原型相似的模型来间接研究原型某种特性的一种形容方法。
三、32位浮点加法器的优化设计(论文提纲范文)
(1)浮点除法器的设计与性能改进(论文提纲范文)
摘要 |
Abstract |
1 绪论 |
1.1 研究背景及意义 |
1.2 国内外研究现状 |
1.3 论文研究内容 |
1.4 论文结构 |
2 浮点表示及除法算法介绍 |
2.1 浮点数分类及表示方法 |
2.1.1 浮点数的表示方法 |
2.1.2 浮点数的分类 |
2.1.3 浮点数和实值转换 |
2.1.4 浮点数的舍入 |
2.2 除法算法介绍 |
2.2.1 数字迭代算法 |
2.2.2 函数迭代算法 |
2.2.3 泰勒级数展开算法 |
2.3 本章小结 |
3 对数转换器及反对数转换器设计 |
3.1 对数函数和反对数函数的算法介绍 |
3.1.1 LUT算法 |
3.1.2 CORDIC算法 |
3.1.3 分段线性逼近算法 |
3.1.4 算法的比较和选择 |
3.2 对数函数和反对数函数的分段线性近似方案 |
3.3 对数转换器的硬件设计 |
3.3.1 段索引编码器模块 |
3.3.2 多路复用器模块 |
3.3.3 加法树模块 |
3.4 反对数转换器的硬件设计 |
3.5 本章小结 |
4 基于融合式对数转换器半精度浮点数除法器设计 |
4.1 除法器硬件架构比选 |
4.1.1 速度优先 |
4.1.2 面积优先 |
4.1.3 融合转换 |
4.1.4 硬件架构的比较和选择 |
4.2 融合式对数转换器的实现 |
4.2.1 对数函数和反对数函数的相似性分析 |
4.2.2 融合式对数转换器硬件设计 |
4.3 除法器整体设计 |
4.3.1 除法器硬件实现 |
4.3.2 除法器时序设计 |
4.4 本章小结 |
5 基于融合式对数转换器半精度浮点除法器性能分析 |
5.1 融合式对数转换器性能分析 |
5.1.1 性能比较 |
5.1.2 误差比较 |
5.2 半精度浮点除法器性能比较 |
5.3 半精度浮点除法器误差分析 |
5.4 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(2)多精度神经网络加速器设计(论文提纲范文)
摘要 |
abstract |
第一章 绪论 |
1.1 课题研究的背景和意义 |
1.2 神经网络发展历史与现状 |
1.3 硬件加速器国内外研究现状 |
1.4 本文主要研究内容 |
第二章 神经网络与神经网络计算模型分析 |
2.1 神经网络 |
2.1.1 神经元和神经网络 |
2.1.2 卷积和卷积神经网络 |
2.2 神经网络计算模型分析 |
2.2.1 神经网络模型计算特性分析 |
2.2.2 神经网络模型存储特性分析 |
2.3 本章小结 |
第三章 神经网络加速器架构设计 |
3.1 神经网络加速器架构简介 |
3.1.1 全并行加速架构 |
3.1.2 数据窗口优化架构 |
3.1.3 矩阵计算架构 |
3.1.4 脉动阵列架构 |
3.2 神经网络加速器架构设计 |
3.2.1 数据结构设计 |
3.2.2 存储子系统架构设计 |
3.2.3 计算子系统架构设计 |
3.3 本章小结 |
第四章 多精度计算单元设计 |
4.1 定点数计算机制简介 |
4.2 浮点数计算机制简介 |
4.2.1 浮点数乘法运算规则 |
4.2.2 浮点数加法运算规则 |
4.3 定点数映射浮点运算的研究 |
4.4 多精度乘法器设计 |
4.5 多精度加法器设计 |
4.6 本章小结 |
第五章 神经网络加速器的子模块设计 |
5.1 存储子系统设计 |
5.1.1 乒乓主存储器的设计 |
5.1.2 地址生成器的设计 |
5.1.3 数据整理器的设计 |
5.1.4 数据复用器设计 |
5.2 计算子系统设计 |
5.2.1 权值读取部分设计 |
5.2.2 计算阵列与临时缓存部分设计 |
5.2.3 后处理单元设计 |
5.3 本章小结 |
第六章 系统仿真验证 |
6.1 多精度神经网络加速器仿真平台的设计 |
6.2 多精度乘法器的验证 |
6.3 多精度加法器的验证 |
6.4 存储子系统的仿真 |
6.5 计算子系统的仿真 |
6.5.1 计算阵列的仿真 |
6.5.2 临时缓存的仿真 |
6.5.3 后处理部分的仿真 |
6.6 算法仿真 |
6.7 本章小结 |
第七章 总结与展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
(3)OpenVX高效能并行可重构运算通路的设计与实现(论文提纲范文)
0概述 |
1 OpenVX介绍 |
2 OpenVX函数的数据通路映射及分析 |
2.1 数据通路映射方案 |
1)流水线数据通路 |
2)并行数据通路 |
3)并行结构结合流水线数据通路 |
2.2 函数映射 |
2.2.1 点处理函数映射 |
1)基本运算类映射 |
2)图像色系变换 |
3)仿射变换 |
2.2.2 局部处理函数映射 |
2.2.3 全局处理函数映射 |
2.2.4 特征提取类函数映射 |
1)梯度幅值和方向计算 |
2)非极大抑制 |
3)边缘追踪 |
2.3 所需运算单元分析 |
1)所需运算单元种类的分析 |
2)所需运算单元数目的分析 |
3数据通路运算器的设计 |
3.1 数据通路运算器的整体结构 |
3.2 子模块内部结构 |
3.2.1 定点单元设计 |
1)定点加法器 |
2)定点乘法器 |
3)定点除法器 |
3.2.2浮点单元设计 |
1)浮点加法器 |
2)浮点乘法器 |
3)浮点除法器 |
4实验结果与分析 |
4.1 实验结果 |
4.2 性能分析 |
5结束语 |
(4)128位浮点指数函数的硬件实现(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.2 超越函数硬件浮点运算单元研究现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本文的主要研究内容 |
第2章 指数函数硬件算法详解 |
2.1 指数函数浮点运算算法研究概论 |
2.2 指数函数算法详解 |
2.2.1 指数函数算法 |
2.2.2 CORDIC算法原理 |
2.2.3 四次预测CORDIC算法 |
2.3 本章小结 |
第3章 高精度浮点指数函数运算的硬件实现 |
3.1 总体架构 |
3.2 预处理模块 |
3.2.1 IEEE754浮点规范 |
3.2.2 预处理模块结构 |
3.3 指数函数尾数迭代模块 |
3.3.1 模块设计思想 |
3.3.2 迭代模式控制逻辑 |
3.3.3 模块硬件实现 |
3.3.4 子模块硬件实现 |
3.4 规则化模块 |
3.4.1 模块设计思想 |
3.4.2 超前进位加法器 |
3.4.3 前导0检测电路 |
3.4.4 舍入规则 |
3.4.5 浮点规则化模块 |
3.5 本章小结 |
第4章 指数函数运算硬件单元的仿真分析 |
4.1 预处理模块测试 |
4.2 指数尾数迭代运算模块测试 |
4.3 规则化模块测试 |
4.4 运算单元整体测试 |
4.4.1 测试数据集 |
4.4.2 顶层模块测试 |
4.5 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(5)128位浮点对数运算单元硬件设计(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.1.1 课题背景 |
1.1.2 研究目的及意义 |
1.2 超越函数浮点运算的算法概述 |
1.3 超越函数硬件浮点运算单元研究状况 |
1.3.1 国外研究状况 |
1.3.2 国内研究状况 |
1.4 本文的主要研究内容 |
第2章 四步并行分支CORDIC算法 |
2.1 CORDIC算法及其改进算法概述 |
2.1.1 基本CORDIC算法 |
2.1.2 CORDIC的改进算法 |
2.2 四步并行分支CORDIC算法 |
2.3 本章小结 |
第3章 对数浮点运算单元的硬件设计实现 |
3.1 总体结构设计 |
3.1.1 IEEE754浮点规范 |
3.1.2 顶层模块划分 |
3.2 预处理模块设计 |
3.2.1 模块设计思想 |
3.2.2 模块硬件实现 |
3.3 尾数对数运算模块设计 |
3.3.1 模块设计思想 |
3.3.2 迭代模式控制逻辑 |
3.3.3 模块硬件实现 |
3.4 指数乘法模块 |
3.4.1 模块设计思想 |
3.4.2 模块硬件实现 |
3.5 加法合并模块 |
3.5.1 模块设计思想 |
3.5.2 模块硬件实现 |
3.6 本章小结 |
第4章 主要功能模块设计与实现 |
4.1 前导0检测电路 |
4.2 多常数乘法器 |
4.3 BOOTH编码乘法 |
4.4 超前进加位法器 |
4.5 进位保留加法器 |
4.6 舍入模块 |
4.7 浮点规则化模块 |
4.8 本章小结 |
第5章 对数运算单元的仿真分析 |
5.1 预处理模块测试 |
5.2 尾数对数运算模块测试 |
5.3 指数乘法模块测试 |
5.4 加法合并模块测试 |
5.5 运算单元整体测试 |
5.5.1 测试数据集 |
5.5.2 顶层模块测试 |
5.6 本章小结 |
总结 |
参考文献 |
攻读硕士学位期间发表学术论文情况 |
致谢 |
(6)神经网络软硬件协同加速关键技术(论文提纲范文)
摘要 |
abstract |
第1章 引言 |
1.1 研究背景和意义 |
1.2 神经网络发展概述 |
1.2.1 神经网络算法 |
1.2.2 神经网络硬件平台 |
1.2.3 当前的机遇与挑战 |
1.3 研究内容和主要贡献 |
1.4 论文组织结构 |
第2章 研究现状和相关工作 |
2.1 神经网络加速器 |
2.1.1 传统体系结构的加速器设计 |
2.1.2 新型体系结构的加速器设计 |
2.2 稀疏神经网络加速 |
2.2.1 稀疏矩阵加速 |
2.2.2 稀疏神经网络加速器 |
2.3 神经网络量化 |
2.3.1 多比特量化 |
2.3.2 极低比特量化 |
第3章 数据为中心的卷积神经网络加速 |
3.1 本章概述 |
3.2 研究背景与动机 |
3.3 CNN的计算模式分析 |
3.3.1 数据重用模式分析 |
3.3.2 数据表示方法分析 |
3.4 数据为中心的卷积操作 |
3.4.1 数据流设计原理 |
3.4.2 参考值机制 |
3.4.3 理论评估 |
3.5 加速架构设计 |
3.5.1 整体架构 |
3.5.2 PE计算阵列 |
3.5.3 存储单元 |
3.6 实验结果 |
3.6.1 PE阵列性能评估 |
3.6.2 整体性能评估 |
3.7 本章小结 |
第4章 SNrram: 基于Re RAM的稀疏神经网络加速 |
4.1 本章概述 |
4.2 研究背景与动机 |
4.3 SNrram对稀疏性的利用 |
4.3.1 激活值的稀疏性 |
4.3.2 权值的稀疏性 |
4.4 SNrram架构设计 |
4.4.1 整体架构 |
4.4.2 工作流程和映射机制 |
4.5 实验结果 |
4.5.1 实验方法 |
4.5.2 性能评估 |
4.6 本章小结 |
第5章 Hit Net:混合三值循环神经网络量化 |
5.1 本章概述 |
5.2 研究背景与动机 |
5.3 RNN模型的量化分析 |
5.3.1 典型量化方法 |
5.3.2 分析方法 |
5.3.3 误差分析 |
5.4 Hit Net:混合量化方法 |
5.4.1 混合量化 |
5.4.2 倾斜因子 |
5.5 实验结果 |
5.5.1 实验方法 |
5.5.2 倾斜因子评估 |
5.5.3 准确率评估 |
5.6 本章小结 |
第6章 QGAN: 生成式对抗网络量化 |
6.1 本章概述 |
6.2 研究背景与动机 |
6.3 GAN模型特征分析 |
6.3.1 GAN模型量化误差分析 |
6.3.2 GAN模型敏感性分析 |
6.4 QGAN量化方法 |
6.4.1 基于EM算法的量化方法 |
6.4.2 多精度量化策略 |
6.5 实验结果 |
6.5.1 基于EM算法的量化结果评估 |
6.5.2 多精度量化结果评估 |
6.6 本章小结 |
第7章 总结与展望 |
7.1 论文的主要研究工作 |
7.2 未来工作展望 |
参考文献 |
致谢 |
个人简历、在学期间发表的学术论文与研究成果 |
(7)深度神经网络硬件加速研究(论文提纲范文)
摘要 |
abstract |
缩略词 |
第一章 绪论 |
1.1 研究工作的背景 |
1.2 国内外研究现状 |
1.2.1 深度神经网络的研究现状 |
1.2.2 深度神经网络硬件加速研究现状 |
1.3 本文主要贡献与创新 |
1.4 本文的结构和安排 |
第二章 相关协议基础 |
2.1 浮点数标准 |
2.1.1 IEEE浮点数格式 |
2.1.2 IEEE浮点数近似和异常及其处理 |
2.1.2.1 浮点数近似 |
2.1.2.2 异常及其处理 |
2.1.3 IEEE浮点数相关运算 |
2.2 AXI4协议 |
2.2.1 架构 |
2.2.2 通道定义 |
2.2.3 握手机制 |
2.2.4 传输模式 |
2.2.4.1 传输模式 |
2.2.4.2 对齐传输和对齐传输 |
2.3 AXI4-Lite协议 |
2.4 AXI4-Stream协议 |
2.4.1 接口信号 |
2.4.2 握手机制 |
2.4.3 传输模式 |
2.4.3.1 传输模式 |
2.4.3.2 对齐传输和非对齐传输 |
第三章 系统架构 |
3.1 神经网络基本概念 |
3.2 卷积神经网络中常见运算 |
3.2.1 卷积运算 |
3.2.2 激活函数 |
3.2.3 池化运算 |
3.3 Zynq-7000 简介 |
3.4 架构介绍 |
3.4.1 加速结构软硬件划分 |
3.4.2 硬件加速结构 |
3.4.3 计算节点 |
第四章 主要硬件电路设计 |
4.1 浮点数乘法器 |
4.1.1 浮点数乘法运算流程 |
4.1.2 浮点数乘法器接口 |
4.1.3 乘法器主要功能模块 |
4.1.3.1 复位模块 |
4.1.3.2 输入预处理模块 |
4.1.3.3 指数加法器 |
4.1.3.4 Bypass模块 |
4.1.3.5 24比特定点数乘法器 |
4.1.3.6 规格化处理模块 |
4.1.4 仿真 |
4.2 浮点数加法器 |
4.2.1 浮点数加法运算流程 |
4.2.2 浮点数加法器接口 |
4.2.3 加法器主要功能模块 |
4.2.3.1 复位电路 |
4.2.3.2 对阶模块 |
4.2.3.3 定点数补码加法器 |
4.2.3.4 规格化模块 |
4.2.4 仿真 |
4.3 浮点数累加器 |
4.3.1 浮点数累计器接口 |
4.3.2 累加器主要功能模块 |
4.3.2.1 复位模块 |
4.3.2.2 预处理模块 |
4.3.2.3 带反馈的浮点数加法器 |
4.3.2.4 后处理模块 |
4.3.2.5 浮点加法器树 |
4.3.3 仿真 |
4.4 32比特浮点数舍入规格化模块 |
4.4.1 32比特浮点数舍入规格化模块接口 |
4.4.2 32比特浮点数舍入规格化模块电路逻辑 |
第五章 主要软件设计 |
5.1 数据访问 |
5.1.1 CDMA的操作 |
5.1.2 PS读写缓存设计 |
5.2 基本运算 |
5.2.1 二维卷积 |
5.2.2 矩阵乘法 |
5.3 简单的卷积神经网络实例 |
5.3.1 LeNet-5 简介 |
5.3.2 测试结果及分析 |
第六章 全文总结与展望 |
6.1 全文总结 |
6.2 后续工作展望 |
致谢 |
参考文献 |
攻读硕士学位期间取得的成果 |
学位论文答辩后勘误修订说明表 |
(8)高精度浮点指数和对数函数硬件设计(论文提纲范文)
摘要 |
ABSTRACT |
第1章 绪论 |
1.1 课题背景及研究的目的和意义 |
1.2 国内外发展现状 |
1.2.1 国外研究现状 |
1.2.2 国内研究现状 |
1.3 本文的主要内容 |
第2章 浮点超越函数相关硬件技术分析 |
2.1 数据处理架构介绍 |
2.2 常用超越函数硬件实现 |
2.2.1 级数收敛 |
2.2.2 查找表法 |
2.2.3 CORDIC算法 |
2.3 浮点数 |
2.3.1 IEEE2008 浮点数介绍 |
2.3.2 浮点数舍入模式 |
2.4 本章小结 |
第3章 指数和对数函数硬件设计方案介绍 |
3.1 对数函数硬件设计方案 |
3.1.1 浮点数预处理介绍 |
3.1.2 指数部分和尾数部分实现原理 |
3.1.3 对数函数结果转换和存储方案介绍 |
3.2 指数函数硬件设计方案 |
3.2.1 指数函数结果存储介绍 |
3.2.2 对函数结果转换为标准浮点数 |
3.3 本章小结 |
第4章 浮点指数和对数函数硬件电路设计 |
4.1 电路整体结构设计 |
4.2 浮点对数函数硬件电路设计 |
4.2.1 浮点数预处理模块设计 |
4.2.2 CORDIC算法向量模式模块设计 |
4.2.3 对数函数中指数部分模块设计 |
4.2.4 时序控制模块设计 |
4.2.5 标准浮点数转换模块设计 |
4.3 浮点指数函数硬件电路设计 |
4.3.1 指数函数的指数结果硬件电路设计 |
4.3.2 指数函数的尾数结果硬件电路设计 |
4.3.3 时序控制模块硬件电路设计 |
4.4 控制模块硬件电路设计 |
4.5 本章小结 |
第5章 仿真与验证 |
5.1 浮点数输入处理模块仿真 |
5.2 CORDIC算法向量模式模块仿真 |
5.3 标准浮点数转换模块仿真 |
5.4 浮点对数函数系统仿真 |
5.5 浮点指数函数系统仿真 |
5.6 本章小结 |
结论 |
参考文献 |
攻读硕士学位期间发表的论文及其它成果 |
致谢 |
(9)雷达信号脉冲压缩方法与实现研究(论文提纲范文)
摘要 |
Abstract |
符号和缩略词说明 |
第1章 绪论 |
1.1 研究背景和意义 |
1.1.1 雷达脉压波形研究现状 |
1.1.2 雷达脉压算法发展现状 |
1.1.3 雷达脉压实现平台现状 |
1.2 本文主要工作及其章节安排 |
第2章 脉压雷达波形和处理方法研究 |
2.1 脉冲压缩的基本原理 |
2.1.1 脉压理论模型 |
2.1.2 匹配滤波处理 |
2.2 雷达脉冲压缩信号研究 |
2.2.1 线性调频信号脉压 |
2.2.2 相位编码信号脉压 |
2.2.3 非线性调频信号脉压 |
2.2.4 混合调制信号脉压 |
2.2.5 雷达信号脉压性能比较 |
2.3 脉冲压缩处理方法研究 |
2.3.1 匹配滤波法 |
2.3.2 去斜率法 |
2.3.3 DFRFT法 |
2.3.4 压缩感知法 |
2.3.5 脉压方法对比 |
2.4 本章小结 |
第3章 R2~2SDF倒逆序脉压设计 |
3.1 倒逆序脉压算法设计 |
3.1.1 算法总体设计 |
3.1.2 R2~2-DIF结构FFT算法设计 |
3.1.3 R2~2-DIT结构IFFT算法设计 |
3.1.4 算法仿真验证 |
3.2 倒逆序脉压硬件设计 |
3.2.1 总体设计方案 |
3.2.2 R2~2SDF-DIF结构FFT硬件设计 |
3.2.3 R2~2SDF-DIT结构IFFT硬件设计 |
3.2.4 匹配滤波模块设计 |
3.3 倒逆序脉压数据格式设计 |
3.3.1 定点脉压设计 |
3.3.2 浮点脉压设计 |
3.4 本章小结 |
第4章 倒逆序脉压验证与测试 |
4.1 测试方案 |
4.1.1 测试内容 |
4.1.2 测试方法 |
4.2 基于R2~2SDF-DIF结构的FFT测试 |
4.3 基于R2~2SDF-DIT结构的IFFT测试 |
4.4 倒逆序脉压过程测试 |
4.4.1 功能测试 |
4.4.2 性能测试 |
4.4.3 延时测试 |
4.4.4 资源测试 |
4.5 本章小结 |
结论 |
参考文献 |
攻读学位期间研究成果清单 |
致谢 |
(10)高性能浮点型DSP协处理器的设计(论文提纲范文)
摘要 |
Abstract |
第1章 绪论 |
1.1 课题研究背景与意义 |
1.2 协处理器的发展历程与现状 |
1.3 课题介绍 |
1.4 研究的内容 |
1.5 本文的结构 |
第2章 协处理器的体系结构 |
2.1 CPU的体系结构简介 |
2.1.1 CPU的基本结构 |
2.1.2 流水线结构和功能 |
2.1.3 地址与数据总线 |
2.2 FPU的体系结构 |
2.2.1 FPU的基本结构 |
2.2.2 IEE754单精度浮点数 |
2.2.3 FPU的寄存器 |
2.2.4 FPU的流水线结构 |
2.2.5 浮点指令集 |
2.2.6 寻址模式 |
2.3 本章小结 |
第3章 FPU运算单元的设计 |
3.1 加法器的设计 |
3.1.1 浮点加法运算的原理 |
3.1.2 浮点加法运算的Two-Path算法研究 |
3.1.3 合并舍入Two-Path算法的研究 |
3.1.4 可变延时Two-Path算法的研究 |
3.1.5 前导预测算法 |
3.2 浮点乘法器的设计 |
3.2.1 乘法运算的基本原理 |
3.2.2 基4 Booth算法的研究 |
3.2.3 4-2压缩器 |
3.2.4 乘法器的设计与实现 |
3.3 除法器的设计 |
3.3.1 SRT算法原理 |
3.3.2 除法器的设计与实现 |
3.4 本章小结 |
第4章 FPU译码控制部件的设计 |
4.1 浮点指令的分析 |
4.2 浮点指令的执行过程 |
4.3 译码控制单元的设计 |
4.3.1 译码方式的研究 |
4.3.2 译码控制模块的设计 |
4.4 本章小结 |
第5章 协处理器的仿真验证 |
5.1 功能验证与验证平台 |
5.2 仿真验证平台的搭建 |
5.3 模块的仿真验证 |
5.3.1 浮点加法器的验证 |
5.3.2 浮点乘法器的验证 |
5.3.3 浮点除法器的验证 |
5.4 译码控制器的验证 |
5.5 本章小结 |
第6章 总结 |
参考文献 |
致谢 |
附录A Booth4编码部分积产生与压缩点列图 |
附录B FPU指令集 |
个人简历 |
攻读硕士学位期间公开发表论文 |
四、32位浮点加法器的优化设计(论文参考文献)
- [1]浮点除法器的设计与性能改进[D]. 贾志. 大连理工大学, 2021(01)
- [2]多精度神经网络加速器设计[D]. 钱堃. 电子科技大学, 2021(01)
- [3]OpenVX高效能并行可重构运算通路的设计与实现[J]. 王宇,李涛,邢立冬,冯臻夫. 计算机工程, 2021
- [4]128位浮点指数函数的硬件实现[D]. 邹霞枫. 哈尔滨工业大学, 2019(02)
- [5]128位浮点对数运算单元硬件设计[D]. 刘昊. 哈尔滨工业大学, 2019(02)
- [6]神经网络软硬件协同加速关键技术[D]. 王佩琪. 清华大学, 2019(02)
- [7]深度神经网络硬件加速研究[D]. 张祖扬. 电子科技大学, 2019(01)
- [8]高精度浮点指数和对数函数硬件设计[D]. 张俊. 哈尔滨工业大学, 2019(02)
- [9]雷达信号脉冲压缩方法与实现研究[D]. 陈强. 北京理工大学, 2018(07)
- [10]高性能浮点型DSP协处理器的设计[D]. 杨玉权. 湘潭大学, 2018(02)