福建自主可控麦克风阵列介绍

时间:2022年07月04日 来源:

    语音转写产品虽然能很好的识别单目标声源的人声并进行转写,但是一旦出现竞争性声源,则无法辨别目标声源,竞争声源的存在导致对目标声源的识别便产生紊乱,无法进行语音到文字的转写和翻译。技术实现要素:为了解决现有同声翻译设备中存在的竞争性声源中辨别目标声源困难、设备体积过大不易携带的问题,本发明提供一种基于麦克风阵列的智能语音转文字及同声翻译系统,其可以智能识别目标声源,去除或降低竞争性噪声,对目标声源进行语音增强后进行语音到文字的转写和翻译,且设备体积较小容易携带。本发明的技术方案是这样的:一种基于麦克风阵列的智能语音转文字及同声翻译系统,其包括:声音采集模块、音频转换模块、语音增强模块、翻译模块;所述声音采集模块智能地选取目标声源,将数据送入所述音频转换模块,进行模拟语音数据和数字语音数据之间的转换;所述语音增强模块通过数字信号处理器向所述音频转换模块中的音频编解码芯片发送控制信号,将所述音频转换模块传输过来的语音信号进行处理及其控制语音信号的传输;处理过的数字语音信号送入所述翻译模块,按照用户选择的目标语言进行实时翻译。受使用时长及室内复杂环境等多种因素的影响,导致麦克风阵列接收信号的频率响应特性与理论值存在较大偏差。福建自主可控麦克风阵列介绍

福建自主可控麦克风阵列介绍,麦克风阵列

    得到目标语言的文本信息后,传送给结果确认模块;a4:结果确认模块按照用户的预设的翻译结果确认方式,将目标语言的文本信息以文本的形式显示给用户,或者将得到的目标语言的文本信息通过语音合成模块转换为音频数据后,通过播放软件将音频数据实时播放给用户;翻译模块单独安装在移动设备上,如手机、pad等设备,在普通模式下,基于其所在移动设备的声音采集模块采集目标声源的声信号,然后送入翻译模块进行实时翻译。本实施例中,翻译模块为使用java语言通过androidstudio开发环境开发,作为软件安装在手机中,通过无线方式与语音增强模块进行通信;翻译模块中通过三个子功能模块实现实时翻译流程:读转写模块:实现实时语音转文字功能;实时翻译模块:基于现有的翻译引擎实现实时翻译功能;语音合成模块:实现将文本数据转为音频数据的语音合成功能;读转写模块的实时语音转文字功能通过讯飞开放平台的语音转写技术实现;支持采样率为16k,位长为16bits,格式为pcm_s16le的单声道音频;字符编码为utf-8,响应格式采用统一的json格式;实时语音转写接口的调用过程分为两个阶段,个阶段为握手阶段,第二个阶段为实时通信阶段。握手阶段需要生成signal。福建自主可控麦克风阵列介绍由音频采集装置3组成的4×12的麦克风阵列。

福建自主可控麦克风阵列介绍,麦克风阵列

    供电装置为音频采集装置、视频采集装置和无线模块供电,便携式操作终端和无线模块无线电连接。本实施例的便携式可视化麦克风阵列装置,包括包体1、印刷电路板2、音频采集装置3、视频采集装置4、wifi模块5、电池6和便携式平板电脑7;包体的正面开有图像出孔8,在图像出孔8的位置安置一透光挡片9,用来防止灰尘弄脏镜头;包体1内缝制一夹层布料10,夹层布料10的下方开有一排线穿孔13,夹层布料10略带弹性,夹层布料10的长度和印刷电路板2的长度相同,夹层布料10的宽度和印刷电路板2的宽度相同,夹层布料10中心点和图像出孔8位置一致,以便于印刷电路板2能准确插放到合适位置;印刷电路板2正中心处开有视频采集装置安装孔11,视频采集装置4的镜头穿过视频采集装置安装孔11,再通过螺母和螺栓配合,安装到印刷电路板2背面;音频采集装置3焊接在印刷电路板2背面,在焊接音频采集装置3的位置开有声音出孔12;wifi模块5通过排线穿过夹层布料10上的排线穿孔13和印刷电路板2电连接,音频采集装置3将采集到的音频信号输出到wifi模块5,视频采集装置将采集到的视频信号输出到wifi模块5;wifi模块5选取raspberrypi4b作为主板。

    干扰噪声源1、干扰噪声源2...干扰噪声源num-1偏离正向的角度为θ2、θ3...θnum;本实施例中,num取值为3,即有两个竞争声源,则mic1采到的目标声源、干扰噪声源1、干扰噪声源2分别记作s1(n)、s2(n)和s3(n);则:前向麦克风mic1采集到的混合信号m1(n)为:m1(n)=s1(n)+s2(n)+s3(n)其中:s1(n)、s2(n)、s3(n)分别为通过麦克风mic1采集到的目标声源、干扰噪声源1、干扰噪声源2发出的声音信号;因为前向麦克风mic1更接近目标声源s1,所以麦克风mic2采集到的信号相对于前向麦克风mic1采集到的信号会有一定的延迟,则根据关系,可得麦克风mic2采集到的混合信号m2(n):其中,d为前向麦克风mic1和麦克风mic2之间的距离,本实施例中d的取值为15mm;c为声速,fs为采样频率;对时域信号进行分帧、加窗后再进行时频变换可得m1(l,k)和m2(l,k):如果在混合信号的一个时频单元内,当目标信号的能量占了主导,即在这个时频单元内存在如下关系:|s1(l,k)|>>|s2(l,k)|并且|s1(l,k)|>>|s3(l,k)|式中:l和k分别是频率点和时间窗的序号;则此混合信号的一个时频单元内,目标声源的信号占主导时,混合信号与目标信号的关系可以近似表示为:其中,δ1为目标声源的理想延迟时间。目前常用的麦克风阵列可以按布局形状分为:线性阵列,平面阵列,以及立体阵列。

福建自主可控麦克风阵列介绍,麦克风阵列

    在握手阶段完成之后,进入实时通信阶段,此时客户端可以主动上传数据以及结束标识,之后即可接收转写结果。实时转写时,向服务端发送二进制的音频数据,音频发送的时间间隔为15秒。在完成音频数据发送之后,需发送内容为{“end”:true}的binarymessage到服务端表示发送结束;在此之后服务端将转写的文字结果返回到翻译模块。使用实时语音转写功能时,转写的文本会显示在源语言的文本框内。实时翻译模块的编写基于百度ai开放平台的通用翻译的机器翻译实现,翻译模块通过调用机器翻译的api,将所需翻译的内容以及目标语种传送给百度翻译引擎,即可获得所需的翻译结果。具体实现时,通过get或post发送字符串来访问所需服务;实时翻译模块确保大小在6000bytes以内的文本翻译的准确性,文本的编码为utf-8编码,翻译的结果为json格式。完成实时翻译功能后,翻译的文本将显示在目标语言的文本框内。语音合成模块的语音合成功能基于百度ai开放平台的语音合成技术实现;基于http请求的restapi接口,将小于1024字节的文本转化为mp3、pcm(8k和16k)、wav(16k)格式的可播放的音频文件后,调用手机内的播放软件进行实时播放。本发明的技术方案中。针对在真实室内环境中,麦克风阵列与说话人(声源)之间存在干扰的情况下,声源定位能力不足的实际问题。福建自主可控麦克风阵列介绍

什么是麦克风阵列?为您介绍。福建自主可控麦克风阵列介绍

    音频转换模块包括音频解码器和,语音增强模块基于数字信号处理器dsp实现;语音增强模块通过数字信号处理器芯片的i2c接口向音频解码器发送控制信号,通过数字信号处理器芯片的mcasp接口连接音频解码器,交换数字音频信号的数据。语音增强模块中通过预先植入的语音增强算法对音频转换模块传入的声信号进行增强处理;语音增强算法包括以下步骤:s1:定义麦克风阵列中与目标声源s1接近的麦克风为前向麦克风mic1,其采集到的声信号为m1(n),另一个麦克风mic2采集到的声信号为m2(n);对声信号m1(n)、m2(n)进行分帧与加窗之后,再进行时频变换即得到频域信号m1(l,k)和m2(l,k),其中:l和k分别是频率点和时间窗的序号;s2:因为同一个声源的声信号到达两个麦克风mic1、mic2的时间存在延迟,计算延迟系数t(l,k);s3:将延迟系数与目标声源的理想延迟时间δ1进行比较,确定目标声源的能量所占成分;延迟系数t(l,k)的计算方法包括如下步骤:设目标声源存在竞争性语音噪声:干扰噪声源1、干扰噪声源2...干扰噪声源num-1,其中,num取值为自然数;目标声源偏离正向的角度为θ1,θ1的值为0°或非常接近0°。福建自主可控麦克风阵列介绍

信息来源于互联网 本站不为信息真实性负责