数据说明:

这是第一个阿拉伯语自然音频数据集,开发来识别3个离散的情绪:快乐,愤怒和惊讶。

该数据集在线阿拉伯语谈话节目中下载了主持人与演播室外的人之间的八段实时通话视频,然后将每个视频分成打电话者和接电话者两部分。为了标记每个视频,要求 18名听众听每个视频,并选择他们是否感觉到快乐、愤怒或惊讶的情绪。删除了沉默、笑声和嘈杂的片段。每个片段自动分成1秒的语音单元,形成最终语料库,由1384条记录组成。

提取了25个声学特征,也称为低层描述符,这些特征包括:强度、零交叉率、MFCC1-12(梅尔频率倒谱系数)、(FO基音频率)和F0包络、发音概率和LSP频率0-7。对每个特征应用了19个统计函数。这些函数是:最大值、最小值、范围、最大值的绝对位置、最小值的绝对位置、算术平均值、线性回归1、线性回归2、线性回归A、线性回归Q、标准差、峰度。偏斜度,四分位数1.2.3和,四分位数范围 1-2.2-3.1-3.每个 LLD 的 delta 系数也被计算为第一导数的估计值,因此总共得到 950 个特征。

数据来自网络收集整理,如有侵权请联系网站管理人员,及时删除!
探险家的数据窝 » 阿拉伯语自然音频数据集

提供各类遥感影像数据服务

立即查看 了解详情