#男女声识别 ``` 模型名称以及对应作用: ---gender_8k_ratev5_v6_adam.pth // 男女声(纯人声)分类模型(使用8k纯人声数据集进行训练,mobilenet_v2,adam优化器) ---gender_8k_v6_adam.pth // 男女声(带人声)分类模型(使用8k带人声数据集进行训练,mobilenet_v2,adam优化器) ---voice_005_rec_v5.pth // 纯人声分类模型(400首人工标注的歌曲,判定纯人声段(使用作品中带人声段当作负样本) mobilenet_v1, sgd优化器) ---voice_10_v5.pth // 带人声分类模型(400首人工标注的歌曲,判定带人声段, mobilenet_v1, sgd优化器) 模型地址:https://av-audit-sync-in-1256122840.cos.ap-mumbai.myqcloud.com/hub/voice_classification/models.zip ``` # 文件说明 ``` ---common.py // 用于绑定核心的代码 ---mobilenet_v2_custom.py // 模型代码 ---model.py // 调用模型的封装层 ---readme.MD // 说明文件 ---voice_class_online.py // 运行时使用的文件 ``` # 环境安装 ``` cd /home/worker wget "https://av-audit-sync-in-1256122840.cos.ap-mumbai.myqcloud.com/hub/voice_classification/bin/bin.zip" unzip bin.zip rm -f bin.zip export PATH=$PATH:/home/worker/bin # 需要写入到.zshrc中 sudo yum install libsndfile-devel # 以下使用手动安装即可 conda create -n voice_class python=3.7 -y conda activate voice_class pip3 install librosa pip3 install psutil pip3 install torch==1.5 torchvision torchaudio ``` # 使用说明 ``` 下载模型并解压后,按照voice_class_online.py中的运行方式运行即可 ``` # 注意: 目前代码中限制了CPU的核心数量,只允许占用一个核,建议根据核心的情况多开几个进程做处理 # 性能测试(不加性能限制的情况下在GPU-2机器上测试得到): 20个线上样本(男10,女10) CPU情况:spend_time:tot=31.91|transcode=5.92|vb=3.12|gen_feature=3.5|predict=18.94 GPU情况:spend_time:tot=15.64|transcode=6.34|vb=4.17|gen_feature=3.3|predict=1.443