Нейросеть для оценки количества спикеров в записи. TextTrainGenerator.py - подготовка датасета, DataGenerator.py - генератор данных для модели, Model.py - сама модель и её обучение, Predict.py - предсказание на основе обученной модели. 1_500_81_1_500_5_with_regs_0_6overlapPool_e-5_decay5e-4_abs_norm_peak_norm.600-1.36.hdf5 - последняя версия обученной модели. Порядок запуска:
- Создается список записей в формате (пример в test.txt): filepath speakername, для корректной работы требуется как минимум N различных спикеров, где N - максимальное число спикеров в смешанной записи. Для предобученных моделей в репозитории N = 4
- Запускается TextTrainGenerator.py и создается разметка для звуковых файлов. Для разметки используется webrtcvad
- На основе полученной разметки тренируется модель при запуске Model.py
- При помощи Predict.py предсказывается количество спикеров на основе обученной модели или оценивается точность
Модель mod40.hdf5 - модель с наибольшей точностью, около 40 %.