Skip to content

iFLYTEK-OP/websdk-python-demo

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

9 Commits
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 
 

Repository files navigation

一、PYTHON-SDK-DEMO信息获取与运行

1、能力使用的 APPID、APISecret、APIKey获取

请点击控制台进行获取并填写到 .env 文件!

4、DEMO运行说明

获取到信息后填写到项目路径 .env 文件中,找到能力对应的主类运行即可。能力与主类对应说明如下:

AI能力名称 对应主类名称
语音听写 iat_test.py
实时语音转写 rtasr_test.py
音频文件语音转写 lfasr_test.py
语音合成 tts_test.py
语音评测 ise_test.py
小牛翻译及自研机器翻译 translate_test.py
文本纠错 text_check_test.py
智能PPT(新) ai_ppt_test.py
静默活体检测 anti_spoof_test.py
银行卡识别 bank_card_test.py
名片识别 business_card_test.py
人脸比对 face_compare_test.py
人脸检测和属性分析 face_detect_test.py
配合式活体检测 face_status_test.py
人脸比对sensetime face_verify_test.py
指尖文字识别 finger_ocr_test.py
印刷文字识别和手写文字识别 general_words_test.py
性别年龄识别 igr_test.py
场景识别和物体识别和场所识别 rec_ocr_test.py
图片类识别(营业执照,出租车发票,火车票,增值税发票 ,身份证,印刷文字) image_word_test.py
身份证识别 营业执照识别 增值税发票识别 印刷文字识别(多语种) intsig_ocr_test.py
歌曲识别 qbh_test.py
静默活体检测sensetime silent_detect_test.py
人脸检测和属性分析 tup_api_test.py
人脸水印照比对 watermark_verify_test.py
超拟人合成 oral_test.py
简历生成 resume_generate_test.py
多语种大模型语音听写、方言大模型语音听写、中文大模型语音听写 spark_iat_test.py
一句话复刻 voice_clone_test.py
一句话训练 train_test.py
音频合规 audio_moderation_test.py
图片合规 image_moderation_test.py
同声传译 sim_interp_test.py
文本合规 text_moderation_test.py
文本校对 text_proof_test.py
文本改写 text_rewrite_test.py
视频合规 video_moderation_test.py
词库操作 wordlib_test.py
星火智能体 agent_test.py
超拟人交互 oral_chat_test.py
通用大模型识别 llm_ocr_test.py
超拟人个性化知识库 aiui_knowledge_test.py

二、讯飞开放平台常用AI能力介绍与常用参数说明

1、语音听写(流式版)

(1)功能说明

语音听写流式接口,用于1分钟内的即时语音转文字技术,支持实时返回识别结果,达到一边上传音频一边获得识别文本的效果。

(2)常用参数

以下仅为常用参数说明,详情请点击语音听写文档 查看。

参数名 类型 必传 描述 示例
vad_eos int 用于设置端点检测的静默时间,单位是毫秒。 即静默多长时间后引擎认为音频结束。 默认2000(小语种除外,小语种不设置该参数默认为未开启VAD)。 3000
dwa string (仅中文普通话支持)动态修正 wpgs:开启流式结果返回功能 注:该扩展功能若未授权无法使用,可到控制台-语音听写(流式版)-高级功能处免费开通;若未授权状态下设置该参数并不会报错,但不会生效。 "wpgs"

2、实时语音转写

(1)功能说明

实时语音转写(Real-time ASR)基于深度全序列卷积神经网络框架,通过 WebSocket 协议,建立应用与语言转写核心引擎的长连接,开发者可实现将连续的音频流内容,实时识别返回对应的文字流内容。 支持的音频格式: 采样率为16K,采样深度为16bit的pcm_s16le音频

(2)常用参数

以下仅为常用参数说明,详情请点击实时语音转写文档查看。

参数名 类型 必传 描述 示例
lang string 实时语音转写语种,不传默认为中文
语种类型:中文、中英混合识别:cn;英文:en;小语种及方言可到控制台-实时语音转写-方言/语种处添加,添加后会显示该方言/语种参数值。传参示例如:"
lang=en"
targetLang string 目标翻译语种 例如:targetLang="en" 如果使用中文实时翻译为英文传参示例如下: "
&lang=cn&transType=normal&transStrategy=2&targetLang=en" 注意:需控制台开通翻译功能

3、音频文件语音转写

(1)功能说明

语音转写(Long Form ASR)基于深度全序列卷积神经网络,将长段音频(5小时以内)数据转换成文本数据,为信息处理和数据挖掘提供基础。 转写的是已录制音频(非实时),音频文件上传成功后进入等待队列,待转写成功后用户即可获取结果,返回结果时间受音频时长以及排队任务量的影响。 如遇转写耗时比平时延长,大概率表示当前时间段出现转写高峰,请耐心等待即可,我们承诺有效任务耗时最大不超过5小时 。 另外,为使转写服务更加通畅,请尽量转写5分钟以上的音频文件。

(2)常用参数

以下仅为常用参数说明,详情请点击音频文件语音转写文档查看。

参数名 类型 必传 描述 示例
speaker_number string 发音人个数,可选值:0-10,0表示盲分
:发音人分离目前还是测试效果达不到商用标准,如测试无法满足您的需求,请慎用该功能。 默认:2(适用通话时两个人对话的场景)
has_seperate string 转写结果中是否包含发音人分离信息 false或true,默认为false
role_type string 支持两种参数 1: 通用角色分离 2:
电话信道角色分离(适用于speaker_number为2的说话场景)该字段只有在开通了角色分离功能的前提下才会生效,正确传入该参数后角色分离效果会有所提升。
如果该字段不传,默认采用 1 类型
language string 语种 cn:中英文&中文(默认) en:英文(英文不支持热词) cn

4、语音合成(流式版)

(1)功能说明

语音合成流式接口将文字信息转化为声音信息,同时提供了众多极具特色的发音人(音库)供您选择,可以在 这里 在线体验发音人效果。

(2)常用参数

以下仅为常用参数说明,详情请点击语音合成文档查看。

参数名 类型 必传 描述 示例
vcn string 发音人,可选值:请到控制台添加试用或购买发音人,添加后即显示发音人参数值 "xiaoyan"
rdn string 合成音频数字发音方式 0:自动判断(默认值) 1:完全数值 2:完全字符串 3:字符串优先 "0"

5、语音评测(流式版)

(1)功能说明

通过智能语音技术自动对发音水平进行评价、发音错误、缺陷定位和问题分析的能力接口。涉及的核心技术主要可分为两个部分:中文普通话发音水平自动评测技术、英文发音水平自动评测技术。

(2)常用参数

以下仅为常用参数说明,详情请点击语音评测文档查看。

参数名 类型 必传 描述 示例
ent string 中文:cn_vip 英文:en_vip "cn_vip"
category string 中文题型: read_syllable(单字朗读,汉语专有) read_word(词语朗读) read_sentence(句子朗读) read_chapter(篇章朗读) 英文题型: read_word(词语朗读) read_sentence(句子朗读) read_chapter(篇章朗读) simple_expression(英文情景反应) read_choice(英文选择题) topic(英文自由题) retell(英文复述题) picture_talk(英文看图说话) oral_translation(英文口头翻译) "read_sentence"
text string 待评测文本 utf8 编码,需要加utf8bom 头 '\uFEFF'+text
tte string 待评测文本编码 utf-8 gbk "utf-8"
extra_ability string 拓展能力(生效条件ise_unite="1", rst="entirety")多维度分信息显示(准确度分、流畅度分、完整度打分)extra_ability值为multi_dimension(字词句篇均适用,如选多个能力,用分号;隔开。例如:add("extra_ability"," syll_phone_err_msg;pitch;multi_dimension"))单词基频信息显示(基频开始值、结束值)extra_ability值为pitch ,仅适用于单词和句子题型音素错误信息显示(声韵、调型是否正确)extra_ability值为syll_phone_err_msg(字词句篇均适用,如选多个能力,用分号;隔开。例如:add("extra_ability"," syll_phone_err_msg;pitch;multi_dimension")) "multi_dimension"
aue string 音频格式 raw: 未压缩的pcm格式音频或wav(如果用wav格式音频,建议去掉头部) lame: mp3格式音频 speex-wb;7: 讯飞定制speex格式音频(默认值) "raw"
auf string 音频采样率 默认 audio/L16;rate=16000 "audio L16;rate=16000"
group string 针对群体不同,相同试卷音频评分结果不同 (仅中文字、词、句、篇章题型支持),此参数会影响准确度得分 adult(成人群体,不设置群体参数时默认为成人) youth(中学群体 pupil(小学群体,中文句、篇题型设置此参数值会有accuracy_score得分的返回)) "adult"
grade string 设置评测的学段参数 (仅中文题型:中小学的句子、篇章题型支持) junior(1,2年级) middle(3,4年级) senior(5,6年级) "middle"
rst string 评测返回结果与分制控制(评测返回结果与分制控制也会受到ise_unite与plev参数的影响) 完整:entirety(默认值) 中文百分制推荐传参(rst="entirety"且ise_unite="1"且配合extra_ability参数使用) 英文百分制推荐传参(rst="entirety"且ise_unite="1"且配合extra_ability参数使用) 精简:plain(评测返回结果将只有总分),如: <total_score value="98.507320"/> "entirety"
ise_unite string 返回结果控制 0:不控制(默认值) 1:控制(extra_ability参数将影响全维度等信息的返回) "0"
plev string 在rst="entirety"(默认值)且ise_unite="0"(默认值)的情况下plev的取值不同对返回结果有影响。 plev:0(给出全部信息,汉语包含rec_node_type、perr_msg、fluency_score、phone_score信息的返回;英文包含accuracy_score、serr_msg、 syll_accent、fluency_score、standard_score、pitch信息的返回) "0"

About

No description, website, or topics provided.

Resources

License

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages