图像
音频
语音文件转写
将语音转为文本的接口,支持音频文件输入,返回音频对应的文本。
实时语音识别
websocket协议将音频进行实时转写,输入音频流返回文本。
语音合成
文本转语音,支持1000+音色,调用简单。
音色克隆
5-20秒音频克隆一个人的音色。
文本
AI文本对话
AI对话,文本创作,支持文心一言、openai,同义千问、chatglm、灵犀AI等市面大多数接口,可用于文案创作、对话聊天、角色扮演、编程代码等。
文本向量化
生成文本的词向量,用于文本的向量检索,语义相似度计算等。
视频
视频换脸
输入视频,返回换脸后的视频。
视频修复
视频超分辨率,视频修复,返回高清视频。
目标检测与识别
视频目标检测与识别。
综合
文本-语音对话
输入文本,返回对话语音,综合接口,后端可以支持大模型,低延时。
图片分割4等份+超分
用于将midjourney生成的图片进行切割并超分。
语音交互ws
低延时语音交互,websocket版本。
开放式语音交互
低延时语音交互,开放式指的是用户在语音交互过程中无需任何操作,体验如真人聊天搬的流畅。
多模态人机交互
语音交互+图文回复,可用于自动生成实时图文故事,实时问答。