图像

Midjourney

针对Midjourney对外没有API的问题,只需要账号的token就能将普通账号转为HTTP接口,方便产品集成和开发。

文档      视频      在线测试
Stable Diffusion

文本提示词生成图片。

模糊图片修复

采用图片超分技术,将模糊图片修复,无损放大。

换脸

图片换脸,将图片中的人脸替换成指定的人脸。

音频

语音文件转写

将语音转为文本的接口,支持音频文件输入,返回音频对应的文本。

实时语音识别

websocket协议将音频进行实时转写,输入音频流返回文本。

语音合成

文本转语音,支持1000+音色,调用简单。

音色克隆

5-20秒音频克隆一个人的音色。

文本

AI文本对话

AI对话,文本创作,支持文心一言、openai,同义千问、chatglm、灵犀AI等市面大多数接口,可用于文案创作、对话聊天、角色扮演、编程代码等。

文本向量化

生成文本的词向量,用于文本的向量检索,语义相似度计算等。

视频

视频换脸

输入视频,返回换脸后的视频。

视频修复

视频超分辨率,视频修复,返回高清视频。

目标检测与识别

视频目标检测与识别。

综合

文本-语音对话

输入文本,返回对话语音,综合接口,后端可以支持大模型,低延时。

图片分割4等份+超分

用于将midjourney生成的图片进行切割并超分。

语音交互ws

低延时语音交互,websocket版本。

开放式语音交互

低延时语音交互,开放式指的是用户在语音交互过程中无需任何操作,体验如真人聊天搬的流畅。

多模态人机交互

语音交互+图文回复,可用于自动生成实时图文故事,实时问答。