灵犀AI

图像

Midjourney

针对Midjourney对外没有API的问题，只需要账号的token就能将普通账号转为HTTP接口，方便产品集成和开发。

文档视频在线测试

Stable Diffusion

文本提示词生成图片。

模糊图片修复

采用图片超分技术，将模糊图片修复，无损放大。

换脸

图片换脸，将图片中的人脸替换成指定的人脸。

语音文件转写

将语音转为文本的接口，支持音频文件输入，返回音频对应的文本。

实时语音识别

websocket协议将音频进行实时转写，输入音频流返回文本。

语音合成

文本转语音，支持1000+音色，调用简单。

音色克隆

5-20秒音频克隆一个人的音色。

AI文本对话

AI对话，文本创作，支持文心一言、openai，同义千问、chatglm、灵犀AI等市面大多数接口,可用于文案创作、对话聊天、角色扮演、编程代码等。

文本向量化

生成文本的词向量，用于文本的向量检索，语义相似度计算等。

视频换脸

输入视频，返回换脸后的视频。

视频修复

视频超分辨率，视频修复，返回高清视频。

目标检测与识别

视频目标检测与识别。

文本-语音对话

输入文本，返回对话语音，综合接口，后端可以支持大模型，低延时。

图片分割4等份+超分

用于将midjourney生成的图片进行切割并超分。

语音交互ws

低延时语音交互，websocket版本。

开放式语音交互

低延时语音交互，开放式指的是用户在语音交互过程中无需任何操作，体验如真人聊天搬的流畅。

多模态人机交互

语音交互+图文回复，可用于自动生成实时图文故事，实时问答。