音声認識と翻訳

POST

audio

transcriptions

curl https://qingbo.dev/v1/audio/transcriptions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F file="@audio.mp3" \
  -F model="whisper-1"

{
  "text": "欢迎使用 WaveAPI 语音识别服务。"
}

同期インターフェース — リクエスト完了後に認識結果を直接返します。

curl https://qingbo.dev/v1/audio/transcriptions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F file="@audio.mp3" \
  -F model="whisper-1"

{
  "text": "欢迎使用 WaveAPI 语音识别服务。"
}

利用可能なモデル

モデル ID	説明
`whisper-1`	OpenAI Whisper、多言語認識に対応

2つのエンドポイント

音声からテキスト

POST /v1/audio/transcriptions

音声を元の言語のテキストに書き起こします。

音声翻訳

POST /v1/audio/translations

音声を英語テキストに翻訳します。パラメータは書き起こしエンドポイントと同じです。

リクエストパラメータ

multipart/form-data フォーマットを使用：

file

必須

音声ファイル、mp3、mp4、mpeg、mpga、m4a、wav、webm フォーマットに対応

model

string

必須

モデル ID：whisper-1

レスポンス

text

string

認識または翻訳されたテキスト内容

テキスト埋め込みテキストをベクトル表現に変換

curl https://qingbo.dev/v1/audio/transcriptions \
  -H "Authorization: Bearer YOUR_API_KEY" \
  -F file="@audio.mp3" \
  -F model="whisper-1"

{
  "text": "欢迎使用 WaveAPI 语音识别服务。"
}

テキスト生成

画像生成

動画生成

音声

ツール・埋め込み

タスク管理

音声認識と翻訳

利用可能なモデル

2つのエンドポイント

音声からテキスト

音声翻訳

リクエストパラメータ

レスポンス

テキスト生成

画像生成

動画生成

音声

ツール・埋め込み

タスク管理

​利用可能なモデル

​2つのエンドポイント

​音声からテキスト

​音声翻訳

​リクエストパラメータ

​レスポンス

利用可能なモデル

2つのエンドポイント

音声からテキスト

音声翻訳

リクエストパラメータ

レスポンス