语音转文字

本地视频与音频语音转文字

把本地视频、音频或录音中的讲话转成可检查的转写稿和字幕文件。支持本地 AI 识别、批量流程和常见导出格式。

下载 Voice2Sub 查看功能

适合音频和视频文件的通用语音识别流程，不是实时听写工具。

语音转文字

适合这些场景

课程和讲座视频
采访与研究录音
会议和网络研讨会
播客内容
需要转写稿的视频

面向文件的语音转文字流程

语音转文字是更上层的功能：识别音频或视频中的讲话，并生成可检查文本。之后可以继续用于转写稿、笔记、字幕或 CSV 审校。

下载 Voice2Sub

适合什么场景

聚焦通用语音识别，而不只是字幕导出。
音频和视频文件都可以作为入口。
生成结果可检查，便于核对姓名、标点和输出文件。
当来源或输出更具体时，再引导到音频转文字、视频转文字或 SRT/VTT 页面。
生成字幕或转写文件前，可从最多 99 种识别语言中选择语音语言。

流程

从本地文件到已检查的文字

将本地视频、音频、会议、课程或采访中的语音转成文字。检查后可导出 TXT、SRT、VTT、LRC 或 CSV。

01
导入本地文件

打开电脑上的音频、视频或录音文件。
02
运行 AI 识别

Voice2Sub 在桌面流程中生成带时间轴的可检查文字。
03
检查结果

检查姓名、专业词、标点和不清楚的片段。
04
导出格式

保存 TXT、SRT、VTT、LRC 或 CSV。

格式

将视频和音频文件中的语音转成文字

可根据文件内容和编解码情况，使用 MP4、MOV、MKV、WebM、MP3、WAV、M4A、AAC、FLAC 等常见文件作为转写或字幕生成输入。

语音识别流程

适合多种音频与视频来源

本页解释从讲话到文本的通用功能；录音、音频文件、视频文件、Whisper AI 和离线处理则由更具体的页面承接。

通用语音识别
音频和视频输入
转写稿或字幕输出

使用场景

把讲话内容变成可检索文本

适合用户需要把各种音频/视频中的讲话转成文字，而还未确定最终输出格式的情况。

讲座转文字
采访转写
会议录音生成笔记
为字幕准备文本
建立可检索的录音归档

语音转文字 FAQ

语音转文字和音频转文字有什么区别？

语音转文字描述识别讲话的功能；音频转文字更强调来源是 MP3、WAV、M4A 等音频文件。

Voice2Sub 可以从视频中识别讲话吗？

可以。导入支持的视频文件后，可生成转写文本，并在检查后导出 TXT 或 SRT/VTT 字幕。

这是实时听写工具吗？

不是。Voice2Sub 面向已经存在的本地音频或视频文件。

可以导出 SRT/VTT 字幕吗？

可以。检查生成结果后，可导出 SRT、VTT、TXT、LRC 或 CSV。

先把讲话转成文字，再选择需要的输出

下载 Voice2Sub，在桌面上把音频或视频中的讲话转成转写稿、文本或字幕。