声文通本地离线语音转文字桌面工具

hikki 的个人博客 / 16 / 0 / 创建于 3周前 / 更新于 1周前

AI摘要

声文通是一款完全离线的语音转文字桌面工具，基于FunASR框架，所有音频数据在本地处理，无需联网上传。支持文件转写、麦克风录音、批量处理、多模型切换（如Qwen3-ASR、SenseVoiceSmall等）、多语言识别及TXT/JSON/SRT格式导出。系统要求Windows 10/11、Python 3.10+，依赖ffmpeg处理视频。项目以MIT许可证开源，技术栈包括PySide6、SQLite、loguru等。属于【知识分享】类内容。

声文通 (swt)

本地离线语音转文字桌面工具 —— 安全、快速、不上传任何数据

swt logo

声文通是一款完全离线运行的语音转文字桌面应用，基于 FunASR 语音识别框架。所有音频数据在本地处理，无需联网，无需上传至任何服务器。

安装包下载

功能特性

功能	说明
文件转写	导入音频 (MP3 / WAV / FLAC / ……) 或视频 (MP4 / MKV / ……) 文件，自动提取音频并输出文本
麦克风录音	实时录制并转写，支持 VAD 自动分段
批量处理	多文件串行转写，稳定可靠
多模型支持	内置 6 种 ASR 模型，一键下载切换，CPU / GPU 均可推理
多语言	支持中文、英文、日语、韩语、粤语等多种语言
结果导出	支持 TXT / JSON / SRT 三种格式，可直接用于字幕
说话人分离	实验性支持多人对话识别（基于 CAM++）

内置模型

模型	大小	GPU 建议	CPU	说明
Qwen3-ASR (0.6B)	~1.8 GB	2GB+	流畅	轻量多语言，适合入门
Qwen3-ASR (1.7B)	~3.5 GB	6GB+	可运行但慢	高精度中文识别，内置标点
SenseVoiceSmall	~0.5 GB	无要求	流畅	超轻量，多语言+情感/事件检测
Whisper-large-v3	~3.1 GB	8GB+	不建议	OpenAI 旗舰多语言模型
faster-whisper-tiny	~0.2 GB	无要求	流畅	CTranslate2 加速，极致轻量
Fun-ASR-Nano	~1.0 GB	2GB+	可运行	FunAudioLLM 轻量 ASR，中文优化

系统要求

项目	要求
操作系统	Windows 10 / Windows 11
运行时	Python 3.10+
硬件	CPU 即可运行，支持 NVIDIA GPU 加速 (CUDA 12.1+)
存储	模型约 0.2–3.5 GB / 个，建议预留 10 GB 磁盘空间
依赖	ffmpeg（视频文件转写必需，纯音频可不安装）

快速开始

1. 克隆并进入项目

git clone https://gitee.com/ydtg1993/swt.gitcd swt```

### 2\. 创建虚拟环境并安装依赖

```bash
python -m venv .venv.venv\Scripts\activate
pip install -r requirements.txt```

### 3\. 下载模型

首次运行需要下载至少一个 ASR 模型。启动应用后，进入 **设置** → **模型下载管理**，选择需要的模型下载。

模型将保存在 `llm/` 目录下。

### 4\. 启动应用

```bash
python main.py```

> **注意**：转写视频文件需要安装 [ffmpeg](https://ffmpeg.org/download.html) 并将其添加到系统 PATH。

---

## 项目结构

swt/
├── main.py # 应用入口
├── requirements.txt # Python 依赖
├── LICENSE # MIT 许可证
├── config/ # 配置 (YAML + Pydantic Settings)├── core/ # 核心引擎 (ASR, VAD, 字幕生成)
├── models/ # 数据模型 (SQLAlchemy)├── ui/ # GUI 层 (PySide6 + QFluentWidgets)│ ├── pages/ # 页面组件
│ └── widgets/ # 可复用组件
├── workers/ # 后台工作线程 (QRunnable)├── utils/ # 工具函数
├── llm/ # 模型存储目录
├── resources/ # 图标、图片
├── scripts/ # 模型下载辅助脚本
├── tests/ # 测试
└── logs/ # 日志


---

## 技术栈

| 类别 | 技术 |
|------|------|
| GUI | PySide6 + QFluentWidgets |
| ASR 引擎 | FunASR (Qwen3-ASR, SenseVoiceSmall, FSMN-VAD) |
| 数据库 | SQLite + SQLAlchemy 2.x |
| 配置 | YAML + QSettings |
| 日志 | loguru |
| 任务系统 | QThreadPool + QRunnable + Signal |
| 文件处理 | pathlib |
| 打包 | PyInstaller |

---

## 开发

```bash
# 安装依赖
pip install -r requirements.txt

# 运行应用
python main.py

# 运行测试
pytest tests/ -v

# 打包为可执行文件
pyinstaller main.spec

第三方许可

项目	许可证
FunASR	MIT
Qwen3-ASR	Apache 2.0
SenseVoice	Apache 2.0
faster-whisper	MIT
PySide6	LGPL
QFluentWidgets	GPL / Commercial
ffmpeg	LGPL / GPL
ModelScope	Apache 2.0

许可证

声文通 (swt) 采用 MIT License 开源发布。

Copyright © 2026 声文通 (swt)

特此授权，任何获得本软件及相关文档文件副本的人，可无限制地处理本软件，包括但不限于使用、复制、修改、合并、发布、分发、再许可和/或销售本软件副本的权利。

项目地址

Gitee: gitee.com/ydtg1993/swt

_{Made with ❤️ by ydtg1993}

本作品采用《CC 协议》，转载必须注明作者和本文链接

hikki

103 声望

暂无个人描述~

1 人点赞

讨论数量: 0

(=￣ω￣=)··· 暂无内容！

讨论应以学习和精进为目的。请勿发布不友善或者负能量的内容，与人为善，比聪明更重要！

帮助

声文通本地离线语音转文字桌面工具

声文通 (swt)

安装包下载

功能特性

内置模型

系统要求

快速开始

1. 克隆并进入项目

第三方许可

许可证

项目地址

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

声文通 本地离线语音转文字桌面工具

声文通 (swt)

安装包下载

功能特性

内置模型

系统要求

快速开始

1. 克隆并进入项目

第三方许可

许可证

项目地址

社区赞助商

关于 LearnKu

资源推荐

服务提供商

其他信息

请登录

声文通本地离线语音转文字桌面工具