老E的博客

  • 首页
  • 关于
  • 技术应用
    • VPS相关
    • AI相关
    • 盒子相关
    • 其他
  • 订阅Youtube频道
  • 网络加速
    • expressvpnNo.1 ExpressVPN
    • 最佳免费VPN-PrivadoVPN
    • NordVPN
    • 廉价王者-Surfshark
    • PrivateInternetAccess
    • 解锁一切-PrivateVPN
  • 公益资源
    • AI导航
    • 工具下载
    • Docker镜像加速
  • 友情链接
    • tickcloudTickcloud
老E的博客
专注记录并分享跨境技术应用及随想
  1. 首页
  2. 技术应用
  3. AI相关
  4. 正文

使用Google colab与Whisper进行字幕自动化抓取与翻译(二)

2023年7月26日 2736次阅读 0条评论
clawcloud
expressvpn best vpn
privado vpn
surfshark vpn
private vpn
pia vpn
nord vpn

对于新手而言,在很多库Colab已经自带的情况下,Colab的应用实际就是Jupyter Notebook的使用。同时,Google Colab除了提供免费的GPU,还有很重要的一点是计算环境的预置,这会节省大量的时间,将重心放在代码和任务上。如果不使用Colab而是在本地安装配置相应的训练、推理环境,可能还需要进一步在WebUI方面进行搭建,对于尝鲜者或者轻度使用者而言,会选择放弃自行安装部署。

1.Whisper简介

Open AI于2022年9月21日开源了号称其英文语音识别能力已达到人类水准的Whisper神经网络,且它也支持其它98种语言的自动语音识别。 Whisper系统所提供的自动语音识别(Automatic Speech Recognition,ASR)模型是被训练来运行语音识别与翻译任务的,它们能将各种语言的语音变成文本,也能将这些文本翻译成英文。Whisper由python实现,同时拥有丰富的社区支持。
Whisper的核心功能语音识别,典型的日常应用场景包括:

  • 可以帮助我们快捷将会议、讲座、课堂录音整理成文字稿;
  • 可以为无字幕的资源自动生成字幕,无需等待各大字幕组的字幕资源;
  • 可以使用whisper翻译发音练习录音,可以很好的应用于口语学习。

当然,最重要的是,OpenAI Whisper开源且免费。模型方面,有五种不同大小的模型可供选择,其中除了large模型外还提供了只支持英文的版本。模型越小占用显存越少,速度也更快,但精度也更低。

Size Parameters English-only model Multilingual model Required VRAM Relative speed
tiny 39 M tiny.en tiny ~1 GB ~32x
base 74 M base.en base ~1 GB ~16x
small 244 M small.en small ~2 GB ~6x
medium 769 M medium.en medium ~5 GB ~2x
large 1550 M N/A large ~10 GB 1x

2.Whisper github开源项目

本文使用的Github开源项目为以下3个:

    • Autotranslate
      https://github.com/lewangdev/autotranslate
    • Immersive-translate
      https://github.com/immersive-translate/immersive-translate
    • Whisper desktop
      https://github.com/Const-me/Whisper

在使用Autotranslate开源项目时,可以在运行时提交付费且有余额的OpenAI API Key,使用ChatGPT进行翻译,其翻译效果更优。但是,API Key不同于Access Token,一方面需要付费,同时仍然存在各种限制。ChatGPT(GPT3.5)官方API模型名称为“gpt-3.5-turbo”和“gpt-3.5-turbo-0301”,不仅能翻译成中英文,任意语言都是可以翻译的。需要注意的是,API调用费用为0.002美元/1000tokens,对于英语,1个token平均是4个字符,0.75个单词;中文大概是2个token一个汉字,翻译时,问题和回复都计入tokens数量。在OpenAI官方未绑定信用卡的试用版用户,每分钟请求数最多 3 个,不具有任何使用意义。

除此之外,优秀的Whisper开源项目还有很多,包括大神基于官方开源模型开发的基于C/C++的whisper.cpp和可使用GPU加速的faster-whisper(Autotranslate就是安装、调用的faster-whisper)。

桌面GUI应用除Whisper Desktop之外,Buzz 也是一款基于 OpenAI Whisper 的开源、可离线的实时语音转文字工具,支持 Windows、macOS、Linux等多终端,它可以将麦克风的语音实时转换为文字,也支持将视频、音频文件转换为文字、字幕。

国内可用的Whisper在线联网转录应用还包括网易见外、飞书妙记、剪映、必剪等。

3.应用过程

在Autotranslate项目页面上直接点击”NOTEBOOK“按钮,可直接跳转至Google Colab Notebook页面,即可直接逐块运行。

Autotranslate指定视频URL,利用faster-whisper识别文字到word级别,按照一定规则合并为句子后再调用 ChatGPT接口进行翻译。据作者测试,实践150分钟视频转录抓取,Colab T4耗时约30分钟(也许是40分钟,忘了)。应用需要自己的OpenAI API Key,没有付费API Key的用户最后的转中文翻译语句块不用尝试,而Azure OpenAI API的申请门槛对于个人而言不低,除了信用卡,还有就是需要自备活跃的、规范的企业邮箱。

后面的Immersive-translate已经发布到了Edge加载项市场(不是win系统的Store应用市场),作为扩展插件安装即可,无需在项目首页下载release版本自行手动安装。

搜索"Immersive-translate",第一项就是,安装即可。将该插件显示在工具栏上,”翻译服务“指定使用的服务(OpenAI或谷歌、必应...),以及"更多"下拉列表中的翻译选项,当然,包括翻译本地字幕。



在翻译本地字幕页面,直接拖放或者导入文件即可完成本地字幕文件翻译。

4.GLLM模型下载及Whisper Desktop应用

OpenAI于2022年9月开源原始系列,2022年12月开源large-v2,可使用的large-v2模型可在huggingface.co下载:

https://huggingface.co/4bit/whisper-large-v2-ggml

large-v2模型经过多次正则化训练,与之前的large模型相比,性能有所提高,结构与原来的大模型相同,当' load_model("large") '被调用时,"large-v2"模型将被加载。whisper desktop下载后无需安装,直接解压运行。可以选择GPU(实际只支持Nvidia GPU)。

同时,模型可以自主加载,如果没有GPU,建议使用Medium,而非本文采用的Large。

之后,在确定抓取转录的音视频文件后,确定目标语言、输出格式、输出路径的基础上即可开始进行转录抓取。如果翻译后的输出结果为繁体中文,可使用Microsoft word转换下(繁转简)。Whisper 使用--language来指定语言,但无论是简体中文还是繁体中文,对应的代码都是zh。很多情况下,使用Whisper 生成字幕文件,设置参数--language zh,会生成繁体中文的字幕文件,需要使用<--initial_prompt "以下是普通话的句子。">作为初始化prompt以确保转译输出简体中文。

5.写在最后

Whisper应用众多,常用的UI友好的Desktop应用由于无法指定初始化prompt以及调整其他参数,在一些特定语言的识别、分析方面还存在瑕疵,比如日韩语,可能会出现“幻听”现象。所以,建议使用colab或者尝试本地部署,这样可以进行精确调整。Colab在线计算转录抓取的方式,普通用户由于缺乏付费API Key,可能无法实现“一步到位”,还需要本地翻译一下,而且翻译质量上大概率不如ChatGPT,所以Azure OpenAI API还是值得试着申请一下的。由于Azure在很多收费政策上的不确定,在尝试申请Azure OpenAI API需要注意,最好不要有其他多余操作。

本作品采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 进行许可
标签: aigc colab 生成式AI
最后更新:2024年6月2日

老E

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复

站内搜索
归档
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2024 年 1 月
  • 2023 年 12 月
  • 2023 年 11 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 6 月

Copyright ©2023-2025 Appscross. All Rights Reserved.