老E的博客

  • 首页
  • 关于
  • 技术应用
    • VPS相关
    • AI相关
    • 盒子相关
    • 其他
  • 订阅Youtube频道
  • 有用的资源
    • 工具下载
    • Docker加速
    • AI应用导航
    • 红杏出墙
    • 乌龟加速
  • 网络加速
    • expressvpnNo.1 ExpressVPN
    • 最佳免费VPN-PrivadoVPN
    • NordVPN
    • 廉价王者-Surfshark
    • PrivateInternetAccess
    • 解锁一切-PrivateVPN
老E的博客
专注记录并分享跨境技术应用及随想
  1. 首页
  2. 技术应用
  3. AI相关
  4. 正文

在Kaggle上部署TTS进行推理合成

2025年12月13日 314次阅读 0条评论
clawcloud
expressvpn best vpn
privado vpn
surfshark vpn
private vpn
pia vpn
nord vpn

Kaggle 是全球知名的数据科学社区,为学习者和从业者提供竞赛、数据集与代码分享平台,借助 AI 挑战引导创新,实现知识与经验的快速提升。Kaggle 被很多人了解往往源于”某某高中生自学 AI 赢得百万美元大奖“,但 kaggle 除了竞赛,更有 datasets、kernels、learn 等法宝和非常友好的免费用户每周 30 小时算力配额。不同于 google colab,kaggle 提供了双卡 T4 或单卡 P100,面向中轻度用户,在充分利用 kaggle 的算力资源的前提下,几乎不需要购买 LLM 之外的 AI 平台服务。本文将延续使用 Index TTS 2.0,将其部署在 kaggle 平台进行推理。

Kaggle 平台及免费配额的获取

Kaggle 是由联合创始人、首席执行官安东尼·高德布卢姆(Anthony Goldbloom)2010年创立的,主要为开发商和数据科学家提供举办机器学习竞赛、托管数据库、编写和分享代码的平台。

kaggle
Kaggle Hub 作为集成层于 2025 年 12 月推出,支持在 Colab 等 Python 环境中使用,通过身份验证后可直接定位数据集路径。用户可通过数据探索器在 Colab 中直接访问 Kaggle 的数据集、模型和竞赛资源,简化了数据获取流程。该功能通过左侧工具栏提供搜索和过滤功能,并自动生成代码片段供用户调用资源。

早期的 Kaggle 面向所有免费用户提供算力配额,无需任何验证。当前,打算使用免费的 Kaggle 配额,需提前准备好以下环境:

  • 科学上网环境。Kaggle 国内可以直连,但注册账户是进行的人机验证需要科学上网环境,远程加载 Google Colab 笔记本以及Kaggle Hub 也需要,这里推荐「乌龟加速」,使用折扣码 wgjsq 更有「六折」可享

🎉乌龟加速盛大开业啦!🎉🎉海外专线、极速稳定、任性飞奔!别看我们叫乌龟🐢,实际跑得比兔子还快💨!活动时间:2025/12/6—2026/1/6 23:59,一整个月狂欢🔥!全场套餐限时六折优惠🎁,结算输入优惠码 (乌龟加速) 即享折扣,真·开业大放送!

🎁 开业抽奖 · 100%中奖!奖池如下👇
🥇188元现金红包 ×3
🥈88元现金红包 ×5
🥉38元现金红包 ×5
🎯站内200G流量券 ×10
🎯 站内100G流量券 ×20
📌流量券通用于包时/限量套餐,回血神器!
开奖时间:2026/1/7,中奖后3天内联系客服 @wuguijiasubot 领取奖励(逾期作废⚠️)
参与门槛超低:账号内拥有任意套餐即可参与领奖🎉

  • 海外电话号码,Kaggle 需进行电话验证后方可提供配额,并且不接受 +86 中国号码,可以使用「Hushed」任一套餐或购买一次性「SMSActive」号码

phone-verrify

导入笔记本文件

有很多种方式可以上传笔记本文件。这里采用点击左侧导航栏顶端的『Create』,在菜单中选择『Import Notebook』,打开导入笔记本文件对话框。

import-nb

在打开的导入面板中,不妨先点击右下角的『Advanced Settings』看一下导入设置。

import notebook

这里可以看到版本类型、加速器使用等配置选项,可以根据自己的需求进行适当配置。在本例中,我们修改版本类型为『Quick Save』。需要注意的是,在通常的训练任务中(如人像 lora),应保持默认的『Save & Run All(Commit)』。

settings

将作者提供的「笔记本文件」导入/上传,kaggle 完成处理加载后,会自动跳转至『code』页面,并显示 index_tts2_on_kaggle.ipynb 的内容。

notebook file

编辑、配置运行时环境

在上述代码显示界面,点击右上方的『Edit』,进入 kaggle jupyter 编辑器。在这里,我们可以上传文件(如待合成的内容/文本文件、音色文件等),配置使用的 GPU 、持久化等关键参数。Kaggle jupyter 编辑器包括顶部菜单区域、左侧代码区域和右侧配置区域,所有的配置都可通过右侧栏的选项完成。

upload file/datasets

点击右侧栏上方的『Upload』上传数据集文件。当然,示例上传的数据集文件并不用于训练,而是推理。这里的上传的文件包括音色文件、包含待合成内容的文本文件。因为是以数据集的形式上传文件,因此,必须创建数据集,将上传的文件作为该数据集的一部分。文件对应的路径为"/kaggle/input/数据集名/文件名",例如上传的音色文件路径就是 /kaggle/input/ttsdataset/sample1.wav 。

dataset

Kaggle 提供了 T4x2 或 P100 供选择,对于 Index TTS 的快速推理(infer_fast),P100 会有不错的表现,其他任务建议使用 T4x2。Kaggle 默认不会对变量、文件进行持久化,可以自主灵活配置。Internet 默认启用,这是运行 dradio 以提供 webui 等功能必备的。

GPU

完成上述配置,就可以像在 Google Colab 中一样,点击运行图标运行脚本了。

run all

推理过程

Jupyter 脚本的运行,拉去了示例所用的 Index TTS 仓库,包含推理脚本 index_tts_on_kaggle.py。因此,只需要运行该脚本即可将已上传的文本文件内容转录为语音。

!uv run index_tts_on_kaggle.py --input_file "/kaggle/input/your-dataset-name/your_text.txt" --voice_prompt "/kaggle/input/your-dataset-name/your_voice.wav"
#!uv run index_tts_on_kaggle.py --input_file "/kaggle/input/ttsdataset/tts.txt" --voice_prompt "/kaggle/input/ttsdataset/sample1.wav"

infer

在上述指令中,由于没有指定 --devices 参数,默认 auto 仅仅使用一个 T4 GPU,因此得到的 RTF 和 Google Colab 是一样的,使用 “--devices cuda:0,cuda:1”启用两块 GPU,RTF  会大幅降低至 1.5-2。

infering

Kaggle 的默认工作目录绝对路径是 /kaggle/working/,在不指定 --output_dir 参数的前提下,生成的音频文件将保存在工作目录下,可以直接下载。

output

结语

最后,在使用 kaggle 的过程中很可能会遇到各种各样的问题,例如从 hugging face 下载模型文件出错、多次重新拉取或下载文件导致工作目录空间超限(20GB)等,尤其是从 hugging face 匿名下载,因此建议注册 hf 账号、获取 token,同时,一旦错误,应将缓存彻底清除后重新启动。

Kaggle 的免费配额是每周 30 小时的算力,每周六会自动重置。需要特别注意的一点是,Kaggle 并不会强制抢占你正在使用的 GPU,无论已经运行了多长时间,但是 Kaggle jupyter 会同步计时,也就是说,在不关闭 Kaggle jupyter 运行时编辑器,实时观察运行结果和输出的情况下,算力额度的消耗是双倍的。因此,一般会设置文件持久化存储,启动 Jupyter 脚本运行(Run All)后关闭浏览器页面。尽管 Kaggle 看上去没有 Google Colab “慷概“,但同样的免费额度,kaggle 的生产可用性高于 Google colab,至少在额度内,你不需要担忧正在使用的 GPU 被抢占(剥夺)。每周 30h,每个月 120h,通过阶段性输出文件和变量的持久化,合理安排和计划,是可以进行不少训练工作的,尤其是文生图领域的各种 lora 等。

本文仅仅演示了使用 Kaggle 提供的 GPU 算力额度进行推理,如果涉及训练,不少时候会用到 TPU,Kaggle 的政策是:需要验证身份证(ID)才能获得 TPU 的使用权。

更多精彩,敬请关注「老 E 的博客」!

本作品采用 知识共享署名-非商业性使用-禁止演绎 4.0 国际许可协议 进行许可
标签: ai aigc AI算力 ai编程 GPU加速 IndexTTS kaggle Linux系统运维 tts vpn 机器学习 机场
最后更新:2025年12月15日

老E

这个人很懒,什么都没留下

点赞
< 上一篇
下一篇 >

文章评论

razz evil exclaim smile redface biggrin eek confused idea lol mad twisted rolleyes wink cool arrow neutral cry mrgreen drooling persevering
取消回复
站内搜索
归档
  • 2025 年 12 月
  • 2025 年 9 月
  • 2025 年 7 月
  • 2025 年 6 月
  • 2025 年 5 月
  • 2025 年 4 月
  • 2025 年 3 月
  • 2025 年 2 月
  • 2025 年 1 月
  • 2024 年 12 月
  • 2024 年 11 月
  • 2024 年 10 月
  • 2024 年 9 月
  • 2024 年 8 月
  • 2024 年 7 月
  • 2024 年 6 月
  • 2024 年 5 月
  • 2024 年 4 月
  • 2024 年 3 月
  • 2024 年 2 月
  • 2024 年 1 月
  • 2023 年 12 月
  • 2023 年 11 月
  • 2023 年 10 月
  • 2023 年 9 月
  • 2023 年 8 月
  • 2023 年 7 月
  • 2023 年 6 月

Copyright ©2023-2025 Appscross. All Rights Reserved.