
ComfyUI-CacheDiT是专为ComfyUI设计的DiT模型一键加速插件,通过智能缓存技术,为Z-Image、Qwen-Image、LTX‑2等主流DiT模型提供1.4–2.0倍推理加速,且几乎不损失图像与视频生成质量。插件零配置、开箱即用,完美解决DiT模型推理慢的痛点,让新手也能轻松获得高效生成体验。

ComfyUI-AceMusic是基于ACE-Step 1.5打造的ComfyUI专业音乐生成自定义节点,专注实现多语种、带歌词、完整歌曲一键生成,支持中文、英文、日文、韩文等19种语言。插件将ACE-Step1.5核心能力完整封装为节点化工作流,兼顾本地部署与生产级音乐创作需求,开箱即用、稳定高效。

Qwen-Image-Edit-Causal V1.0是Light AI针对Qwen-Image-Edit-2511推出的关键优化版本,核心突破在于引入分块因果注意力机制,实现“编辑质量不打折、推理速度大幅提升”的双重优势,既延续了前代模型的精准编辑能力,又解决了图像编辑中“耗时久、效率低”的核心痛点,适配更多实时编辑与批量处理场景。

Kimi Claw是月之暗面推出的云端AI智能体服务,核心是Kimi K2.5大模型与开源AI Agent平台OpenClaw的深度集成方案,堪称当前性价比顶尖的“模型+Agent”组合。它既保留OpenClaw的自动化助手核心能力,又无需用户进行本地部署与维护——在Kimi平台几秒内即可完成部署。

ComfyUI-VideoMaMa通过自定义节点,即可在ComfyUI原生界面中,可视化操控VideoMaMa的全部核心能力。从视频加载、遮罩生成,到抠图推理,全程一键式操作、拖拽式完成;同时集成SAM2模型,实现交互式遮罩生成,哪怕是零基础用户,也能轻松做出专业级视频抠图效果,彻底打破“视频抠图门槛高、操作复杂”的壁垒。

ComfyUI-Youtu-VL插件是专为腾讯40亿参数轻量级视觉语言模型(Youtu-VL)打造的ComfyUI自定义节点插件,适配Youtu-VL模型的全量视觉任务,包括视觉定位、图像分割、深度估计、姿态估计等。

ComfyUI Prompt Helper的核心亮点的是对Qwen3-4B-Z-Image-Engineer模型的深度集成,专为Z-Image、Qwen Image等当前主流图像模型优化提示词结构,核心聚焦正向约束强化、纹理细节补充、电影级相机参数适配,帮用户快速将简单描述转化为高密度、结构化的专业提示词,大幅提升图像生成精度与质感,无缝适配ComfyUI原生工作流。

ComfyUI-Qwen-TTS是基于阿里巴巴Qwen团队开源项目Qwen3-TTS打造的ComfyUI专用自定义节点集,为ComfyUI提供一站式文本转语音、声音克隆、声音风格设计与多角色对话合成能力,支持高质量、低延迟、多语言的端到端语音生成,可直接嵌入图像/视频工作流使用。

ComfyUI AudioSR是专为ComfyUI打造的原生音频超分辨率处理节点,基于先进的潜在扩散模型AudioSR研发,核心能力是将任意低质量音频(低采样率、低码率)上采样至48kHz标准音质,同时精准增强高频细节、修复压缩失真问题,实现音频清晰度、饱满度的显著提升,完美适配ComfyUI音频处理工作流。

ComfyUI-Cinematic-Prompt是ComfyUI专属可视化提示词构建工具,原生适配Midjourney、Stable Diffusion、Nanobanana pro、Flux等主流生成工作流,同时完美支持文生图、图生图两大核心场景,让电影化提示词搭建更直观、更高效。

ComfyUI-RMBG v3.0.0是一款专为ComfyUI打造的专业级自定义节点扩展,插件内置RMBG-2.0、INSPYRENET、BEN/BEN2、BiRefNet、SDMatte、SAM/SAM2、GroundingDINO等多类主流分割模型,新增实时背景替换、增强边缘检测功能。

Minimalistic Comfy Wrapper WebUI(简称MCWW)是一款专为ComfyUI打造的UI扩展工具,核心定位是提供专注于推理场景的极简界面——无需复杂操作,只需修改节点标题,点击刷新即可快速适配你的任意工作流。

CoPaw是阿里云通义实验室重磅推出的个人智能体工作台,平台内置文档处理、新闻阅读、浏览器操作等多种基础能力(Skills),同时支持自定义Skill轻松扩展功能边界,无需修改底层代码。

JoyAI-LLM-Flash是京东在Hugging Face正式开源的最新大语言模型,该模型采用混合专家(MoE)架构,总参数达480亿,而每次推理仅激活30亿参数,既能保持强大的模型能力,又能显著降低计算开销。

KaniTTS2是AI初创公司NineNineSix正式开源的新一代文本转语音(TTS)模型,专为低延迟、高自然度的实时对话场景量身打造。该模型支持语音克隆、多语言输出,同时提供完整的从零预训练代码框架,助力开发者基于自有数据快速训练定制化TTS模型。
