挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #游戏模组 #语音交互


🏵 Mantella - NPC自然语音交互模组

🍥 简介:
Mantella 是一款专为《上古卷轴5:天际》和《辐射4》设计的游戏模组。该模组集成了语音转文本(如 Moonshine、Whisper)、大型语言模型及文本转语音技术(如 Piper、xVASynth、XTTS),旨在使玩家能够与非玩家角色(NPC)进行自然语言交互。通过此技术栈,Mantella 实现了从玩家语音输入到NPC响应语音输出的完整对话流程,提升了游戏内角色互动的真实性和效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #语音交互 #虚拟角色


🏵 PersonaPlex - 实时语音控制虚拟角色

🍥 简介:
PersonaPlex是一个实时全双工语音转语音对话模型,旨在通过文本提示和语音命令对虚拟角色进行控制。该模型基于Moshi的架构和权重构建,并结合合成对话与真实对话进行训练。它提供低延迟的自然语音交互能力,同时确保虚拟角色的个性特征保持一致。此系统支持用户以自然语言与角色进行实时互动,适用于需要高度响应和个性化交互的应用场景。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #LLM工具 #AI应用 #语言模型

🏵 LLM Council - LLM协同问答

🍥 简介:
LLM Council是一个本地Web应用,通过OpenRouter协调多个大型语言模型。用户请求发送至不同模型,模型间相互评估并排序输出结果,最终由一个“主席”模型汇总并生成最终答案,旨在提升问答质量。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿
🍭 #多模态AI #语音理解


🏵 Step-Audio 2 - 端到端音频理解模型

🍥 简介:
Step-Audio 2是一款工业级端到端多模态大语言模型,专注于音频理解和语音对话。支持高精度ASR语音识别、副语言信息和非语音信息的语义推理。具备情感识别能力,可分析用户年龄、情绪等特征实现智能交互。集成工具调用和多模态RAG技术,通过检索文本和音频知识减少幻觉输出,并支持音色切换。在多项音频理解和对话基准测试中达到业界领先水平,提供mini、mini Base和mini Think三个开源版本,采用Apache 2.0许可协议。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #语音合成 #人工智能


🏵 VibeVoice - 长对话语音生成框架

🍥 简介:
VibeVoice是微软推出的前沿开源文本转语音研究框架,专注于生成长篇幅、多说话人的对话式音频。其核心创新在于采用7.5Hz超低帧率的连续语音分词器,通过结合大语言模型的上下文理解能力与扩散模型的声音细节生成技术,实现了长达90分钟、最多4个说话人的高质量语音合成。该框架有效解决了传统TTS系统在扩展性、说话人一致性和自然对话轮换方面的技术挑战,为播客等长音频场景提供了突破性的解决方案。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 SoftWhisper - 音视频转录助手

🍥 简介:
SoftWhisper 基于强大的 Whisper 模型,专为音频和视频内容的高准确率转录设计。用户可灵活选择模型类型、转录语言与任务,并支持自定义转录片段的起止时间及束宽参数优化结果。软件内置友好的图形界面,操作简便,且具备说话人分离功能,适用于多语种环境和多场景应用。无论是会议记录、访谈整理还是内容归档,SoftWhisper 都能高效满足自动转录需求。

🍭 #语音转写 #音视频处理


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 MMaDA - 多模态扩散语言模型

🍥 简介:
MMaDA 是一系列多模态扩散基础模型,旨在文本推理、多模态理解和文本到图像生成等领域实现卓越性能。它采用统一的扩散架构,无需特定模态组件;引入混合长链思维 (CoT) 微调策略,统一跨模态的 CoT 格式;采用统一的基于策略梯度的 RL 算法 UniGRPO,利用多样化的奖励建模,统一推理和生成任务的后训练,确保性能持续提升。已开源 MMaDA-8B-Base 模型。

🍭 #多模态 #扩散模型 #语言模型


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
showcase0.8.gif
20.7 MB
🗣 每日羊毛线报 👈


🏵 Spark-TTS - 高效LLM文本转语音

🍥 简介:
Spark-TTS 是一款基于大型语言模型(LLM)的高效文本转语音(TTS)推理系统。它利用 Qwen2.5 模型,直接从预测的语音代码重建音频,无需额外的声学特征生成模型,简化了流程并提升效率。该项目支持高质量的零样本(Zero-shot)语音克隆,能复制未曾训练过的说话人声音,尤其适用于跨语言和语码转换场景。Spark-TTS 支持中英双语,并允许通过调整参数控制生成语音的特性。

🍭 #文本转语音 #语音合成


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
#chatarena #AI #语言模型


🏵 #程序 | chatarena - 语言游戏训练语言模型

🍥 简介:
ChatArena 是一个Python库,提供了多个多智能体语言游戏环境,用于促进多个大型语言模型(LLMs)之间的通信和协作。它的目标是为 LLMs 提供一个可扩展和可定制的平台,让它们可以在不同的任务和场景中进行交互和学习。


🎈 【进入项目】


🫥 关注频道 🤖 合作/投稿
 
 
Back to Top