🏵 Byte Latent Transformer - 字节级LLM架构
🍥 简介:
Byte Latent Transformer(BLT)是一种创新的字节级大模型架构,无需分词即可端到端处理原始字节流,极大提升了推理效率和健壮性。它通过动态分割字节为可变长度的“Patch”片段,实现按需分配算力,适应不同数据复杂度。BLT引入了新的注意力机制,增强了字节与Patch间的信息流动,并包含专用的字节序列记忆。官方代码支持大规模模型训练和推理,可直接加载权重并生成文本,适合探索高效、灵活的LLM新范式和大规模预训练研究。
🎈 【进入项目】
🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈
🏵 Plandex - 面向大型项目的AI编程代理
🍥 简介:
Plandex 是一款专为大型项目和复杂实际任务设计的终端 AI 编程代理。它能够规划并执行跨越多个文件、包含多个步骤的编码任务,支持高达 2M Token 的直接上下文处理,并能通过 tree-sitter 索引管理超大规模代码库。其核心特性包括智能上下文管理、用于安全审查 AI 修改的累积差异沙箱,以及可控的命令执行与调试回滚机制。Plandex 支持整合 Anthropic、OpenAI 等多种模型,提供从完全自主到精细控制的可配置工作流,旨在高效、可靠地辅助开发者完成复杂编码工作。
🍭 #AI编程 #大型项目
🎈 【进入项目】
🎯 关注频道 🤖 合作/投稿
🏵 Plandex - 面向大型项目的AI编程代理
🍥 简介:
Plandex 是一款专为大型项目和复杂实际任务设计的终端 AI 编程代理。它能够规划并执行跨越多个文件、包含多个步骤的编码任务,支持高达 2M Token 的直接上下文处理,并能通过 tree-sitter 索引管理超大规模代码库。其核心特性包括智能上下文管理、用于安全审查 AI 修改的累积差异沙箱,以及可控的命令执行与调试回滚机制。Plandex 支持整合 Anthropic、OpenAI 等多种模型,提供从完全自主到精细控制的可配置工作流,旨在高效、可靠地辅助开发者完成复杂编码工作。
🍭 #AI编程 #大型项目
🎈 【进入项目】
🎯 关注频道 🤖 合作/投稿
🏵 Skywork-OR1 - 增强数学与代码推理
🍥 简介:
Skywork-OR1 (Open Reasoner 1) 是一个专注于提升大型语言模型在数学和代码领域推理能力的项目。其核心技术是采用基于规则的大规模强化学习(RL),并结合精心设计的数据集与训练流程。该项目发布了一系列模型,包括专精数学的 Skywork-OR1-Math-7B,以及通用推理预览版 Skywork-OR1-7B/32B-Preview。这些模型在数学(如 AIME 基准测试)和代码(如 LiveCodeBench)推理任务上展现出领先性能,部分模型甚至能媲美参数量远超自身的模型。项目已开源模型权重、RL 训练数据及相关代码。
🍭 #大语言模型 #强化学习
🎈 【进入项目】
🎯 关注频道 🤖 合作/投稿