挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #数据库工具 #模式迁移


🏵 Pgschema - PostgreSQL声明式模式迁移

🍥 简介:
Pgschema是一款命令行工具,专为PostgreSQL提供Terraform风格的声明式模式迁移功能。用户无需手动编写迁移文件,只需定义期望的数据库模式状态,Pgschema便能自动生成并执行相应的迁移计划。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据处理 #Python框架

🏵 Pathway - Python ETL/流处理框架

🍥 简介:
Pathway是Python框架,用于ETL、流处理、实时分析、LLM管道和RAG。它提供Python API,支持机器学习库集成。代码可在开发与生产环境运行,处理批处理和流式数据。同一代码适用于本地开发、CI/CD、批处理作业与数据流处理。

🎈 【进入项目】

🗣 活动线报 | 掘金项目
🍭 #浏览器工具 #数据生成


🏵 BrowserForge - 浏览器指纹/请求头模拟生成

🍥 简介:
BrowserForge是一款先进的浏览器指纹与HTTP请求头生成工具。它能高效模拟各类浏览器、操作系统及设备的使用频率,从而生成逼真的数字“足迹”。该工具采用贝叶斯生成网络,确保输出数据与实际网络流量模式高度吻合。其运行速度极快,单次生成仅需0.1-0.2毫秒。BrowserForge设计简洁易用,提供广泛的自定义选项,可精细控制浏览器、操作系统、设备、语言及HTTP版本。项目代码基于类型安全原则开发,确保软件的稳定性和健壮性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据分析 #LLM应用


🏵 DeepAnalyze - 首个自主数据分析代理模型

🍥 简介:
DeepAnalyze是首个代理式自主数据分析语言模型,无需人工干预即可执行数据任务。它支持数据准备、分析、建模、可视化及报告生成全流程自动化。该模型能深入分析结构化、半结构化和非结构化等多种数据源,并输出专业分析报告。DeepAnalyze完全开源,用户可自由部署或扩展自定义数据分析助手。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #AI工具 #数据分析 #开源项目


🏵 DeepAnalyze - 自主智能数据分析

🍥 简介:
DeepAnalyze是首个自主数据分析代理模型,能独立完成数据准备、分析、建模、可视化及报告生成等任务。它支持深度分析各类结构化与非结构化数据源,并自动输出专业报告。DeepAnalyze模型、代码、训练数据、演示版均开源,用户可部署或扩展专属分析助手。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库 #Datalog #数据版本


🏵 Datahike - 可靠Datalog数据库,兼容Datomic,类Git语义。

🍥 简介:
Datahike是一款基于Datalog模型的可靠数据库系统。其API兼容Datomic,并集成类似Git的版本管理语义。通过持久化数据结构与结构共享机制,Datahike生成不可变的数据库快照。这些快照作为独立的值,支持在任何环境下进行存储、传输及查询操作,全程无需数据锁定或冗余复制,确保数据一致性与访问效率。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #商业智能 #LLM应用 #数据分析 #开源项目


🏵 OpenChatBI - 基于大模型的数据智能分析

🍥 简介:
OpenChatBI 是一款基于大型语言模型的开源智能商业智能工具。它旨在通过自然语言交互,使用户能够高效地查询、分析和可视化数据。该项目基于LangGraph和LangChain生态系统构建,提供集成式聊天机器人和工作流功能,可实现自然语言到SQL的转换,显著简化了复杂的数据分析流程,提升了数据洞察的效率和可访问性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据处理 #AI模型训练


🏵 NeMo Curator - 多模态数据高效清洗

🍥 简介:
NeMo Curator 是 NVIDIA 推出的多模态数据预处理和整理工具,专为大模型(LLM)训练数据优化设计。它利用 GPU 加速,支持文本、图片、视频和音频等多种数据类型的去重、质量过滤、分类、语言检测、嵌入生成等任务,能从单机扩展到多节点集群。内置模块化流水线,适配主流数据源和格式,提升数据质量与处理效率,为大规模 AI 和多模态模型训练提供高效可靠的数据支撑。适用于科研、企业和自动化AI数据管道场景。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库开发 #ORM框架


🏵 Ormin - Nim语言轻量ORM

🍥 简介:
Ormin 是专为 Nim 语言设计的轻量级 ORM 框架,支持编译期 SQL 校验、自动生成预编译语句,并提供简洁的 Nim 风格查询 DSL。其核心特性包括类型安全、表结构与字段名校验、自动生成表关联 Join、直接支持 JSON 数据,无需显式转换。Ormin 通过宏自动将 SQL 表结构导入为 Nim 类型,支持 SQLite 和 PostgreSQL 后端,并能在编译期输出生成的 SQL,方便调试。适用于需要高性能、安全性和强类型数据库操作的 Nim 项目。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库运维 #自动化升级


🏵 pgautoupgrade - PostgreSQL自动升级工具

🍥 简介:
pgautoupgrade 是一款用于 PostgreSQL 数据库自动升级的 Docker 镜像工具,能够自动检测现有数据目录的版本并执行无缝升级,支持多版本切换和高效数据迁移。升级完成后自动启动新版本数据库,并清理旧集群数据。该工具极大简化了官方镜像无法线上升级的问题,支持一键“one shot”模式及常见数据库环境,适用于开发和生产环境下的自动化数据库升级与维护,显著提升升级安全性和效率。注意升级前请做好数据备份。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #家谱管理 #数据库工具


🏵 GEDKeeper - 个人家谱数据库管理

🍥 简介:
GEDKeeper 是一款专注于个人家谱数据库管理的软件,支持 GEDCOM 5.5.1 标准,适用于 Windows、Linux、MacOS 及安卓平台。软件界面简洁直观,功能涵盖家谱数据录入、家族树自动生成、多种形式的家谱展示与打印、地理信息集成(支持 Google 地图和 OpenStreetMap)、快速检索与筛选、多媒体资料添加等。支持插件和 Lua 脚本扩展,满足不同用户的个性化需求,非常适合有家谱整理、族谱制作需求的个人及家庭长期使用。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据可视化 #机器学习工具


🏵 Embedding Atlas - 大规模嵌入可视化

🍥 简介:
Embedding Atlas 是一款面向大规模嵌入数据的交互式可视化工具,支持对数百万级别的向量进行聚类、标签自动生成、密度分析和实时搜索。用户可以通过直观的界面探索数据结构,快速定位相似样本及异常点。工具采用 WebGPU 技术,保证高效渲染表现,同时支持多视图联动和元数据筛选。Embedding Atlas 可作为命令行工具、Jupyter Widget 或前端组件集成到 Python、React、Svelte 等开发环境,极大提升嵌入类数据的分析效率和可操作性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 Hugging Face AI Sheets - 无代码AI数据处理平台

🍥 简介:
Hugging Face AI Sheets 是一款开源的数据集构建与增强工具,支持通过无代码方式调用多种AI模型,实现数据的生成、处理和转换。用户可直接在网页端操作,或本地/云端部署,灵活对接 Hugging Face Hub 上的数千开源模型,亦支持自定义和本地大模型接入。系统支持简单拖拽、批量推理及自动化脚本扩展,方便快速构建高质量AI数据集,适用于数据标注、NLP、机器学习等多种场景,大幅提升数据工程效率。

🍭 #AI无代码 #数据处理


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Reasoning Gym - 推理数据集生成

🍥 简介:
Reasoning Gym 是一个用于生成可程序化验证推理任务数据集的Python库,专为训练和评估推理模型设计,支持强化学习等主流AI训练方式。该项目内置100多种任务类型,涵盖代数、算术、逻辑、图论、认知、计算等多个领域,并能根据参数灵活调整任务难度,实现近乎无限的训练样本生成。提供标准化接口和自动评分机制,便于模型训练和性能对比,适合学术研究及AI模型开发者使用。

🍭 #数据集生成 #推理训练


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Apache Hamilton - 数据流DAG自动化

🍥 简介:
Apache Hamilton 是一款轻量级 Python 库,专注于数据转换有向无环图(DAG)的定义与管理。用户只需用常规 Python 函数声明依赖关系,即可快速构建可移植、可扩展的数据流管道,适用于 ETL、机器学习、LLM 应用与BI分析等场景。它支持自动化DAG生成、可视化追踪、元数据管理和数据校验,提升代码可读性、可测试性和团队协作效率。Hamilton 完全独立于底层运行环境,可无缝集成至本地、Airflow、FastAPI等多种平台。

🍭 #数据工程 #DAG


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Running Page - 个性化跑步数据展示

🍥 简介:
本项目能为你打造一个专属的个人跑步数据展示主页。它通过 GitHub Actions 自动同步来自 Strava、Nike、Garmin 等多种运动应用的数据,并利用 Mapbox 将跑步记录可视化为交互式地图和 SVG 海报。支持便捷部署至 Vercel 或 GitHub Pages,同时自动备份 GPX 运动轨迹数据。项目基于 React 和 Gatsby 构建,生成快速、安全的静态网站,助你轻松管理与分享跑步成就。

🍭 #跑步 #数据可视化


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top