挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #数据分析 #LLM应用


🏵 DeepAnalyze - 首个自主数据分析代理模型

🍥 简介:
DeepAnalyze是首个代理式自主数据分析语言模型,无需人工干预即可执行数据任务。它支持数据准备、分析、建模、可视化及报告生成全流程自动化。该模型能深入分析结构化、半结构化和非结构化等多种数据源,并输出专业分析报告。DeepAnalyze完全开源,用户可自由部署或扩展自定义数据分析助手。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #AI工具 #数据分析 #开源项目


🏵 DeepAnalyze - 自主智能数据分析

🍥 简介:
DeepAnalyze是首个自主数据分析代理模型,能独立完成数据准备、分析、建模、可视化及报告生成等任务。它支持深度分析各类结构化与非结构化数据源,并自动输出专业报告。DeepAnalyze模型、代码、训练数据、演示版均开源,用户可部署或扩展专属分析助手。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库工具 #开源项目 #可视化工具

🏵 Ivory - Postgres集群可视化管理

🍥 简介:
Ivory是一款开源软件,专注于简化并可视化Postgres集群的管理与操作。它为Postgres维护人员提供了直观的工具集,以提升数据库集群的运维效率和开发体验。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿
🍭 #商业智能 #LLM应用 #数据分析 #开源项目


🏵 OpenChatBI - 基于大模型的数据智能分析

🍥 简介:
OpenChatBI 是一款基于大型语言模型的开源智能商业智能工具。它旨在通过自然语言交互,使用户能够高效地查询、分析和可视化数据。该项目基于LangGraph和LangChain生态系统构建,提供集成式聊天机器人和工作流功能,可实现自然语言到SQL的转换,显著简化了复杂的数据分析流程,提升了数据洞察的效率和可访问性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #工作流自动化 #数据编排 #任务调度


🏵 Apache Airflow - 工作流编排与监控

🍥 简介:
Apache Airflow 是一款用于以编程方式创建、调度和监控数据工作流的平台。通过将工作流表示为代码,Airflow 显著提升了其可维护性、可更新性、可测试性及协作效率。用户可构建有向无环图(DAG)来定义任务流。Airflow 调度器负责在多个工作节点上依据指定依赖关系执行这些任务。平台提供强大的命令行工具,支持复杂的 DAG 操作,同时配备直观的用户界面,用于可视化生产管线、追踪执行进度并进行故障诊断。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据可视化 #多模态数据


🏵 Rerun - 多模态数据记录与可视化SDK

🍥 简介:
Rerun是一款专为机器人、空间AI、计算机视觉等领域设计的多模态数据栈开源工具。提供C++、Python和Rust SDK,支持记录图像、张量、点云、文本等多种数据类型,通过Rerun Viewer实时可视化或保存至文件。内置时间轴功能可回溯分析历史数据,帮助开发者理解复杂系统中传感器数据随时间的演变过程。提供数据查询API便于提取训练数据集。适用于机器人调试、仿真分析、工业检测等场景,无需注册即可快速上手,显著提升多模态数据的理解和调试效率。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #网页应用 #数据可视化


🏵 Voilà - Jupyter笔记本网页化工具

🍥 简介:
Voilà 是一个开源工具,能将 Jupyter 笔记本快速转换为独立的交互式网页应用。它通过为每个访问用户分配独立的 Jupyter 内核,支持实时响应网页控件交互并执行回调计算,同时默认隐藏代码单元格以保障安全性。该工具有效解决了传统静态HTML导出无法保持动态交互的问题,让数据分析结果能以更友好、安全的方式直接部署为原型系统或演示界面,大幅降低从分析到产品化的技术门槛。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据处理 #AI模型训练


🏵 NeMo Curator - 多模态数据高效清洗

🍥 简介:
NeMo Curator 是 NVIDIA 推出的多模态数据预处理和整理工具,专为大模型(LLM)训练数据优化设计。它利用 GPU 加速,支持文本、图片、视频和音频等多种数据类型的去重、质量过滤、分类、语言检测、嵌入生成等任务,能从单机扩展到多节点集群。内置模块化流水线,适配主流数据源和格式,提升数据质量与处理效率,为大规模 AI 和多模态模型训练提供高效可靠的数据支撑。适用于科研、企业和自动化AI数据管道场景。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据可视化 #机器学习工具


🏵 Embedding Atlas - 大规模嵌入可视化

🍥 简介:
Embedding Atlas 是一款面向大规模嵌入数据的交互式可视化工具,支持对数百万级别的向量进行聚类、标签自动生成、密度分析和实时搜索。用户可以通过直观的界面探索数据结构,快速定位相似样本及异常点。工具采用 WebGPU 技术,保证高效渲染表现,同时支持多视图联动和元数据筛选。Embedding Atlas 可作为命令行工具、Jupyter Widget 或前端组件集成到 Python、React、Svelte 等开发环境,极大提升嵌入类数据的分析效率和可操作性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 Apache Hamilton - 数据流DAG自动化

🍥 简介:
Apache Hamilton 是一款轻量级 Python 库,专注于数据转换有向无环图(DAG)的定义与管理。用户只需用常规 Python 函数声明依赖关系,即可快速构建可移植、可扩展的数据流管道,适用于 ETL、机器学习、LLM 应用与BI分析等场景。它支持自动化DAG生成、可视化追踪、元数据管理和数据校验,提升代码可读性、可测试性和团队协作效率。Hamilton 完全独立于底层运行环境,可无缝集成至本地、Airflow、FastAPI等多种平台。

🍭 #数据工程 #DAG


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Running Page - 个性化跑步数据展示

🍥 简介:
本项目能为你打造一个专属的个人跑步数据展示主页。它通过 GitHub Actions 自动同步来自 Strava、Nike、Garmin 等多种运动应用的数据,并利用 Mapbox 将跑步记录可视化为交互式地图和 SVG 海报。支持便捷部署至 Vercel 或 GitHub Pages,同时自动备份 GPX 运动轨迹数据。项目基于 React 和 Gatsby 构建,生成快速、安全的静态网站,助你轻松管理与分享跑步成就。

🍭 #跑步 #数据可视化


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Maxun - 开源无代码网页数据提取

🍥 简介:
Maxun 是一个开源的无代码Web数据提取平台。用户无需编写代码,通过可视化界面训练“机器人”,即可在几分钟内自动抓取网页数据。它能将目标网站转换为API接口或电子表格格式,有效处理分页、滚动加载、登录墙等场景。支持设定计划任务定时执行抓取,并具备适应网站布局变化的能力。提供云托管版本简化部署,也支持本地安装及自带代理(BYOP)配置。

🍭 #数据抓取 #无代码


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Minimalytics - 轻量级分析工具

🍥 简介:
Minimalytics 是一款基于 SQLite 的极简独立分析工具,专为资源受限环境设计。它提供轻量级的事件跟踪和数据可视化功能,存储占用极小(约 20 MB),却能支持每月超过 10 亿次事件的处理。Minimalytics 通过事件聚合和 SQLite 存储优化空间使用,并内置 Web UI 用于管理仪表盘和交互式图表。其 CLI 工具启动服务器,提供事件提交 API 和 Web UI 服务,适用于需要高效、低成本分析解决方案的场景,如内部服务监控或小型项目。

🍭 #数据分析 #轻量级工具


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top