挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #数据处理 #格式转换


🏵 Edit Banana - 统计格式转换框架

🍥 简介:
Edit Banana 是一款专为统计数据格式转换设计的框架。它提供了一套工具和接口,能够高效地将各种统计数据格式解析并转化为可编辑的结构,便于用户进行后续的数据处理、分析与操作。该框架旨在简化数据格式转换的复杂性,提升数据处理的灵活性和效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据处理 #Python框架

🏵 Pathway - Python ETL/流处理框架

🍥 简介:
Pathway是Python框架,用于ETL、流处理、实时分析、LLM管道和RAG。它提供Python API,支持机器学习库集成。代码可在开发与生产环境运行,处理批处理和流式数据。同一代码适用于本地开发、CI/CD、批处理作业与数据流处理。

🎈 【进入项目】

🗣 活动线报 | 掘金项目
🍭 #数据工具 #Python库


🏵 Pandas-datareader - 从网络源提取数据

🍥 简介:
Pandas-datareader 是一个 Python 库,用于从各种互联网数据源提取数据。该工具能够将获取的数据直接加载到 pandas DataFrame 结构中,旨在简化数据采集和预处理流程。它为开发者和数据科学家提供了一个高效、标准化的数据获取方案,便于快速集成外部数据进行分析和应用,提升工作效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #词典工具 #语言资源 #数据集合


🏵 Russian-swears - 俄语脏话词典

🍥 简介:
Russian-swears 是一个专注于俄语脏话的词典项目。该资源结构化地收录了俄语基础脏话词汇、常用前缀、衍生词、固定短语及日常表达。项目还包含实用的参考链接和编辑说明,为研究或分析俄语口语文化提供了一个详细的数据集合。它旨在提供一个全面的俄语俚语和不雅词汇数据库,便于语言学研究、文本分析或其他相关应用。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据处理 #数据清洗


🏵 OpenRefine - 数据清洗与整合

🍥 简介:
OpenRefine是一款基于Java的强大数据处理工具。它允许用户在本地计算机的网页浏览器中执行数据加载、分析、清洗、规范化和网络数据扩充等操作。该工具旨在提供一个安全、私密的环境,高效管理和优化数据集。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据安全 #文件加密 #数据分离


🏵 BASTION - 加密数据分离存储

🍥 简介:
BASTION是一个软件系统,实现了“Monolith-4096”算法。它有别于传统工具,能将数据对象拆分为独立的数据容器和加密密钥两部分。此设计确保了在缺少任一组件时,文件分析无法进行,从而提高数据安全性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据处理 #开源项目 #智能代理 #数据分析工具


🏵 Datus - 数据处理智能代理

🍥 简介:
Datus是一款开源数据处理智能代理,旨在为数据系统构建可扩展的上下文。其核心理念是将数据处理范式从传统的“创建数据表和管道”转变为“为分析师和业务用户提供专门的智能代理”,以提升数据管理与利用的效率及灵活性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据分析 #LLM应用


🏵 DeepAnalyze - 首个自主数据分析代理模型

🍥 简介:
DeepAnalyze是首个代理式自主数据分析语言模型,无需人工干预即可执行数据任务。它支持数据准备、分析、建模、可视化及报告生成全流程自动化。该模型能深入分析结构化、半结构化和非结构化等多种数据源,并输出专业分析报告。DeepAnalyze完全开源,用户可自由部署或扩展自定义数据分析助手。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #AI工具 #数据分析 #开源项目


🏵 DeepAnalyze - 自主智能数据分析

🍥 简介:
DeepAnalyze是首个自主数据分析代理模型,能独立完成数据准备、分析、建模、可视化及报告生成等任务。它支持深度分析各类结构化与非结构化数据源,并自动输出专业报告。DeepAnalyze模型、代码、训练数据、演示版均开源,用户可部署或扩展专属分析助手。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #商业智能 #LLM应用 #数据分析 #开源项目


🏵 OpenChatBI - 基于大模型的数据智能分析

🍥 简介:
OpenChatBI 是一款基于大型语言模型的开源智能商业智能工具。它旨在通过自然语言交互,使用户能够高效地查询、分析和可视化数据。该项目基于LangGraph和LangChain生态系统构建,提供集成式聊天机器人和工作流功能,可实现自然语言到SQL的转换,显著简化了复杂的数据分析流程,提升了数据洞察的效率和可访问性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据平台 #数据分析


🏵 BemiDB - 开源数据平台替代

🍥 简介:
BemiDB是一款开源数据平台,旨在替代Snowflake和Fivetran。它支持连接多种数据源,能将数据以压缩列式格式同步至S3。内置的分析查询引擎兼容Postgres,可高效执行复杂查询任务。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #图像处理 #数据分析


🏵 Fastdup - 图像视频数据分析

🍥 简介:
Fastdup是一款高效的开源工具,专为图像与视频数据集设计。它能快速识别并优化数据集中的图像与标注问题,提升数据质量。通过减少冗余处理,有效降低数据处理成本,并展现出卓越的扩展性,适用于大规模数据分析。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据可视化 #多模态数据


🏵 Rerun - 多模态数据记录与可视化SDK

🍥 简介:
Rerun是一款专为机器人、空间AI、计算机视觉等领域设计的多模态数据栈开源工具。提供C++、Python和Rust SDK,支持记录图像、张量、点云、文本等多种数据类型,通过Rerun Viewer实时可视化或保存至文件。内置时间轴功能可回溯分析历史数据,帮助开发者理解复杂系统中传感器数据随时间的演变过程。提供数据查询API便于提取训练数据集。适用于机器人调试、仿真分析、工业检测等场景,无需注册即可快速上手,显著提升多模态数据的理解和调试效率。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #网页应用 #数据可视化


🏵 Voilà - Jupyter笔记本网页化工具

🍥 简介:
Voilà 是一个开源工具,能将 Jupyter 笔记本快速转换为独立的交互式网页应用。它通过为每个访问用户分配独立的 Jupyter 内核,支持实时响应网页控件交互并执行回调计算,同时默认隐藏代码单元格以保障安全性。该工具有效解决了传统静态HTML导出无法保持动态交互的问题,让数据分析结果能以更友好、安全的方式直接部署为原型系统或演示界面,大幅降低从分析到产品化的技术门槛。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数值计算 #性能优化


🏵 NumExpr - 数组表达式高效计算

🍥 简介:
NumExpr 是一款专为 Python 生态(如 NumPy、Pandas)设计的高性能数值表达式计算库。它通过对数组表达式进行分块运算和多线程并行处理,大幅提升了大规模数组计算的速度和内存利用率。NumExpr 不仅能有效减少中间结果的内存分配,还能充分利用多核 CPU 资源,实现比传统 NumPy 更高的计算效率。适合处理超大矩阵或需要高效数学运算的场景,广泛应用于数据分析和科学计算领域。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据可视化 #机器学习工具


🏵 Embedding Atlas - 大规模嵌入可视化

🍥 简介:
Embedding Atlas 是一款面向大规模嵌入数据的交互式可视化工具,支持对数百万级别的向量进行聚类、标签自动生成、密度分析和实时搜索。用户可以通过直观的界面探索数据结构,快速定位相似样本及异常点。工具采用 WebGPU 技术,保证高效渲染表现,同时支持多视图联动和元数据筛选。Embedding Atlas 可作为命令行工具、Jupyter Widget 或前端组件集成到 Python、React、Svelte 等开发环境,极大提升嵌入类数据的分析效率和可操作性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库 #AI助手集成


🏵 MCP ClickHouse Server - ClickHouse集成服务

🍥 简介:
MCP ClickHouse Server 是专为 ClickHouse 数据库打造的中间件服务,支持与各类 AI 助手进行集成。它提供 SQL 查询、数据库和数据表管理等核心功能,确保所有操作只读,保障数据安全。通过内置健康检查接口,实时监控服务状态。支持直接从文件、URL 或数据库等多种数据源查询,无需复杂的ETL流程,极大简化数据分析和应用集成流程。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 Apache Hamilton - 数据流DAG自动化

🍥 简介:
Apache Hamilton 是一款轻量级 Python 库,专注于数据转换有向无环图(DAG)的定义与管理。用户只需用常规 Python 函数声明依赖关系,即可快速构建可移植、可扩展的数据流管道,适用于 ETL、机器学习、LLM 应用与BI分析等场景。它支持自动化DAG生成、可视化追踪、元数据管理和数据校验,提升代码可读性、可测试性和团队协作效率。Hamilton 完全独立于底层运行环境,可无缝集成至本地、Airflow、FastAPI等多种平台。

🍭 #数据工程 #DAG


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Buckaroo - Notebook数据表格UI

🍥 简介:
Buckaroo 是一款现代化的 Jupyter 数据表格工具,旨在加速常见的数据探索性分析任务。它提供了一个高性能、可排序、无限滚动的数据表格,并支持值格式化。除了核心表格功能外,Buckaroo 还集成了摘要统计、直方图、智能抽样、自动清理和低代码 UI 等额外特性。它与 Pandas、Polars、Jupyter 和 VSCode Notebooks 兼容,提供便捷的数据分析体验。

🍭 #数据分析 #Jupyter #数据表格


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Minimalytics - 轻量级分析工具

🍥 简介:
Minimalytics 是一款基于 SQLite 的极简独立分析工具,专为资源受限环境设计。它提供轻量级的事件跟踪和数据可视化功能,存储占用极小(约 20 MB),却能支持每月超过 10 亿次事件的处理。Minimalytics 通过事件聚合和 SQLite 存储优化空间使用,并内置 Web UI 用于管理仪表盘和交互式图表。其 CLI 工具启动服务器,提供事件提交 API 和 Web UI 服务,适用于需要高效、低成本分析解决方案的场景,如内部服务监控或小型项目。

🍭 #数据分析 #轻量级工具


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top