挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #数据提取 #AI工具


🏵 LangExtract - 提取结构化数据

🍥 简介:
LangExtract 是一个免费的 Python 库。它利用 Gemini 等人工智能模型,从报告、书籍等非结构化文本中提取结构化数据,如人名、情感或药物信息。该库旨在简化数据解析过程,提高数据处理效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据层 #状态管理


🏵 LiveStore - 响应式SQLite数据层


🍥 简介:
LiveStore 是一个强大的应用程序数据层,利用响应式 SQLite 数据库管理数据,并实现设备间即时同步,包括离线模式。它取代了 Redux 等传统状态管理工具,支持以响应式方式查询和更新数据,通过事件溯源(event-sourcing)提供实时同步功能。


🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据工具 #Python库


🏵 Pandas-datareader - 从网络源提取数据

🍥 简介:
Pandas-datareader 是一个 Python 库,用于从各种互联网数据源提取数据。该工具能够将获取的数据直接加载到 pandas DataFrame 结构中,旨在简化数据采集和预处理流程。它为开发者和数据科学家提供了一个高效、标准化的数据获取方案,便于快速集成外部数据进行分析和应用,提升工作效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #API工具 #数据抓取


🏵 Scraping-apis-for-devs - API数据采集与开发

🍥 简介:
Scraping-apis-for-devs 提供一系列强大的API接口,专为开发者设计,用于高效的数据抓取与信息采集。该集合旨在简化开发流程,使开发者能够快速集成所需功能,无需从零开始构建。无论是开发简单的自动化工具,还是部署复杂的功能完善型应用程序,这些API都能提供稳定可靠的底层支持,助力各类项目迅速落地。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据分析 #LLM应用


🏵 DeepAnalyze - 首个自主数据分析代理模型

🍥 简介:
DeepAnalyze是首个代理式自主数据分析语言模型,无需人工干预即可执行数据任务。它支持数据准备、分析、建模、可视化及报告生成全流程自动化。该模型能深入分析结构化、半结构化和非结构化等多种数据源,并输出专业分析报告。DeepAnalyze完全开源,用户可自由部署或扩展自定义数据分析助手。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #商业智能 #LLM应用 #数据分析 #开源项目


🏵 OpenChatBI - 基于大模型的数据智能分析

🍥 简介:
OpenChatBI 是一款基于大型语言模型的开源智能商业智能工具。它旨在通过自然语言交互,使用户能够高效地查询、分析和可视化数据。该项目基于LangGraph和LangChain生态系统构建,提供集成式聊天机器人和工作流功能,可实现自然语言到SQL的转换,显著简化了复杂的数据分析流程,提升了数据洞察的效率和可访问性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据提取 #爬虫工具

🏵 CyberScraper 2077 - AI驱动数据提取

🍥 简介:
CyberScraper 2077 是一个基于人工智能的网络数据提取工具。它集成OpenAI、Gemini及LocalLLM模型,旨在智能识别并有效突破网站反爬机制。程序核心功能是实现从复杂网络环境中,精准、高效地自动化提取目标数据。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿
🍭 #系统工具 #数据恢复


🏵 ProxSave - 数据恢复备份工具

🍥 简介:
ProxSave旨在简化关键数据恢复过程。它解决了PVE或PBS服务器在故障或迁移后复杂的恢复问题,该过程通常耗时且需专业技能。ProxSave能够保存并随时恢复完整的系统环境,以最低限度的人工干预,为新安装部署个人数据做好准备。其功能涵盖自动备份、多路径存储、智能归档、备份加密、集成电子邮件或Proxmox通知,并支持Webhook、Gotify及Prometheus。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #工作流自动化 #数据编排 #任务调度


🏵 Apache Airflow - 工作流编排与监控

🍥 简介:
Apache Airflow 是一款用于以编程方式创建、调度和监控数据工作流的平台。通过将工作流表示为代码,Airflow 显著提升了其可维护性、可更新性、可测试性及协作效率。用户可构建有向无环图(DAG)来定义任务流。Airflow 调度器负责在多个工作节点上依据指定依赖关系执行这些任务。平台提供强大的命令行工具,支持复杂的 DAG 操作,同时配备直观的用户界面,用于可视化生产管线、追踪执行进度并进行故障诊断。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据可视化 #多模态数据


🏵 Rerun - 多模态数据记录与可视化SDK

🍥 简介:
Rerun是一款专为机器人、空间AI、计算机视觉等领域设计的多模态数据栈开源工具。提供C++、Python和Rust SDK,支持记录图像、张量、点云、文本等多种数据类型,通过Rerun Viewer实时可视化或保存至文件。内置时间轴功能可回溯分析历史数据,帮助开发者理解复杂系统中传感器数据随时间的演变过程。提供数据查询API便于提取训练数据集。适用于机器人调试、仿真分析、工业检测等场景,无需注册即可快速上手,显著提升多模态数据的理解和调试效率。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库运维 #结构变更工具


🏵 Spirit - MySQL在线结构变更

🍥 简介:
Spirit 是专为 MySQL 8.0 及以上版本开发的在线表结构变更工具,主打高效和安全的数据迁移。它采用多线程方式加速行复制和 binlog 应用,并支持断点续传,大幅提升大表结构变更的速度和容错性。与传统工具相比,Spirit 动态调整数据块大小、内置变更行去重机制,还能智能判断并使用 INSTANT DDL,实现更快的无锁变更。适合需要频繁进行大规模表结构调整的企业级数据库环境。


🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 Hugging Face AI Sheets - 无代码AI数据处理平台

🍥 简介:
Hugging Face AI Sheets 是一款开源的数据集构建与增强工具,支持通过无代码方式调用多种AI模型,实现数据的生成、处理和转换。用户可直接在网页端操作,或本地/云端部署,灵活对接 Hugging Face Hub 上的数千开源模型,亦支持自定义和本地大模型接入。系统支持简单拖拽、批量推理及自动化脚本扩展,方便快速构建高质量AI数据集,适用于数据标注、NLP、机器学习等多种场景,大幅提升数据工程效率。

🍭 #AI无代码 #数据处理


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Apache Hamilton - 数据流DAG自动化

🍥 简介:
Apache Hamilton 是一款轻量级 Python 库,专注于数据转换有向无环图(DAG)的定义与管理。用户只需用常规 Python 函数声明依赖关系,即可快速构建可移植、可扩展的数据流管道,适用于 ETL、机器学习、LLM 应用与BI分析等场景。它支持自动化DAG生成、可视化追踪、元数据管理和数据校验,提升代码可读性、可测试性和团队协作效率。Hamilton 完全独立于底层运行环境,可无缝集成至本地、Airflow、FastAPI等多种平台。

🍭 #数据工程 #DAG


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Apache Hamilton - 定义可移植的数据流

🍥 简介:
Apache Hamilton 是一个轻量级的 Python 库,用于创建数据转换的有向无环图(DAG)。它帮助数据科学家和工程师定义可测试、模块化、自带文档的数据流,并编码数据血缘与元数据。开发者只需编写常规 Python 函数,通过函数参数指定依赖关系,Hamilton 就能自动为您构建 DAG。其代码可移植性强,能在任何支持 Python 的环境中运行。

🍭 #数据转换 #DAG #Python


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top