挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #API工具 #数据抓取


🏵 Scraping-apis-for-devs - API数据采集与开发

🍥 简介:
Scraping-apis-for-devs 提供一系列强大的API接口,专为开发者设计,用于高效的数据抓取与信息采集。该集合旨在简化开发流程,使开发者能够快速集成所需功能,无需从零开始构建。无论是开发简单的自动化工具,还是部署复杂的功能完善型应用程序,这些API都能提供稳定可靠的底层支持,助力各类项目迅速落地。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #词典工具 #语言资源 #数据集合


🏵 Russian-swears - 俄语脏话词典

🍥 简介:
Russian-swears 是一个专注于俄语脏话的词典项目。该资源结构化地收录了俄语基础脏话词汇、常用前缀、衍生词、固定短语及日常表达。项目还包含实用的参考链接和编辑说明,为研究或分析俄语口语文化提供了一个详细的数据集合。它旨在提供一个全面的俄语俚语和不雅词汇数据库,便于语言学研究、文本分析或其他相关应用。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据处理 #数据清洗


🏵 OpenRefine - 数据清洗与整合

🍥 简介:
OpenRefine是一款基于Java的强大数据处理工具。它允许用户在本地计算机的网页浏览器中执行数据加载、分析、清洗、规范化和网络数据扩充等操作。该工具旨在提供一个安全、私密的环境,高效管理和优化数据集。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #网页抓取 #自动化 #数据采集


🏵 Scrapling - 自适应网页抓取库

🍥 简介:
Scrapling是一款创新的自适应网页抓取库。不同于传统爬虫,它能智能感知并自动适应目标网站结构的变化。当网站更新导致页面元素布局变动时,Scrapling能自动识别并调整抓取逻辑,确保数据提取任务持续稳定运行,有效避免因网站改版而需频繁维护爬虫代码的问题,提高抓取效率和稳定性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库工具 #开源项目 #可视化工具

🏵 Ivory - Postgres集群可视化管理

🍥 简介:
Ivory是一款开源软件,专注于简化并可视化Postgres集群的管理与操作。它为Postgres维护人员提供了直观的工具集,以提升数据库集群的运维效率和开发体验。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库 #Datalog #数据版本


🏵 Datahike - 可靠Datalog数据库,兼容Datomic,类Git语义。

🍥 简介:
Datahike是一款基于Datalog模型的可靠数据库系统。其API兼容Datomic,并集成类似Git的版本管理语义。通过持久化数据结构与结构共享机制,Datahike生成不可变的数据库快照。这些快照作为独立的值,支持在任何环境下进行存储、传输及查询操作,全程无需数据锁定或冗余复制,确保数据一致性与访问效率。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #商业智能 #LLM应用 #数据分析 #开源项目


🏵 OpenChatBI - 基于大模型的数据智能分析

🍥 简介:
OpenChatBI 是一款基于大型语言模型的开源智能商业智能工具。它旨在通过自然语言交互,使用户能够高效地查询、分析和可视化数据。该项目基于LangGraph和LangChain生态系统构建,提供集成式聊天机器人和工作流功能,可实现自然语言到SQL的转换,显著简化了复杂的数据分析流程,提升了数据洞察的效率和可访问性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据提取 #爬虫工具

🏵 CyberScraper 2077 - AI驱动数据提取

🍥 简介:
CyberScraper 2077 是一个基于人工智能的网络数据提取工具。它集成OpenAI、Gemini及LocalLLM模型,旨在智能识别并有效突破网站反爬机制。程序核心功能是实现从复杂网络环境中,精准、高效地自动化提取目标数据。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿
🍭 #系统工具 #数据恢复


🏵 ProxSave - 数据恢复备份工具

🍥 简介:
ProxSave旨在简化关键数据恢复过程。它解决了PVE或PBS服务器在故障或迁移后复杂的恢复问题,该过程通常耗时且需专业技能。ProxSave能够保存并随时恢复完整的系统环境,以最低限度的人工干预,为新安装部署个人数据做好准备。其功能涵盖自动备份、多路径存储、智能归档、备份加密、集成电子邮件或Proxmox通知,并支持Webhook、Gotify及Prometheus。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #图像处理 #数据分析


🏵 Fastdup - 图像视频数据分析

🍥 简介:
Fastdup是一款高效的开源工具,专为图像与视频数据集设计。它能快速识别并优化数据集中的图像与标注问题,提升数据质量。通过减少冗余处理,有效降低数据处理成本,并展现出卓越的扩展性,适用于大规模数据分析。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据可视化 #多模态数据


🏵 Rerun - 多模态数据记录与可视化SDK

🍥 简介:
Rerun是一款专为机器人、空间AI、计算机视觉等领域设计的多模态数据栈开源工具。提供C++、Python和Rust SDK,支持记录图像、张量、点云、文本等多种数据类型,通过Rerun Viewer实时可视化或保存至文件。内置时间轴功能可回溯分析历史数据,帮助开发者理解复杂系统中传感器数据随时间的演变过程。提供数据查询API便于提取训练数据集。适用于机器人调试、仿真分析、工业检测等场景,无需注册即可快速上手,显著提升多模态数据的理解和调试效率。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据处理 #AI模型训练


🏵 NeMo Curator - 多模态数据高效清洗

🍥 简介:
NeMo Curator 是 NVIDIA 推出的多模态数据预处理和整理工具,专为大模型(LLM)训练数据优化设计。它利用 GPU 加速,支持文本、图片、视频和音频等多种数据类型的去重、质量过滤、分类、语言检测、嵌入生成等任务,能从单机扩展到多节点集群。内置模块化流水线,适配主流数据源和格式,提升数据质量与处理效率,为大规模 AI 和多模态模型训练提供高效可靠的数据支撑。适用于科研、企业和自动化AI数据管道场景。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库运维 #自动化升级


🏵 pgautoupgrade - PostgreSQL自动升级工具

🍥 简介:
pgautoupgrade 是一款用于 PostgreSQL 数据库自动升级的 Docker 镜像工具,能够自动检测现有数据目录的版本并执行无缝升级,支持多版本切换和高效数据迁移。升级完成后自动启动新版本数据库,并清理旧集群数据。该工具极大简化了官方镜像无法线上升级的问题,支持一键“one shot”模式及常见数据库环境,适用于开发和生产环境下的自动化数据库升级与维护,显著提升升级安全性和效率。注意升级前请做好数据备份。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #家谱管理 #数据库工具


🏵 GEDKeeper - 个人家谱数据库管理

🍥 简介:
GEDKeeper 是一款专注于个人家谱数据库管理的软件,支持 GEDCOM 5.5.1 标准,适用于 Windows、Linux、MacOS 及安卓平台。软件界面简洁直观,功能涵盖家谱数据录入、家族树自动生成、多种形式的家谱展示与打印、地理信息集成(支持 Google 地图和 OpenStreetMap)、快速检索与筛选、多媒体资料添加等。支持插件和 Lua 脚本扩展,满足不同用户的个性化需求,非常适合有家谱整理、族谱制作需求的个人及家庭长期使用。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据可视化 #机器学习工具


🏵 Embedding Atlas - 大规模嵌入可视化

🍥 简介:
Embedding Atlas 是一款面向大规模嵌入数据的交互式可视化工具,支持对数百万级别的向量进行聚类、标签自动生成、密度分析和实时搜索。用户可以通过直观的界面探索数据结构,快速定位相似样本及异常点。工具采用 WebGPU 技术,保证高效渲染表现,同时支持多视图联动和元数据筛选。Embedding Atlas 可作为命令行工具、Jupyter Widget 或前端组件集成到 Python、React、Svelte 等开发环境,极大提升嵌入类数据的分析效率和可操作性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库 #AI助手集成


🏵 MCP ClickHouse Server - ClickHouse集成服务

🍥 简介:
MCP ClickHouse Server 是专为 ClickHouse 数据库打造的中间件服务,支持与各类 AI 助手进行集成。它提供 SQL 查询、数据库和数据表管理等核心功能,确保所有操作只读,保障数据安全。通过内置健康检查接口,实时监控服务状态。支持直接从文件、URL 或数据库等多种数据源查询,无需复杂的ETL流程,极大简化数据分析和应用集成流程。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 Hugging Face AI Sheets - 无代码AI数据处理平台

🍥 简介:
Hugging Face AI Sheets 是一款开源的数据集构建与增强工具,支持通过无代码方式调用多种AI模型,实现数据的生成、处理和转换。用户可直接在网页端操作,或本地/云端部署,灵活对接 Hugging Face Hub 上的数千开源模型,亦支持自定义和本地大模型接入。系统支持简单拖拽、批量推理及自动化脚本扩展,方便快速构建高质量AI数据集,适用于数据标注、NLP、机器学习等多种场景,大幅提升数据工程效率。

🍭 #AI无代码 #数据处理


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Reasoning Gym - 推理数据集生成

🍥 简介:
Reasoning Gym 是一个用于生成可程序化验证推理任务数据集的Python库,专为训练和评估推理模型设计,支持强化学习等主流AI训练方式。该项目内置100多种任务类型,涵盖代数、算术、逻辑、图论、认知、计算等多个领域,并能根据参数灵活调整任务难度,实现近乎无限的训练样本生成。提供标准化接口和自动评分机制,便于模型训练和性能对比,适合学术研究及AI模型开发者使用。

🍭 #数据集生成 #推理训练


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Apache Hamilton - 数据流DAG自动化

🍥 简介:
Apache Hamilton 是一款轻量级 Python 库,专注于数据转换有向无环图(DAG)的定义与管理。用户只需用常规 Python 函数声明依赖关系,即可快速构建可移植、可扩展的数据流管道,适用于 ETL、机器学习、LLM 应用与BI分析等场景。它支持自动化DAG生成、可视化追踪、元数据管理和数据校验,提升代码可读性、可测试性和团队协作效率。Hamilton 完全独立于底层运行环境,可无缝集成至本地、Airflow、FastAPI等多种平台。

🍭 #数据工程 #DAG


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Buckaroo - Notebook数据表格UI

🍥 简介:
Buckaroo 是一款现代化的 Jupyter 数据表格工具,旨在加速常见的数据探索性分析任务。它提供了一个高性能、可排序、无限滚动的数据表格,并支持值格式化。除了核心表格功能外,Buckaroo 还集成了摘要统计、直方图、智能抽样、自动清理和低代码 UI 等额外特性。它与 Pandas、Polars、Jupyter 和 VSCode Notebooks 兼容,提供便捷的数据分析体验。

🍭 #数据分析 #Jupyter #数据表格


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top