趣猫🐱 - 挖掘有趣 Github 的猫。有事联系：https://t.me/qumaobot

挖掘有趣 Github 的猫。

有事联系：https://t.me/qumaobot

19:43 · 2026年7月12日 · 周日

🍭 #网络爬虫 #IP代理 #数据采集

🏵 Cloudproxy - 云端代理IP池管理工具

🍥 简介：
Cloudproxy 是一款通过云端部署实现 IP 地址隐藏与轮换的工具。它能够整合多个云服务提供商的代理服务器资源，构建高效的分布式爬虫环境。通过该程序，用户可有效规避目标网站的访问限制，显著提升自动化数据采集任务的成功率与响应效率。

🎈 【进入项目】

🗣 活动线报 | 掘金项目

网络爬虫 IP代理数据采集

05:45 · 2026年6月10日 · 周三

🍭 #开源工具 #数据监控 #OSINT

🏵 ShadowBroker - 全球多源实时公开数据聚合平台

🍥 简介：
ShadowBroker 是一款开源数据可视化平台，旨在汇集全球60余个来源的实时公共数据。该系统通过交互式地图展示飞行轨迹、航海数据、卫星影像、监控画面及自然灾害与军事动态等信息。平台内置超过35个数据图层，集成人工智能代理分析功能，并提供去中心化即时通讯模块，适用于复杂地理空间数据的高效整合与实时监测。

🎈 【进入项目】

🗣 活动线报 | 掘金项目

开源工具数据监控 OSINT

03:35 · 2026年5月5日 · 周二

🍭 #OSINT工具 #数据分析

🏵 Flowsint - 开源情报分析

🍥 简介：
Flowsint是一款开源的OSINT数据分析工具，致力于伦理调查、信息透明化及数据验证。该工具提供了一套高效方法，用于收集、处理和解读公开来源情报。它支持安全研究和风险评估，强调情报来源合法性与分析严谨性，旨在提升数据获取的准确性和可靠性。

🎈 【进入项目】

🗣 活动线报 | 掘金项目

OSINT工具数据分析

03:34 · 2026年3月9日 · 周一

🍭 #API工具 #数据抓取

🏵 Scraping-apis-for-devs - API数据采集与开发

🍥 简介：
Scraping-apis-for-devs 提供一系列强大的API接口，专为开发者设计，用于高效的数据抓取与信息采集。该集合旨在简化开发流程，使开发者能够快速集成所需功能，无需从零开始构建。无论是开发简单的自动化工具，还是部署复杂的功能完善型应用程序，这些API都能提供稳定可靠的底层支持，助力各类项目迅速落地。

🎈 【进入项目】

🗣 活动线报 | 掘金项目

API工具数据抓取

16:46 · 2026年2月26日 · 周四

🍭 #词典工具 #语言资源 #数据集合

🏵 Russian-swears - 俄语脏话词典

🍥 简介：
Russian-swears 是一个专注于俄语脏话的词典项目。该资源结构化地收录了俄语基础脏话词汇、常用前缀、衍生词、固定短语及日常表达。项目还包含实用的参考链接和编辑说明，为研究或分析俄语口语文化提供了一个详细的数据集合。它旨在提供一个全面的俄语俚语和不雅词汇数据库，便于语言学研究、文本分析或其他相关应用。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

词典工具语言资源数据集合

01:35 · 2026年2月19日 · 周四

🍭 #数据处理 #数据清洗

🏵 OpenRefine - 数据清洗与整合

🍥 简介：
OpenRefine是一款基于Java的强大数据处理工具。它允许用户在本地计算机的网页浏览器中执行数据加载、分析、清洗、规范化和网络数据扩充等操作。该工具旨在提供一个安全、私密的环境，高效管理和优化数据集。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

数据处理数据清洗

19:36 · 2026年2月6日 · 周五

🍭 #网页抓取 #自动化 #数据采集

🏵 Scrapling - 自适应网页抓取库

🍥 简介：
Scrapling是一款创新的自适应网页抓取库。不同于传统爬虫，它能智能感知并自动适应目标网站结构的变化。当网站更新导致页面元素布局变动时，Scrapling能自动识别并调整抓取逻辑，确保数据提取任务持续稳定运行，有效避免因网站改版而需频繁维护爬虫代码的问题，提高抓取效率和稳定性。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

网页抓取自动化数据采集

01:35 · 2026年2月2日 · 周一

🍭 #数据库工具 #开源项目 #可视化工具

🏵 Ivory - Postgres集群可视化管理

🍥 简介：
Ivory是一款开源软件，专注于简化并可视化Postgres集群的管理与操作。它为Postgres维护人员提供了直观的工具集，以提升数据库集群的运维效率和开发体验。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

数据库工具开源项目可视化工具

22:36 · 2026年2月1日 · 周日

🍭 #数据库 #Datalog #数据版本

🏵 Datahike - 可靠Datalog数据库，兼容Datomic，类Git语义。

🍥 简介：
Datahike是一款基于Datalog模型的可靠数据库系统。其API兼容Datomic，并集成类似Git的版本管理语义。通过持久化数据结构与结构共享机制，Datahike生成不可变的数据库快照。这些快照作为独立的值，支持在任何环境下进行存储、传输及查询操作，全程无需数据锁定或冗余复制，确保数据一致性与访问效率。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

数据库 Datalog 数据版本

16:31 · 2026年2月1日 · 周日

🍭 #商业智能 #LLM应用 #数据分析 #开源项目

🏵 OpenChatBI - 基于大模型的数据智能分析

🍥 简介：
OpenChatBI 是一款基于大型语言模型的开源智能商业智能工具。它旨在通过自然语言交互，使用户能够高效地查询、分析和可视化数据。该项目基于LangGraph和LangChain生态系统构建，提供集成式聊天机器人和工作流功能，可实现自然语言到SQL的转换，显著简化了复杂的数据分析流程，提升了数据洞察的效率和可访问性。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

商业智能 LLM应用数据分析开源项目

05:46 · 2026年1月29日 · 周四

🍭 #数据提取 #爬虫工具

🏵 CyberScraper 2077 - AI驱动数据提取

🍥 简介：
CyberScraper 2077 是一个基于人工智能的网络数据提取工具。它集成OpenAI、Gemini及LocalLLM模型，旨在智能识别并有效突破网站反爬机制。程序核心功能是实现从复杂网络环境中，精准、高效地自动化提取目标数据。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

数据提取爬虫工具

22:46 · 2026年1月26日 · 周一

🍭 #系统工具 #数据恢复

🏵 ProxSave - 数据恢复备份工具

🍥 简介：
ProxSave旨在简化关键数据恢复过程。它解决了PVE或PBS服务器在故障或迁移后复杂的恢复问题，该过程通常耗时且需专业技能。ProxSave能够保存并随时恢复完整的系统环境，以最低限度的人工干预，为新安装部署个人数据做好准备。其功能涵盖自动备份、多路径存储、智能归档、备份加密、集成电子邮件或Proxmox通知，并支持Webhook、Gotify及Prometheus。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

系统工具数据恢复

13:33 · 2026年1月23日 · 周五

🍭 #图像处理 #数据分析

🏵 Fastdup - 图像视频数据分析

🍥 简介：
Fastdup是一款高效的开源工具，专为图像与视频数据集设计。它能快速识别并优化数据集中的图像与标注问题，提升数据质量。通过减少冗余处理，有效降低数据处理成本，并展现出卓越的扩展性，适用于大规模数据分析。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

图像处理数据分析

19:40 · 2025年12月18日 · 周四

🍭 #数据可视化 #多模态数据

🏵 Rerun - 多模态数据记录与可视化SDK

🍥 简介：
Rerun是一款专为机器人、空间AI、计算机视觉等领域设计的多模态数据栈开源工具。提供C++、Python和Rust SDK，支持记录图像、张量、点云、文本等多种数据类型，通过Rerun Viewer实时可视化或保存至文件。内置时间轴功能可回溯分析历史数据，帮助开发者理解复杂系统中传感器数据随时间的演变过程。提供数据查询API便于提取训练数据集。适用于机器人调试、仿真分析、工业检测等场景，无需注册即可快速上手，显著提升多模态数据的理解和调试效率。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

数据可视化多模态数据

08:47 · 2025年10月28日 · 周二

🍭 #数据处理 #AI模型训练

🏵 NeMo Curator - 多模态数据高效清洗

🍥 简介：
NeMo Curator 是 NVIDIA 推出的多模态数据预处理和整理工具，专为大模型（LLM）训练数据优化设计。它利用 GPU 加速，支持文本、图片、视频和音频等多种数据类型的去重、质量过滤、分类、语言检测、嵌入生成等任务，能从单机扩展到多节点集群。内置模块化流水线，适配主流数据源和格式，提升数据质量与处理效率，为大规模 AI 和多模态模型训练提供高效可靠的数据支撑。适用于科研、企业和自动化AI数据管道场景。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

数据处理 AI模型训练

08:17 · 2025年10月12日 · 周日

🍭 #数据库运维 #自动化升级

🏵 pgautoupgrade - PostgreSQL自动升级工具

🍥 简介：
pgautoupgrade 是一款用于 PostgreSQL 数据库自动升级的 Docker 镜像工具，能够自动检测现有数据目录的版本并执行无缝升级，支持多版本切换和高效数据迁移。升级完成后自动启动新版本数据库，并清理旧集群数据。该工具极大简化了官方镜像无法线上升级的问题，支持一键“one shot”模式及常见数据库环境，适用于开发和生产环境下的自动化数据库升级与维护，显著提升升级安全性和效率。注意升级前请做好数据备份。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

数据库运维自动化升级

14:07 · 2025年10月3日 · 周五

🍭 #家谱管理 #数据库工具

🏵 GEDKeeper - 个人家谱数据库管理

🍥 简介：
GEDKeeper 是一款专注于个人家谱数据库管理的软件，支持 GEDCOM 5.5.1 标准，适用于 Windows、Linux、MacOS 及安卓平台。软件界面简洁直观，功能涵盖家谱数据录入、家族树自动生成、多种形式的家谱展示与打印、地理信息集成（支持 Google 地图和 OpenStreetMap）、快速检索与筛选、多媒体资料添加等。支持插件和 Lua 脚本扩展，满足不同用户的个性化需求，非常适合有家谱整理、族谱制作需求的个人及家庭长期使用。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

家谱管理数据库工具

16:27 · 2025年9月29日 · 周一

🍭 #数据可视化 #机器学习工具

🏵 Embedding Atlas - 大规模嵌入可视化

🍥 简介：
Embedding Atlas 是一款面向大规模嵌入数据的交互式可视化工具，支持对数百万级别的向量进行聚类、标签自动生成、密度分析和实时搜索。用户可以通过直观的界面探索数据结构，快速定位相似样本及异常点。工具采用 WebGPU 技术，保证高效渲染表现，同时支持多视图联动和元数据筛选。Embedding Atlas 可作为命令行工具、Jupyter Widget 或前端组件集成到 Python、React、Svelte 等开发环境，极大提升嵌入类数据的分析效率和可操作性。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

数据可视化机器学习工具

08:52 · 2025年9月23日 · 周二

🍭 #数据库 #AI助手集成

🏵 MCP ClickHouse Server - ClickHouse集成服务

🍥 简介：
MCP ClickHouse Server 是专为 ClickHouse 数据库打造的中间件服务，支持与各类 AI 助手进行集成。它提供 SQL 查询、数据库和数据表管理等核心功能，确保所有操作只读，保障数据安全。通过内置健康检查接口，实时监控服务状态。支持直接从文件、URL 或数据库等多种数据源查询，无需复杂的ETL流程，极大简化数据分析和应用集成流程。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿

数据库 AI助手集成

08:42 · 2025年9月17日 · 周三

🗣 每日羊毛线报 👈

🏵 Hugging Face AI Sheets - 无代码AI数据处理平台

🍥 简介：
Hugging Face AI Sheets 是一款开源的数据集构建与增强工具，支持通过无代码方式调用多种AI模型，实现数据的生成、处理和转换。用户可直接在网页端操作，或本地/云端部署，灵活对接 Hugging Face Hub 上的数千开源模型，亦支持自定义和本地大模型接入。系统支持简单拖拽、批量推理及自动化脚本扩展，方便快速构建高质量AI数据集，适用于数据标注、NLP、机器学习等多种场景，大幅提升数据工程效率。

🍭 #AI无代码 #数据处理

🎈 【进入项目】

🎯 关注频道 🤖 合作/投稿

AI无代码数据处理

Home