挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #备份工具 #数据安全


🏵 Kopia - 跨平台备份工具

🍥 简介:
Kopia是一款跨平台的备份工具,支持Windows、macOS和Linux系统。它提供快速增量备份、端到端加密、客户端数据压缩和去重功能。Kopia内置命令行界面(CLI)和图形用户界面(GUI),旨在高效、安全地管理用户数据备份,确保数据完整性与保密性。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #网络爬虫 #数据抓取 #开发框架


🏵 Scrapy - 网页数据抓取框架

🍥 简介:
Scrapy是一个开源的网络爬虫框架,专为从网站高效提取结构化数据而设计。它提供了一整套工具集,用于构建、部署和管理复杂的爬虫项目,实现自动化数据收集。Scrapy支持多平台运行,具备高度可扩展性,并且要求Python 3.10或更高版本作为其运行环境,以确保最佳兼容性和性能。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #网络爬虫 #数据抓取 #自动化


🏵 Scrapling - 响应式网络爬虫平台


🍥 简介:
Scrapling是一款响应式网络爬虫平台,旨在处理从单次请求到大规模扫描的各类数据抓取任务。该解析器能够监测网站内容变化,并在页面更新时自动调整元素定位。其内置了对Cloudflare Turnstile等反机器人保护机制的规避功能。平台提供了一个可扩展的爬虫框架,支持并行多会话扫描、暂停与恢复操作,并实现代理自动轮换,所有功能均可通过少量Python代码实现,提供高效且灵活的数据采集方案。


🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #剪贴板 #数据同步


🏵 Crosspaste-desktop - 跨设备数据交换工具

🍥 简介:
Crosspaste-desktop是一款跨平台数据交换工具。它实现设备间剪贴板内容的实时同步,并提供统一的操作系统接口,支持Mac、Windows及Linux平台。该工具兼容文本、颜色、URL、HTML、RTF、图像及文件等多种剪贴板数据类型。为保障数据安全,Crosspaste-desktop采用端到端不对称加密技术。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据库工具 #备份工具 #开源项目


🏵 Databasus - 数据库备份

🍥 简介:
Databasus是一款免费且开源的数据库备份工具,专注于提供自助式数据库备份解决方案,尤其擅长处理PostgreSQL数据库的备份需求。该工具具备灵活的存储选项,允许用户将备份数据安全存储至Amazon S3、Google Drive、FTP等多种云端及本地存储服务。为提升运维效率,Databasus还内置了实时通知系统,支持通过Slack、Discord等平台发送备份任务的进度及完成状态通知,确保用户及时掌握数据库健康状况。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #笔记应用 #Git同步 #Markdown编辑器 #数据隐私


🏵 GitJournal - Git同步笔记应用

🍥 简介:
GitJournal是一款基于Git的笔记应用,强调隐私与数据可移植性。所有笔记均采用标准Markdown格式,可包含YAML元数据,并存储于用户自选的Git仓库(如GitHub、GitLab或自定义服务)。此设计便于笔记自托管及通过Git平台同步管理。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据平台 #数据分析


🏵 BemiDB - 开源数据平台替代

🍥 简介:
BemiDB是一款开源数据平台,旨在替代Snowflake和Fivetran。它支持连接多种数据源,能将数据以压缩列式格式同步至S3。内置的分析查询引擎兼容Postgres,可高效执行复杂查询任务。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #工作流自动化 #数据编排 #任务调度


🏵 Apache Airflow - 工作流编排与监控

🍥 简介:
Apache Airflow 是一款用于以编程方式创建、调度和监控数据工作流的平台。通过将工作流表示为代码,Airflow 显著提升了其可维护性、可更新性、可测试性及协作效率。用户可构建有向无环图(DAG)来定义任务流。Airflow 调度器负责在多个工作节点上依据指定依赖关系执行这些任务。平台提供强大的命令行工具,支持复杂的 DAG 操作,同时配备直观的用户界面,用于可视化生产管线、追踪执行进度并进行故障诊断。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据治理 #元数据管理


🏵 Apache Gravitino - 分布式元数据湖

🍥 简介:
Apache Gravitino 是一款高性能、支持地理分布和联邦架构的开源元数据湖,专为大数据和AI资产的统一元数据管理而设计。它能无缝接入Hive、MySQL、HDFS、S3等多种数据源,提供统一的元数据访问与治理能力。通过灵活的连接器架构,Gravitino 支持多区域、多云环境下的元数据同步,具备访问控制、审计、发现等企业级功能。兼容主流查询引擎和多类型资产管理,适合构建现代数据中台和AI治理平台。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #家谱管理 #数据库工具


🏵 GEDKeeper - 个人家谱数据库管理

🍥 简介:
GEDKeeper 是一款专注于个人家谱数据库管理的软件,支持 GEDCOM 5.5.1 标准,适用于 Windows、Linux、MacOS 及安卓平台。软件界面简洁直观,功能涵盖家谱数据录入、家族树自动生成、多种形式的家谱展示与打印、地理信息集成(支持 Google 地图和 OpenStreetMap)、快速检索与筛选、多媒体资料添加等。支持插件和 Lua 脚本扩展,满足不同用户的个性化需求,非常适合有家谱整理、族谱制作需求的个人及家庭长期使用。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 Hugging Face AI Sheets - 无代码AI数据处理平台

🍥 简介:
Hugging Face AI Sheets 是一款开源的数据集构建与增强工具,支持通过无代码方式调用多种AI模型,实现数据的生成、处理和转换。用户可直接在网页端操作,或本地/云端部署,灵活对接 Hugging Face Hub 上的数千开源模型,亦支持自定义和本地大模型接入。系统支持简单拖拽、批量推理及自动化脚本扩展,方便快速构建高质量AI数据集,适用于数据标注、NLP、机器学习等多种场景,大幅提升数据工程效率。

🍭 #AI无代码 #数据处理


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Apache Hamilton - 数据流DAG自动化

🍥 简介:
Apache Hamilton 是一款轻量级 Python 库,专注于数据转换有向无环图(DAG)的定义与管理。用户只需用常规 Python 函数声明依赖关系,即可快速构建可移植、可扩展的数据流管道,适用于 ETL、机器学习、LLM 应用与BI分析等场景。它支持自动化DAG生成、可视化追踪、元数据管理和数据校验,提升代码可读性、可测试性和团队协作效率。Hamilton 完全独立于底层运行环境,可无缝集成至本地、Airflow、FastAPI等多种平台。

🍭 #数据工程 #DAG


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Maxun - 开源无代码网页数据提取

🍥 简介:
Maxun 是一个开源的无代码Web数据提取平台。用户无需编写代码,通过可视化界面训练“机器人”,即可在几分钟内自动抓取网页数据。它能将目标网站转换为API接口或电子表格格式,有效处理分页、滚动加载、登录墙等场景。支持设定计划任务定时执行抓取,并具备适应网站布局变化的能力。提供云托管版本简化部署,也支持本地安装及自带代理(BYOP)配置。

🍭 #数据抓取 #无代码


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top