挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #数据提取 #AI工具


🏵 LangExtract - 提取结构化数据

🍥 简介:
LangExtract 是一个免费的 Python 库。它利用 Gemini 等人工智能模型,从报告、书籍等非结构化文本中提取结构化数据,如人名、情感或药物信息。该库旨在简化数据解析过程,提高数据处理效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据库工具 #模式迁移


🏵 Pgschema - PostgreSQL声明式模式迁移

🍥 简介:
Pgschema是一款命令行工具,专为PostgreSQL提供Terraform风格的声明式模式迁移功能。用户无需手动编写迁移文件,只需定义期望的数据库模式状态,Pgschema便能自动生成并执行相应的迁移计划。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据层 #状态管理


🏵 LiveStore - 响应式SQLite数据层


🍥 简介:
LiveStore 是一个强大的应用程序数据层,利用响应式 SQLite 数据库管理数据,并实现设备间即时同步,包括离线模式。它取代了 Redux 等传统状态管理工具,支持以响应式方式查询和更新数据,通过事件溯源(event-sourcing)提供实时同步功能。


🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据处理 #Python框架

🏵 Pathway - Python ETL/流处理框架

🍥 简介:
Pathway是Python框架,用于ETL、流处理、实时分析、LLM管道和RAG。它提供Python API,支持机器学习库集成。代码可在开发与生产环境运行,处理批处理和流式数据。同一代码适用于本地开发、CI/CD、批处理作业与数据流处理。

🎈 【进入项目】

🗣 活动线报 | 掘金项目
🍭 #数据工具 #Python库


🏵 Pandas-datareader - 从网络源提取数据

🍥 简介:
Pandas-datareader 是一个 Python 库,用于从各种互联网数据源提取数据。该工具能够将获取的数据直接加载到 pandas DataFrame 结构中,旨在简化数据采集和预处理流程。它为开发者和数据科学家提供了一个高效、标准化的数据获取方案,便于快速集成外部数据进行分析和应用,提升工作效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据验证 #TypeScript工具


🏵 Zod - TypeScript数据验证

🍥 简介:
Zod 是一个专注于 TypeScript 的数据验证库。用户通过定义数据模式(schema),可对输入数据进行解析与验证,确保获得强类型且已校验的输出结果。该库具有零外部依赖、API 不可变等特点。它体积小巧,核心包压缩后仅 2KB,支持 Node.js 及所有现代浏览器环境,并能同时兼容 TypeScript 和普通 JavaScript 项目,提供简洁高效的数据验证方案。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据库工具 #备份工具 #开源项目


🏵 Databasus - 数据库备份

🍥 简介:
Databasus是一款免费且开源的数据库备份工具,专注于提供自助式数据库备份解决方案,尤其擅长处理PostgreSQL数据库的备份需求。该工具具备灵活的存储选项,允许用户将备份数据安全存储至Amazon S3、Google Drive、FTP等多种云端及本地存储服务。为提升运维效率,Databasus还内置了实时通知系统,支持通过Slack、Discord等平台发送备份任务的进度及完成状态通知,确保用户及时掌握数据库健康状况。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #词典工具 #语言资源 #数据集合


🏵 Russian-swears - 俄语脏话词典

🍥 简介:
Russian-swears 是一个专注于俄语脏话的词典项目。该资源结构化地收录了俄语基础脏话词汇、常用前缀、衍生词、固定短语及日常表达。项目还包含实用的参考链接和编辑说明,为研究或分析俄语口语文化提供了一个详细的数据集合。它旨在提供一个全面的俄语俚语和不雅词汇数据库,便于语言学研究、文本分析或其他相关应用。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #笔记应用 #数据同步


🏵 GitJournal - Git笔记应用

🍥 简介:
GitJournal是一款专注于隐私和数据便携性的笔记应用。它将所有笔记以标准Markdown和可选YAML格式存储。用户可选择GitHub、GitLab或自定义Git仓库作为存储位置,便于在私有服务器或多种Git服务商间轻松部署和同步数据。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #网页抓取 #自动化 #数据采集


🏵 Scrapling - 自适应网页抓取库

🍥 简介:
Scrapling是一款创新的自适应网页抓取库。不同于传统爬虫,它能智能感知并自动适应目标网站结构的变化。当网站更新导致页面元素布局变动时,Scrapling能自动识别并调整抓取逻辑,确保数据提取任务持续稳定运行,有效避免因网站改版而需频繁维护爬虫代码的问题,提高抓取效率和稳定性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库工具 #开源项目 #可视化工具

🏵 Ivory - Postgres集群可视化管理

🍥 简介:
Ivory是一款开源软件,专注于简化并可视化Postgres集群的管理与操作。它为Postgres维护人员提供了直观的工具集,以提升数据库集群的运维效率和开发体验。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库 #Datalog #数据版本


🏵 Datahike - 可靠Datalog数据库,兼容Datomic,类Git语义。

🍥 简介:
Datahike是一款基于Datalog模型的可靠数据库系统。其API兼容Datomic,并集成类似Git的版本管理语义。通过持久化数据结构与结构共享机制,Datahike生成不可变的数据库快照。这些快照作为独立的值,支持在任何环境下进行存储、传输及查询操作,全程无需数据锁定或冗余复制,确保数据一致性与访问效率。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #笔记应用 #Git同步 #Markdown编辑器 #数据隐私


🏵 GitJournal - Git同步笔记应用

🍥 简介:
GitJournal是一款基于Git的笔记应用,强调隐私与数据可移植性。所有笔记均采用标准Markdown格式,可包含YAML元数据,并存储于用户自选的Git仓库(如GitHub、GitLab或自定义服务)。此设计便于笔记自托管及通过Git平台同步管理。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库 #开发工具

🏵 SpacetimeDB - 数据库服务器一体化

🍥 简介:
SpacetimeDB整合了关系型数据库与应用服务器,允许通过“模块”在数据库内直接执行应用逻辑。客户端可直连数据库,取代传统中间服务器。这种架构简化了开发部署,支持Rust统一构建应用,减少微服务、容器及DevOps复杂性,提高开发运维效率。

🎈 【进入项目】

🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库加速 #中间件缓存


🏵 Readyset - 数据库查询加速缓存

🍥 简介:
Readyset 是一款兼容 MySQL 和 Postgres 协议的高性能数据库缓存中间层,专为提升查询速度和横向扩展读能力而设计。它部署在应用和数据库之间,无需修改业务代码,即可将复杂 SQL 查询自动转为高速缓存查找,并利用数据库的复制流保证缓存数据实时同步。Readyset 支持原生 ORM 和数据库客户端,解决了传统缓存失效和一致性难题,让你轻松获得近乎内存级的读性能与弹性扩展能力,适用于高并发场景下的数据库优化。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数值计算 #性能优化


🏵 NumExpr - 数组表达式高效计算

🍥 简介:
NumExpr 是一款专为 Python 生态(如 NumPy、Pandas)设计的高性能数值表达式计算库。它通过对数组表达式进行分块运算和多线程并行处理,大幅提升了大规模数组计算的速度和内存利用率。NumExpr 不仅能有效减少中间结果的内存分配,还能充分利用多核 CPU 资源,实现比传统 NumPy 更高的计算效率。适合处理超大矩阵或需要高效数学运算的场景,广泛应用于数据分析和科学计算领域。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库开发 #ORM框架


🏵 Ormin - Nim语言轻量ORM

🍥 简介:
Ormin 是专为 Nim 语言设计的轻量级 ORM 框架,支持编译期 SQL 校验、自动生成预编译语句,并提供简洁的 Nim 风格查询 DSL。其核心特性包括类型安全、表结构与字段名校验、自动生成表关联 Join、直接支持 JSON 数据,无需显式转换。Ormin 通过宏自动将 SQL 表结构导入为 Nim 类型,支持 SQLite 和 PostgreSQL 后端,并能在编译期输出生成的 SQL,方便调试。适用于需要高性能、安全性和强类型数据库操作的 Nim 项目。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据库运维 #自动化升级


🏵 pgautoupgrade - PostgreSQL自动升级工具

🍥 简介:
pgautoupgrade 是一款用于 PostgreSQL 数据库自动升级的 Docker 镜像工具,能够自动检测现有数据目录的版本并执行无缝升级,支持多版本切换和高效数据迁移。升级完成后自动启动新版本数据库,并清理旧集群数据。该工具极大简化了官方镜像无法线上升级的问题,支持一键“one shot”模式及常见数据库环境,适用于开发和生产环境下的自动化数据库升级与维护,显著提升升级安全性和效率。注意升级前请做好数据备份。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #家谱管理 #数据库工具


🏵 GEDKeeper - 个人家谱数据库管理

🍥 简介:
GEDKeeper 是一款专注于个人家谱数据库管理的软件,支持 GEDCOM 5.5.1 标准,适用于 Windows、Linux、MacOS 及安卓平台。软件界面简洁直观,功能涵盖家谱数据录入、家族树自动生成、多种形式的家谱展示与打印、地理信息集成(支持 Google 地图和 OpenStreetMap)、快速检索与筛选、多媒体资料添加等。支持插件和 Lua 脚本扩展,满足不同用户的个性化需求,非常适合有家谱整理、族谱制作需求的个人及家庭长期使用。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据处理框架 #AI工具


🏵 CocoIndex - 高性能AI数据变换框架

🍥 简介:
CocoIndex 是一款专为 AI 场景设计的高性能数据处理与变换框架,核心引擎采用 Rust 编写,支持增量式处理和数据血缘追踪。开发者只需用简洁的数据流声明方式,即可灵活实现文本、图片、代码等多类型数据的切分、嵌入、转换和导出,适用于知识图谱构建、向量检索、文本嵌入等多种AI应用。支持本地、云端多种数据源与目标库,内置丰富算子和插件,极大提升数据处理效率与可维护性,开箱即用,适合生产环境和快速研发场景。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
 
 
Back to Top