挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #数据处理 #格式转换


🏵 Edit Banana - 统计格式转换框架

🍥 简介:
Edit Banana 是一款专为统计数据格式转换设计的框架。它提供了一套工具和接口,能够高效地将各种统计数据格式解析并转化为可编辑的结构,便于用户进行后续的数据处理、分析与操作。该框架旨在简化数据格式转换的复杂性,提升数据处理的灵活性和效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据提取 #AI工具


🏵 LangExtract - 提取结构化数据

🍥 简介:
LangExtract 是一个免费的 Python 库。它利用 Gemini 等人工智能模型,从报告、书籍等非结构化文本中提取结构化数据,如人名、情感或药物信息。该库旨在简化数据解析过程,提高数据处理效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #AI工具 #数据处理工具 #开源项目


🏵 CocoIndex - AI数据格式转换

🍥 简介:
CocoIndex是一款快速开源的数据处理工具,其核心使用Rust,外部接口采用Python。该工具专注于将原始数据高效转换为AI模型所需的特定格式,包括向量索引和知识图谱,以支持人工智能应用的数据预处理阶段。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据抓取 #爬虫框架


🏵 Scrapy - 强大的网站数据提取工具

🍥 简介:
Scrapy 是一款强大的网站数据提取工具,免费且运行稳定。它能够高效处理复杂的爬取任务,并支持同时管理大量请求,在大规模数据抓取场景下展现出卓越的速度和效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据处理 #Python框架

🏵 Pathway - Python ETL/流处理框架

🍥 简介:
Pathway是Python框架,用于ETL、流处理、实时分析、LLM管道和RAG。它提供Python API,支持机器学习库集成。代码可在开发与生产环境运行,处理批处理和流式数据。同一代码适用于本地开发、CI/CD、批处理作业与数据流处理。

🎈 【进入项目】

🗣 活动线报 | 掘金项目
🍭 #数据工具 #Python库


🏵 Pandas-datareader - 从网络源提取数据

🍥 简介:
Pandas-datareader 是一个 Python 库,用于从各种互联网数据源提取数据。该工具能够将获取的数据直接加载到 pandas DataFrame 结构中,旨在简化数据采集和预处理流程。它为开发者和数据科学家提供了一个高效、标准化的数据获取方案,便于快速集成外部数据进行分析和应用,提升工作效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #网络爬虫 #数据抓取 #自动化


🏵 Scrapling - 响应式网络爬虫平台


🍥 简介:
Scrapling是一款响应式网络爬虫平台,旨在处理从单次请求到大规模扫描的各类数据抓取任务。该解析器能够监测网站内容变化,并在页面更新时自动调整元素定位。其内置了对Cloudflare Turnstile等反机器人保护机制的规避功能。平台提供了一个可扩展的爬虫框架,支持并行多会话扫描、暂停与恢复操作,并实现代理自动轮换,所有功能均可通过少量Python代码实现,提供高效且灵活的数据采集方案。


🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #网络工具 #数据包处理


🏵 B4 - 网络包处理器,规避DPI

🍥 简介:
B4是一款专业的网络数据包处理器,主要功能是规避深度包检测(DPI)。它通过精确利用Linux内核的Netfilter框架及其队列管理机制,对网络数据包进行细粒度控制。通过优化数据包的处理路径和时序,B4能有效绕过传统DPI系统的检测与干预,提升数据传输的隐蔽性和顺畅性,为用户提供可靠的DPI规避解决方案。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据库工具 #备份工具 #开源项目


🏵 Databasus - 数据库备份

🍥 简介:
Databasus是一款免费且开源的数据库备份工具,专注于提供自助式数据库备份解决方案,尤其擅长处理PostgreSQL数据库的备份需求。该工具具备灵活的存储选项,允许用户将备份数据安全存储至Amazon S3、Google Drive、FTP等多种云端及本地存储服务。为提升运维效率,Databasus还内置了实时通知系统,支持通过Slack、Discord等平台发送备份任务的进度及完成状态通知,确保用户及时掌握数据库健康状况。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据处理 #数据清洗


🏵 OpenRefine - 数据清洗与整合

🍥 简介:
OpenRefine是一款基于Java的强大数据处理工具。它允许用户在本地计算机的网页浏览器中执行数据加载、分析、清洗、规范化和网络数据扩充等操作。该工具旨在提供一个安全、私密的环境,高效管理和优化数据集。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据处理 #开源项目 #智能代理 #数据分析工具


🏵 Datus - 数据处理智能代理

🍥 简介:
Datus是一款开源数据处理智能代理,旨在为数据系统构建可扩展的上下文。其核心理念是将数据处理范式从传统的“创建数据表和管道”转变为“为分析师和业务用户提供专门的智能代理”,以提升数据管理与利用的效率及灵活性。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #图像处理 #数据分析


🏵 Fastdup - 图像视频数据分析

🍥 简介:
Fastdup是一款高效的开源工具,专为图像与视频数据集设计。它能快速识别并优化数据集中的图像与标注问题,提升数据质量。通过减少冗余处理,有效降低数据处理成本,并展现出卓越的扩展性,适用于大规模数据分析。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数值计算 #性能优化


🏵 NumExpr - 数组表达式高效计算

🍥 简介:
NumExpr 是一款专为 Python 生态(如 NumPy、Pandas)设计的高性能数值表达式计算库。它通过对数组表达式进行分块运算和多线程并行处理,大幅提升了大规模数组计算的速度和内存利用率。NumExpr 不仅能有效减少中间结果的内存分配,还能充分利用多核 CPU 资源,实现比传统 NumPy 更高的计算效率。适合处理超大矩阵或需要高效数学运算的场景,广泛应用于数据分析和科学计算领域。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据处理 #AI模型训练


🏵 NeMo Curator - 多模态数据高效清洗

🍥 简介:
NeMo Curator 是 NVIDIA 推出的多模态数据预处理和整理工具,专为大模型(LLM)训练数据优化设计。它利用 GPU 加速,支持文本、图片、视频和音频等多种数据类型的去重、质量过滤、分类、语言检测、嵌入生成等任务,能从单机扩展到多节点集群。内置模块化流水线,适配主流数据源和格式,提升数据质量与处理效率,为大规模 AI 和多模态模型训练提供高效可靠的数据支撑。适用于科研、企业和自动化AI数据管道场景。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🍭 #数据处理框架 #AI工具


🏵 CocoIndex - 高性能AI数据变换框架

🍥 简介:
CocoIndex 是一款专为 AI 场景设计的高性能数据处理与变换框架,核心引擎采用 Rust 编写,支持增量式处理和数据血缘追踪。开发者只需用简洁的数据流声明方式,即可灵活实现文本、图片、代码等多类型数据的切分、嵌入、转换和导出,适用于知识图谱构建、向量检索、文本嵌入等多种AI应用。支持本地、云端多种数据源与目标库,内置丰富算子和插件,极大提升数据处理效率与可维护性,开箱即用,适合生产环境和快速研发场景。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
🗣 每日羊毛线报 👈


🏵 Hugging Face AI Sheets - 无代码AI数据处理平台

🍥 简介:
Hugging Face AI Sheets 是一款开源的数据集构建与增强工具,支持通过无代码方式调用多种AI模型,实现数据的生成、处理和转换。用户可直接在网页端操作,或本地/云端部署,灵活对接 Hugging Face Hub 上的数千开源模型,亦支持自定义和本地大模型接入。系统支持简单拖拽、批量推理及自动化脚本扩展,方便快速构建高质量AI数据集,适用于数据标注、NLP、机器学习等多种场景,大幅提升数据工程效率。

🍭 #AI无代码 #数据处理


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Maxun - 开源无代码网页数据提取

🍥 简介:
Maxun 是一个开源的无代码Web数据提取平台。用户无需编写代码,通过可视化界面训练“机器人”,即可在几分钟内自动抓取网页数据。它能将目标网站转换为API接口或电子表格格式,有效处理分页、滚动加载、登录墙等场景。支持设定计划任务定时执行抓取,并具备适应网站布局变化的能力。提供云托管版本简化部署,也支持本地安装及自带代理(BYOP)配置。

🍭 #数据抓取 #无代码


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 Minimalytics - 轻量级分析工具

🍥 简介:
Minimalytics 是一款基于 SQLite 的极简独立分析工具,专为资源受限环境设计。它提供轻量级的事件跟踪和数据可视化功能,存储占用极小(约 20 MB),却能支持每月超过 10 亿次事件的处理。Minimalytics 通过事件聚合和 SQLite 存储优化空间使用,并内置 Web UI 用于管理仪表盘和交互式图表。其 CLI 工具启动服务器,提供事件提交 API 和 Web UI 服务,适用于需要高效、低成本分析解决方案的场景,如内部服务监控或小型项目。

🍭 #数据分析 #轻量级工具


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
🗣 每日羊毛线报 👈


🏵 zlib-ng - 高性能压缩库

🍥 简介:
zlib-ng 是 zlib 压缩库的现代化分支,专为下一代系统优化设计。它保留了 zlib 的兼容性 API,同时引入了现代 C11 语法和高效算法,支持多种 CPU 指令集(如 SSE2、AVX2、Neon 等)以加速压缩和解压过程。zlib-ng 整合了 Intel 和 Cloudflare 的优化方案,并移除了对老旧编译器和系统的兼容性代码,使代码更简洁、性能更高。此外,它支持硬件加速(如 IBM Z DFLTCC)和全面的单元测试,适用于需要高性能压缩的场景,如云计算和大数据处理。

🍭 #数据压缩 #性能优化


🎈 【进入项目】


🎯 关注频道 🤖 合作/投稿
 
 
Back to Top