挖掘有趣 Github 的猫。


有事联系:https://t.me/qumaobot
🍭 #数据处理 #格式转换


🏵 Edit Banana - 统计格式转换框架

🍥 简介:
Edit Banana 是一款专为统计数据格式转换设计的框架。它提供了一套工具和接口,能够高效地将各种统计数据格式解析并转化为可编辑的结构,便于用户进行后续的数据处理、分析与操作。该框架旨在简化数据格式转换的复杂性,提升数据处理的灵活性和效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据抓取 #爬虫框架


🏵 Scrapy - 强大的网站数据提取工具

🍥 简介:
Scrapy 是一款强大的网站数据提取工具,免费且运行稳定。它能够高效处理复杂的爬取任务,并支持同时管理大量请求,在大规模数据抓取场景下展现出卓越的速度和效率。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据处理 #Python框架

🏵 Pathway - Python ETL/流处理框架

🍥 简介:
Pathway是Python框架,用于ETL、流处理、实时分析、LLM管道和RAG。它提供Python API,支持机器学习库集成。代码可在开发与生产环境运行,处理批处理和流式数据。同一代码适用于本地开发、CI/CD、批处理作业与数据流处理。

🎈 【进入项目】

🗣 活动线报 | 掘金项目
🍭 #网络爬虫 #数据抓取 #自动化


🏵 Scrapling - 响应式网络爬虫平台


🍥 简介:
Scrapling是一款响应式网络爬虫平台,旨在处理从单次请求到大规模扫描的各类数据抓取任务。该解析器能够监测网站内容变化,并在页面更新时自动调整元素定位。其内置了对Cloudflare Turnstile等反机器人保护机制的规避功能。平台提供了一个可扩展的爬虫框架,支持并行多会话扫描、暂停与恢复操作,并实现代理自动轮换,所有功能均可通过少量Python代码实现,提供高效且灵活的数据采集方案。


🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #网络工具 #数据包处理


🏵 B4 - 网络包处理器,规避DPI

🍥 简介:
B4是一款专业的网络数据包处理器,主要功能是规避深度包检测(DPI)。它通过精确利用Linux内核的Netfilter框架及其队列管理机制,对网络数据包进行细粒度控制。通过优化数据包的处理路径和时序,B4能有效绕过传统DPI系统的检测与干预,提升数据传输的隐蔽性和顺畅性,为用户提供可靠的DPI规避解决方案。

🎈 【进入项目】


🗣 活动线报 | 掘金项目
🍭 #数据处理框架 #AI工具


🏵 CocoIndex - 高性能AI数据变换框架

🍥 简介:
CocoIndex 是一款专为 AI 场景设计的高性能数据处理与变换框架,核心引擎采用 Rust 编写,支持增量式处理和数据血缘追踪。开发者只需用简洁的数据流声明方式,即可灵活实现文本、图片、代码等多类型数据的切分、嵌入、转换和导出,适用于知识图谱构建、向量检索、文本嵌入等多种AI应用。支持本地、云端多种数据源与目标库,内置丰富算子和插件,极大提升数据处理效率与可维护性,开箱即用,适合生产环境和快速研发场景。

🎈 【进入项目】


🗣 羊毛撸货线报 | 合作/投稿
 
 
Back to Top