01 谷歌开源的文档信息抽取神器

最近逛 GitHub 发现谷歌开源了一个挺有意思的项目 LangExtract,目前已经有将近 3 万的 Star 了,来瞧瞧。

图片



这是一个 Python 库,专门用 LLM 从乱七八糟的非结构化文本里提取结构化信息。

比如说你有一堆临床病历、报告文档啥的,它能帮你自动识别和整理关键信息,而且提取出来的每一条数据都能精准定位到原文位置。

它有几个核心特点,精确源定位、对长文档做了优化、支持交互式可视化,能生成一个独立的 HTML 文件,让你在原始上下文中查看和审核成千上万个提取结果,绝了。

图片

而且灵活的模型支持,从云端的 Gemini 到本地的 Ollama 都能用,完全看你喜欢哪种。

安装很简单,pip install langextract 就行。

开源地址:https://github.com/google/langextract


02 写爬虫再也不怕网站改版了

做爬虫的朋友应该都遇到过这种痛苦:好不容易写好的爬虫脚本,网站一更新,选择器全废,又得重新调试。

最近在 GitHub 上挖到了 Scrapling 这个项目,专门解决这个痛点。它是一个自适应的 Python 爬虫库,能在网站结构变化后自动重新定位目标元素。

Scrapling
Scrapling

看了一下,目前这个项目已经斩获了 13.7K 的 Star,在爬虫圈子里还挺火的。

它的核心能力在于智能元素追踪。网站改版后,它会利用相似性算法自动找到之前定位的元素,不用手动改代码,相当给力。

智能元素追踪
智能元素追踪

而且它内置了多种反爬虫绕过技术,包括 TLS 指纹伪装、Cloudflare Turnstile 绕过等。直接用 StealthyFetcher 就能搞定大部分反爬检测。

性能方面也很顶,官方的基准测试显示它的解析速度比 BeautifulSoup 快了将近 800 倍。

安装方式也很简单:

pip install scrapling
scrapling install

对于需要长期维护爬虫项目的朋友来说,这个库能省下不少维护成本,速速收藏。

开源地址:https://github.com/D4Vinci/Scrapling


03 5 美元芯片上跑 AI 助理

最近逛 GitHub 发现了一个挺有意思的项目,把 OpenClaw 塞进了一块 5 美元的芯片里,有点意思。

这个叫 MimiClaw 的开源项目,核心就是一颗 ESP32-S3 开发板,没有 Linux,没有 Node.js,纯 C 语言写出来的 AI 助理。

目前这个项目已经拿到了 3.2K 个 Star。

MimiClaw
MimiClaw

说白了,你只需要一块 30 块钱左右的 ESP32-S3 开发板,插上 USB 供电,连上 WiFi,就能通过 Telegram 跟它对话。

它能处理你丢给它的任何任务,还会随时间积累本地记忆,跨重启也不会忘。

最骚的是功耗只有 0.5W,可以 24/7 运行,一个月电费可能都不到 1 块钱,绝了。

技术原理挺直接的:你在 Telegram 发一条消息,ESP32-S3 通过 WiFi 收到后送进 Agent 循环,Claude 思考、调用工具、读取记忆,再把回复发回来。

所有数据都存在本地 Flash 里,隐私这块拿捏得很死。

架构图
架构图

部署也不复杂,需要的东西就几样:ESP32-S3 开发板(16MB Flash + 8MB PSRAM)、一根 USB Type-C 线、一个 Telegram Bot Token、一个 Anthropic API Key。

照着 README 编译烧录就能跑起来。

开源地址:https://github.com/memovai/mimiclaw


04 营销人的 Claude Code 技能库

这个是专门为营销同学准备的 skill 包,已经有 7.5k 的 Star 了,给劲儿。

marketingskills
marketingskills

作者是个叫 Corey Haines 的营销大佬,他在 X 上说这是他发布过的最有价值的东西,而且完全免费。

我看了一下,里面包含了 26 个营销相关的 skill,覆盖了转化率优化、文案写作、SEO、数据分析、增长黑客这些领域。

比如说 page-cro 这个 skill:当你想让 Claude 帮你优化落地页的转化率时,会自动应用各种转化率优化的框架和最佳实践。

还有 copywriting skill 可以帮你写各种营销页面的文案,包括首页、落地页、产品页啥的。

对于搞 SEO 的同学,有 seo-audit skill 可以做技术和页面 SEO 审计,programmatic-seo skill 可以帮你规模化生成 SEO 页面。

付费广告这块也有 paid-ads skill,支持 Google Ads、Meta、LinkedIn、Twitter/X 这些平台,相当实用。

技能列表
技能列表

说白了,装上这套 skill 之后,Claude Code 就变成了一个懂营销的 AI 助手,能帮你干各种营销相关的活,收藏一波。

开源地址:https://github.com/coreyhaines31/marketingskills

Logo

智能硬件社区聚焦AI智能硬件技术生态,汇聚嵌入式AI、物联网硬件开发者,打造交流分享平台,同步全国赛事资讯、开展 OPC 核心人才招募,助力技术落地与开发者成长。

更多推荐