Parallel Experiments

رفتن به کانال در Telegram

Stay informed. Stay authentic. Welcome to the public part of my brain. Here I share curations and thoughts. Created with ❤️ by @linghao.

نمایش بیشتر

الصين56 236 فناوری و برنامه‌ها32 549

1 757

مشترکین

+124 ساعت

+37 روز

+130 روز

896

نمایش های پست

~ 18824 ساعت

~ 22548 ساعت

51.03%

نرخ مشارکت

اطلاعاتی وجود ندارد

پست های در روز

Ads index

beta

آرشیو پست ها

1 757

https://alexzhang13.github.io/blog/2026/harness/ > A good harness is a harness that reduces unfamiliar problems to familiar ones and reduces complex problems to simple ones. In other words, even if the state s is out-of-distribution (OOD) to what any individual language model call was trained for, a good harness produces observations o that are locally in-distribution (LID), which we define as every individual LM call over this observation being in-distribution with respect to the training data.

1 757

https://linghao.io/posts/taxonomy-differences-matter 以前觉得 taxonomy 只是无聊的分类学，开始做 LLM quality 以后几乎每天都在思考和跟同事争论 loss taxonomy 的细枝末节。这几天放假闲下来仔细想想，taxonomy 无处不在，至关重要。

1 757

关于层出不穷的各式 AI memory system 的一些思考：我们应该把更多的精力放在设计更好的 eval 上，从而让最强的 memory system 进化出来 https://linghao.io/posts/memory-systems-should-be-evolved

1 757

https://arxiv.org/abs/2503.02113 The core idea: Deep learning does not work because neural nets somehow escape generalization theory. It works because very flexible models can still generalize when they have soft inductive biases — preferences for simple, compressible, structured solutions. Key points: - 🧠 Overparameterization is not automatically a problem. Having more parameters than data points does not necessarily mean the learned function is complex. Parameter count is a bad proxy for the complexity of the actual solution. - 📈 Benign overfitting is not unique to neural nets. Models can perfectly fit training data, even noisy data, while still generalizing on structured data. Similar behavior appears in linear models, Gaussian processes, high-degree polynomials, and other classical model classes. - 🔁 Double descent is not just a modern deep learning anomaly. The pattern where test error falls, rises, then falls again as model size increases also appears outside neural networks. It can be understood through effective dimensionality, compression, and the geometry of learned solutions. - 📦 Compression is central. A huge model can generalize if the solution it finds is simple or compressible. The rough intuition is: expected error ≈ training error + complexity/compressibility penalty. - 📚 Some older theories already help explain this. PAC-Bayes and countable hypothesis bounds are more useful here than raw VC dimension, Rademacher complexity, or parameter counting, because they focus on which solutions are likely/simple rather than just how large the hypothesis space is. - 🎯 The paper’s recommended lens: Don’t only restrict what a model can represent. Instead, allow a very rich hypothesis space, but bias the learner toward simpler solutions that fit the data. - ✨ What is still distinctive about deep learning? Not overparameterization or double descent by themselves, but things like representation learning, in-context learning, broad cross-domain usefulness, and mode connectivity in loss landscapes. My takeaway: Deep learning’s famous generalization puzzles may not require rewriting the textbooks from scratch. They may require reading the right parts of the textbooks more carefully — especially the parts about priors, compression, and soft preferences over solutions.

1 757

Repost from C’s Random Collection

一月底最后一个周六有了一个灵感，想做个解放双手，优化了 AirPods 录音，边散步边和自己对话的 App。打开 Cursor coding 了一天，第二天就出门去 SoHo 散步就用上了，然后就完全离不开了，一天不落用到今天，录了300多条录音，200多个不同地点，近100小时和自己的对话。这两个半月工作之余的 side project 时间全放在了这个 App 的打磨上，和自己和它的关系也有忽近忽远的变化，有意思的是也用它自己记录了下来。最近在读荣格，说自性化的目标是走向完整，走向完整指的是充分体验所有情感，如何充分体验所有情感？我给的答案是记录。放下手机，出门散步，踏出的每一步，对自己说出每个字，周围记录下来的环境音，路上随手拍的照片，都是值得记录下来的此时此刻。随手录音，AI转录，适配了各种麦克风，privacy first，取名叫 Yuho，Logo是个伦敦的大肥鸽，昨天刚刚上线了，欢迎试玩，有机会一起散步🚶 如果用着感觉还不错，记得向我要 Pro 的兑换码 https://yuho.io

1 757

装 nanoclaw 的时候，发现启用新功能比如对接 telegram 不再是通过在配置里打开一个选项，而是让 agent 直接修改本地代码来实现功能。这一点很有意思，几乎就是 config as code 的彻底反面 — code as config。联想到一些生物学的类比，写了这篇文章。以前软件的"基因"是固定的，所有人跑的是同一份 binary。但当 AI agent 开始直接改源代码本身，每个人跑的软件就开始各自突变、各自演化 — 这是软件的物种分化。由此引出三个有意思的推论：只在你这台机器上出现、别人永远无法复现的 bug；版本号失去意义，取而代之的是追踪每个实例的演化谱系；以及代码最终可能优化到只有 agent 看得懂、人类再也无法理解的程度。最后提了三个对 2027 年的预测：Verification-as-a-Service、Frozen Core 架构、Reverse-SaaS。 https://linghao.io/posts/software-speciation

1 757

周末无聊 vibe coding 了个玩具，模拟 EVA 里 MAGI 系统的三方表决。你输入一个提案，MELCHIOR、BALTHASAR、CASPAR 三个子系统会从各自人格出发思考然后投票，推理过程接了 Gemini 3.1 Flash Lite 实时流式输出，看起来挺有那味儿的。 https://github.com/dnc1994/magi

1 757

https://github.com/dnc1994/jarvis 我最近也做了相关的实践，目前 scope 比上面这位要小得多，只负责管理三类 todo：ad hoc、recurring、project based 配合 *claw，现在不管走到哪，在 telegram 里就可以按照符合自己设想的信息架构的方式去管理 todo 我甚至感觉开源也没什么意义，agents 的厉害之处就在于每个人都可以高度定制自己用的方案。

1 757

非常认同这篇文章的大道至简：https://x.com/koylanai/status/2025286163641118915 每次跟 AI 开新对话都要重新介绍自己、粘贴风格指南、解释目标，作者烦了，于是造了个"Personal Brain OS"。系统本质是一个 Git 仓库，80+ 个 Markdown/YAML/JSONL 文件，不用数据库也不用 API Key。在任何地方只要把仓库拉下来，直接用 Cursor 或 Claude Code 打开就能跑。架构上分成 11 个隔离模块，用三级渐进加载：第一级是路由文件，决定该加载哪个模块；第二级是模块指令；第三级才是具体数据。这样做是为了避免无关内容占用上下文窗口，模型注意力是有限的，塞太多反而变差。文件格式也是刻意设计的。JSONL 存日志，因为它只能追加不能覆写，防止 agent 一不小心把历史数据全干掉（他真的因为这个丢过三个月数据）；YAML 存配置；Markdown 写内容。 Skill 系统分两种：一种是参考性的（比如写作风格、禁用词），自动加载，不用手动触发；另一种是任务型的（比如 /write-blog），必须手动敲命令，一条命令会自动把声音指南、禁用词、模板全部组装好。踩过的坑：Schema 字段别超过 10 个，字段太多 agent 会乱填；像个人风格指南这种最重要的规则一定要放在最开头，放中间会被模型忘掉；模块边界划错了会多加载没用的 token，他把 identity 和 brand 拆开之后节省了 40%。最后结论就是，关键不在于怎么写提示词，而在于怎么设计信息架构，让模型打开对话就知道你是谁、怎么写作、在做什么。

1 757

https://store.steampowered.com/app/3509230/Gambonanza/ 小丑牌火了以后 Balatro-like 层出不穷，但鲜有做得这么出色的。国际象棋玩法容易上手，机制和boss设计可圈可点。

1 757

https://youtu.be/fsLh-NYhOoU Mind blown 🤯

1 757

https://github.com/petergpt/bullshit-benchmark 这个 Bullshit Benchmark 挺好玩的，测试模型是否能够意识到人类提供的问题是无稽之谈。Claude 又屠榜了 🔥

1 757

掐指一算写博客十年了。第一篇文章是 learning how to learn 的课程笔记，发布于 2016 年 2 月 27 日。世界变化得太快。十年前入门深度学习、手搓反向传播的时候，模型能生成一些不那么离谱的图片，感觉挺好玩的但也就那样。一年前的这个时候，AI 界热度最高的新闻大概是 deepseek 证明了训练出一线模型不是御三家的专利。而今天，agents 从 coding 开始降维打击所有的行业。Claude 永远的神。赶着这个日子发一篇文章，记录一下我认为已经到来的拐点：我们已经踏入了一个生产一次性、高度专门化的软件等成本几乎为零的新时代。数据飞轮会越转越快，而最终极的个性化也已经在地平线上了。 https://linghao.io/posts/bespoke-flywheel

1 757

🌟🌟🌟🌟🌟 一开始觉得是个很诡异的片子，但真的好看！ https://www.imdb.com/title/tt18382850/

1 757

https://si.inc/posts/fdm1/ 这个新的 computer use model 有点厉害，号称解决了两个难点： 1. 高质量的有监督视频数据是稀缺的，scale 上不去。解决方案：先用少量有监督数据训练一个 inverse dynamics model（根据视频帧数据预测键鼠输入是什么），再用它去标注了 1100 万个小时的视频数据。 2. video encoder 效率不高，vlm 经常耗费大量 token 只能处理几秒钟的 30 fps 视频输入。解决方案：注意到为 computer use model 所做的视频标注本就是 non causal 的（你得看到视频上打出字来才能知道键盘按了什么），于是基于 masked diffusion 架构去训练 video encoder，最终效率达到了惊人的 1 million token 可以编码 2 小时 30 fps 的视频。解决这两点使得最终模型的训练得以 scale 到一个前所未有的程度。

1 757

关于 OpenClaw 的一些想法： 1. OpenClaw 的成功自然有它的原因，vision 的完成度和 pmf 都是重要的因素。这波浪潮大概率也会写进 AI 发展的历史书。但不可否认它依然存在非常多的问题，这也反映了 agent 实用化的道路上还有很多挑战。 2. 主要问题包括默认配置下 token 消耗量过于巨大，安全性要画一个巨大的问号，容易陷入 config hell 等等。尤其在算力依然具有稀缺性的今天，token 消耗巨大意味着普通用户可能不愿意为这种性价比买单。 3. 能通过 telegram / whatsapp 等 IM 来跟 agent 交互是非常聪明的选择。我一直觉得 IM 是被严重低估的交互入口。 4. 模型能力依然是关键的，如果 base model 做不了最核心的任务，用 OpenClaw 这类 24/7 agent 只会大概率花了钱做不成事。今天的 agent 能力虽然已经很强，但一个 session 进行越久、context window 越长，产出质量还是会不可避免地下滑，哪怕有 compaction 支持。使用 OpenClaw 这类大量使用 token 的 agent 时要尤其小心陷入 garbage in garbage out 的陷阱。 5. 不过这里 tiered compute 就会有用，简单的 task 可以分发给更便宜的 model 甚至本地的开源小 model。 6. 如果愿意折腾，OpenClaw 的主要功能基本都可以通过 Claude Code 的生态来实现。 7. 短期内如果要自己部署类似的 24/7 agent，我比较偏好 https://github.com/qwibitai/nanoclaw 这样的 project：依托于最强的 model、成熟的 harness、良好的社区生态。 8. OpenClaw 背后的 agent harness 核心库值得学习：https://github.com/badlogic/pi-mono 9. 安全性来说，给 agent 完全独立的一套 credentials 而不让他用你个人的账号可能是更好的做法。

1 757

https://linghao.io/posts/ai-memory-negative-space 关于 AI 记忆的一些思考：如何挖掘和利用用户没有说/没有做的事情？

1 757

Repost from C’s Random Collection

每次通勤经过 Tottenham Court rd 地铁站，看到不同的表演，都会想着要有合适的工具来记录就好了。我的想象中不是录像，因为举起手机录像，对自己来说是一个很打断的体验，对对方来说则是有侵入性的。很自然，给自己最近vibe的声音记录App加上了分享功能。终于，它解放了我的双手和双耳：打开App，记录声音，随手一拍，记录图像，然后全身心地享受此时此刻，最后一个链接分享给远方的朋友们。 App 仍在打磨中，stay tuned，不过欢迎点开听听，体验一下我今日3分钟的，生命中的盐。 https://yuho.io/s/T7eiDjAQ7r?token=048f0480ee68e892d9e7fedc4fd6e896d01697cf3bf1c780d8b44e8d6047f7d8

1 757

最近读到最醍醐灌顶的一篇文章：在前沿 AI Lab，进步的瓶颈究竟在哪？ https://hsheng.org/writing/the-real-flywheel/

1 757

https://github.com/dnc1994/post_summarizer_bot 总是有数不清的文章想读，于是让 gemini vibe code 了一个 telegram bot 自动总结存起来的 link，从立项到完成所有基本功能就花了半小时之后有时间会试图做个 eval set 用来调 prompt [旺柴]