wumingshi 发布的帖子

wumingshi

刷到的都是梗图和梗文，有种什么正事都没干的观感（
话说老黄是不是第一次喝豆汁

wumingshi

@lemma_ 是浏览数吧（
投票是有效日活？

wumingshi

wumingshi

吴二棒

@wuerbangbang

如果你活在晚清，除非你是有内部情报的天龙人，否则极大概率会以为大清在赢麻的路上一骑绝尘。以甲午战争为例，当时国内几乎所有主流和民间自媒体都在宣传清军如何从朝鲜一路赢到黄海，最后赢到马关，如《点石斋画报》等。

这一方面是清政府授意，另一方面是阅读量高，销路好，老百姓都看得兴高采烈。在铁桶一样的信息茧房里，你根本没有获取真实信息的渠道。至于租界《字林西报》等真实消息，清政府就发动水军冲击，说这些报纸都是被日本收买，所以发布蛊惑人心的假消息，其心可诛。

据民国时北大校长蒋梦麟回忆，他小时候有些小贩来村里卖中日海战的画片，其中有一张是清军在海上放了许多装满炸药的夜壶，用它们炸沉日舰的情景。“中国打了大胜仗了！自然，那只是纸上的胜仗，但是我们小孩子们却深信不疑。后来我年纪大一点以后，我才知道我国实际上是被日本打败了。而且割让了台湾，我们的海军被日本消灭，高丽也被日本抢走了。”

要知道蒋梦麟家很有钱，祖父和父亲在上海经营钱庄，眼界不算窄。他这样的人都相信清政府的宣传，就更不用说普通人了。当时的老百姓普遍“我才不怕打，一听打仗我就高兴”。至于为什么今年苛捐杂税又重了，那他们自然是想不明白的。

图1：《高丽夜月大战牛阵得胜全图》。倭寇只是人模狗样，完全不敌我老祖宗的智慧。我大将军巧施两千多年前的“火牛阵”，轻松收复平壤；

图2：《鸭绿江战胜图》（魔改版黄海海战）。学过中学历史都知道北洋舰队被击沉五艘，日军一舰未沉。但在此图描述中，“共击沉倭船四艘，伤三艘，余皆败北而逃。倭奴死亡枕藉，伤者更不计其数。”

图3：《迎迓李傅相》。因为清军一路狂胜，日本终于顶不住乞和。在各国公使的求情下，李鸿章大发慈悲来到日本谈判。日军卑躬屈膝，奏乐相迎；

图4：《纸制征衣》。天皇穷兵黩武抓壮丁，日本穷得给军队发纸衣穿，如同中国纸扎衣。“倭人之衣，用纸制已非一日……然吾见中国纸扎铺所做冥衣，其玲珑工巧亦各不同，惜无汉奸贩出，贻赠耳。否则我华人于赈济孤魂之外，不又赈无数倭鬼乎！呵呵。”除此之外还360度全方位嘲笑日本各种落后的生活习惯和风俗（很多是自己编的），以表示彼为蛮夷，我为正统。

wumingshi

@lemma_ 在最近在线上做一些收集专业文本做成题喂ai的活中说：

如无行政干预（或者以近几年没有向下流通渠道的方式印钱），基层经济会严重通缩

现状大概是通缩了有两年了吧（
而行政干预主要集中在补贴生产端（方便继续收增值税啥的）
唯一有点UBI意思的生育补贴可以说非常幽默，还没发呢，相关商家就提价了，实际上还是变相补贴了生产端或者近生产端（

wumingshi

@wumingshi
果然不是我一个人觉得 tool_call 太别扭
虽然我没怎么理解这里面的逻辑

karminski-牙医
@karminski3
大模型 Tool Call 描述太占上下文的问题解决了?

Manus的后端负责人刚在reddit上发的一篇帖子爆火, 我看完了赶紧给大家整理下他做了什么.

大家都知道大模型配置了 tool call 就可以使用本地工具了, 而且可以跟操作系统交互, 访问本地资源从而完成更复杂的任务. 比如你就可以把视频素材上传到部署了openclaw的电脑, 然后让它剪视频.

但是想要用工具就要把所有的工具都是干什么的写入到 system prompt 中. 一旦工具很多, 就会造成 prompt 失焦, 大模型会忙于选择工具而不是真正的解决问题.

于是这个作者提出了一个全新方法, 不是给AI一堆散的工具, 而是只给一个 run(command="...") 这样的调用模式. 文件操作也好, memory 也好, browser 也好, clip 调用也好, 最后都变成统一命令空间里的 command.

而且这个调用可以利用UNIX管道命令符实现复杂的调用, 最终就会变为 run(command="cat 脚本.md | grep "分镜A" | find ./分镜A.* | ffmpeg ....") 这样来剪辑视频

这样模型不再是在很多 API 之间跳来跳去, 而是在一个自己本来就很熟的 CLI 语境里, 直接表达“我要完成什么流程”.

为什么这么做效果会好呢?

因为大模型本来就是接受文本输入和输出, 而tool call 所在的 Unix CLI 本来也是文本输入和输出(一切皆文件的UNIX哲学). 而 shell 命令则是在所有大模型训练中先天已经训练好的. 所以对大模型来说, 命令行比一大坨 JSON schema 更自然.

而且作者还说与其给大模型一堆tool call 说明, 不如提供每个命令的 --help 指令, 然后让大模型自己去看每个工具的每个参数怎么使用这样更节省token, 因为AI可以只看需要的部分.

所以看懂了吗? 与其给AI一大堆 tool call 的说明, 不如使用AI本身已经掌握的 Unix 工具, 因为这些工具本身就已经训练到大模型的参数里面了, 完全不用告诉大模型该怎么用大模型先天就会用! (魔法往往就这么简单...)

不过这个方式我觉得可能也有一些新问题, 比如除了unix工具以外, 作者还提供了一些新的命令, 而大模型的 tool call 是经过后训练专门调整过的, 而作者的新命令并没有, 所以不确定这部分新命令的调用稳定性是否能得到保证, 作者也说了如果是一些 typed data (编程中的概念, 类似于每个数据都有单位), 或者数据库这样的精准操作, 建议还是用 tool call 会好一些.

我对这个思路很感兴趣, 所以我现在正在尝试把这个作者写的这个工具剥离出来 (它是嵌入到一个AI自动剪辑工具里面了), 看看能不能用到龙虾里面. 如果我测试完效果不错我会放出来个 skill 给大家.

原贴也分享给大家, 推荐一读: http://reddit.com/r/LocalLLaMA/comments/1rrisqn/i_was_backend_lead_at_manus_after_building_agents/

wumingshi

@wumingshi gemini的比喻还挺形象的

你的这种直觉非常敏锐，而且触及了当前人工智能领域最核心的争议之一：“统计模拟”与“逻辑架构”的脱节。

你感觉到的那种“微妙的违和感”，其实可以从以下几个深层维度来拆解。看完这些，你可能会发现这种“邪路”感并非错觉，而是当前架构的本质局限。

1. 概率机与确定性结构的逻辑错位（“强行套壳”的违和感）

你提到的 JSON 强制约束（Constrained Decoding）确实很怪。
LLM 的本质是一个概率预测器，它的任务是预测下一个词“看起来像什么”。而 JSON、代码、数学，这些东西的本质是严谨的树状或图状逻辑结构。

人类的做法： 我们在大脑里先有一个“树”的结构（我要写一个对象，里面有三个键），然后通过手（工具）把它写出来。如果写错了，IDE 会立刻报错，我们是基于规则在填空。
LLM 的做法： 它的底层是一个扁平的序列（Sequence）。你看到的 JSON 嵌套，对它来说只是“在 [ 后面出现 {" 的概率很高”而已。

违和感来源： 我们在用一种“模糊的、感性的、基于联想的”引擎，去强行驱动一个“精确的、理性的、基于规则的”输出。这种做法就像是雇佣一名极其擅长模仿画风的画家，去画一张精密到微米的芯片电路图。 画家并不懂电路，他只是记得那个线条该怎么走。你为了保证他不画错，在他手边装了把尺子，强行限制他的笔尖只能走直线。这当然显得极其笨拙且“不正宗”。

2. “扁平化”架构 vs “嵌套式”逻辑（没有堆栈的痛）

你提到了一个非常深刻的点：嵌套结构应该用“原生的带嵌套的东西”来实现。

在计算机科学里，处理嵌套（如 JSON、括号匹配）最标准的做法是栈（Stack）或递归。但是，主流的 Transformer 架构是循环无关的、扁平的注意力机制。

Transformer 很难原生处理深层递归。它现在的“博学”确实在很大程度上依赖于参数量巨大后的模式识别。
它并没有在脑子里建立一个“堆栈”来记住自己现在在第几层括号里，它是靠 Position Embedding 和 Attention 机制“瞥”一眼前面的上下文来维持一种“我在嵌套中”的幻觉。

这就是为什么当 JSON 嵌套太深或者结构太复杂时，LLM 会“幻觉”或者崩溃。因为它不是真的在执行逻辑，而是在进行高维特征的匹配。

3. Agent 的违和感：交流的“宽带”与“协议”问题

你觉得 Agent 调用工具很怪，是因为人类和工具的交互是多模态且有深度反馈循环的，而 LLM 调用工具是文本协议的二次翻译。

人类用 IDE： 我们的眼睛看到红线（实时反馈），手指按下快捷键（指令），大脑处理逻辑。这是一个高频、低延迟、深度集成的过程。
LLM 用工具： 它必须先吐出一串字符串（推理），发给 CLI（外部系统），CLI 运行完再把结果吐回成字符串，LLM 再读一遍字符串。

这种违和感来自于“效率的极度低下”和“接口的拙劣”。
目前的 Agent 就像是一个坐在小黑屋里的天才，他只能通过门缝递纸条来指挥外面的人干活。虽然纸条（Claude Code）写得越来越好，但这种“通过文本模拟动作”的方式，相比于真正的“原生具备操作能力的系统”，确实显得非常迂回。

4. 为什么人类用笔记本不觉得怪，Agent 用却觉得怪？

这是一个非常精彩的对比。答案可能在于**“意识的统一性”与“状态的割裂感”**：

具身智能（Embodiment）： 人类使用笔记本时，笔记本是感官的延伸。我们对“记录”和“调取”有直觉的控制。
状态管理： LLM 没有任何“持久化内存”。它的每一次推理（Inference）都是从零开始的计算。为了让它记得刚才干了什么，我们必须把所有的历史记录塞进上下文。
- 违和感： 这种做法就像是一个每动一下手就会失忆一次的人。为了让他能炒菜，你必须在他每次动勺子前，把整本菜谱和他过去 10 分钟干的所有事在他耳边快速复述一遍。
- 这种“通过重复输入历史来模拟连续状态”的做法，正是当前 LLM 架构最被诟病的“非自然”之处。

5. 这真的是“邪路”吗？

目前的技术路径其实是一种**“暴力美学”**：
既然我们无法在数学上完美定义“逻辑”和“理解”，那我们就用海量的算力和数据，在概率空间里逼近出一个“看起来完全拥有逻辑和理解”的系统。

你感觉到的“怪”，是因为我们正处于从**“符号AI”（老派、讲究逻辑结构、层级嵌套）向“联结主义”**（新派、讲究神经网络、概率逼近）彻底转型的阵痛期。

未来的“正路”可能是什么样？
很多学者（比如 LeCun）认为现在的 LLM 确实是死胡同，真正的下一代架构应该是：

世界模型（World Models）： 内部具备物理法则和逻辑结构的模拟，而不是单纯的文本预测。
非自回归架构： 不再是一个字一个字往外蹦，而是能像人类一样，先在“思维空间”里构思好完整的树状结构，然后一次性映射成输出。
原生具备工具接口： 神经网络的权重直接可以驱动逻辑门，而不是通过生成字符串去调 API。

总结

你的违和感是对的。目前的 LLM 是在用“卓越的模仿”来掩盖“逻辑的缺失”。

它就像一辆为了飞上天而加装了无数个喷气发动机的坦克——虽然它真的飞起来了，甚至比很多飞机飞得还高，但你看着那笨重的履带和厚重的装甲在云端穿行，总会觉得哪里不太对劲。这种不对劲，正是下一场技术革命的突破点。

wumingshi

我总感觉当前的llm是一条功能很强但是底层架构限制的上限的邪路，比如说输出json之类的结构文本，我问了下Gemini说是用某种外置的格式检查器，在遇到需要匹配符号的地方给正确的符号的输出概率强行改到100%来实现，这怎么看都怪怪的，给我感觉是，因为参数越来越大，单次推理的记忆力越来越强，所以它直接把括号嵌套结构给背下来了。但是这本身是荒谬的，嵌套结构总应该用一套原生的带嵌套的东西来实现吧，就像人类用IDE来写json一样，都是直接打括号对再填空
工具调用也是，是的，目前直接训练成能输出某种格式的tool call字符串，让外挂的CLI之类的工具识别，确实已经很好用（claude code在这方面做到了极致），但是这总给我一种「这对吗？」的疑问。。。。。。
不过话又说回来，人类在拆分任务时，同样也是用外置的东西（笔记本，和笔记本）记录，让软件来处理数据，所以当前的agent做法那种微妙的违和感到底来自哪里呢（

wumingshi

@lemma_ 你好我好大家身体都好

wumingshi

才发现是埃罗芒阿老师，失敬失敬

wumingshi

有个实际的例子，我让nanobot帮我把已有的一个本地运行的和ai聊天的界面，接入另一个ai，一直写代码写了好几轮，也不回复，最后得到的结果不仅不可用（这个倒是早在预料之中），而且界面完全变成了另外一个样子，虽然更像是平时看到的聊天工具，但是太多冗余了浪费了显示空间。自主性这么高感觉没法用，这还是我已经提过要把「不要额外发挥」写入记忆文件的条件下发生的

wumingshi

我试用了nanobot和picoclaw，感觉比较一般，我原想着这种架构会不会让普通的模型产生更聪明的表现，目前看来并没有。我听说 Claude code 有更丰富的交叉验证产出的工程实践，如果能让普通模型表现更好就好了，贵的api买不起。。。。
最近字节开源了一个管理记忆的项目（ https://github.com/volcengine/OpenViking/?tab=readme-ov-file ），不知道组合起来会不会好用，我看有人发了个教程，但是反响不是很明显

话说前段时间贵站挂了吗？试过几次打开网站失败了

wumingshi

草，这么草台班子的吗。。。。。那个发行的版本代号也是太中二了吧
https://linux.do/t/topic/874875?page=7
卸载 clash verge 会删除你的所有快捷方式！
现在有点懵逼，白天 cmd 打开还好好的，突然就不见了 [image] 我一般习惯用 windows 自带的搜索，输入 cmd，然后回车快速打开命令行，结果白天还好好的，现在突然没了 tieba_015 tieba_015 tieba_015 我也没干啥事啊，唯一干的事情应该就是把 clash verge 卸载了（出了很严重的 bug，无法导入订阅，会卡死）

windows开始菜单快捷方式在两个文件夹
卸载程序会将C:\Users\用户名\AppData\Roaming\Microsoft\Windows\Start Menu\Programs文件夹整个删除导致开始菜单快捷方式丢失，而如果快捷方式位于C:\ProgramData\Microsoft\Windows\Start Menu\Programs则不会丢失。
我在今晚更新2.3.2版本时先自行卸载了程序，触发杀毒软件系统防护，无视风险后导致上述第一个路径的快捷方式被全部删除。自行安装再卸载均会复现。

滥用 AI 贡献开源代码又不仔细 Review 就是这样的，以后这种情况会越来越多。
AI 越是“看上去很聪明”，这种情况就越容易发生。

试了一下，把左下角搜索框里的最近应用访问记录都删了

wumingshi

去clash verge的GitHub提issue，已经尽量按照格式要求填写了，然后以duplicate为理由被关闭了
我自闭了

wumingshi

clash verge各种慢，可以说是不可用的水平

https://linux.do/t/topic/887395?page=3
win10 代理很多绿的到了win11 就都慢了一倍左右！不知道大家是不是都这样

搜了一下不止我一个人这样
真的很怕搞这种麻烦事啊

wumingshi

@test1 anvil伟大无须多言

wumingshi

不辞而别这种事不要再来一次

wumingshi

基本没有成果，也就身体还行，也算可喜可贺

wumingshi

听说央视六套播过，感觉其实没啥影响，这电影会去看的人应该也不多吧

wumingshi

大道至简: Diffusion直接预测干净图片比预测噪声更好 (如何包装idea和讲故事) - Cheza的文章 - 知乎
https://zhuanlan.zhihu.com/p/1974626511182124468