咸咸湿湿
Open in Telegram
最💗新💗最💗热💗咸💗鱼💗资💗讯
Show moreThe country is not specifiedThe category is not specified
203
Subscribers
No data24 hours
-17 days
-130 days
Posts Archive
203
Repost from 煎蛋无聊图
杯面骑士: jandan.net/t/6127273
OO: 149 XX: 4
蛋友17035a3318e9a: shut up and take my money
OO: 18, XX: 1
af1aa: 方丈,我要买这个
OO: 11, XX: 0
203
Repost from 煎蛋无聊图
杯面骑士: jandan.net/t/6127232
OO: 177 XX: 1
fx3: 过气武器再就业
OO: 34, XX: 0
蛋友e5e2e28d0c666: 晾的不是战衣不是很认同
OO: 6, XX: 1
203
Repost from 煎蛋无聊图
制式仪刀: jandan.net/t/6126524
OO: 126 XX: 6
猪皮: 豆包:噬甜、一天好几斤、浑身难受,结论:高度指向糖尿病患者
OO: 57, XX: 1
203
总结:
A770 上基本只有 llama.cpp 能用
用 llama-bench 跑分时,Vulkan 后端分数显著高于 SYCL 后端。但实际运行 llama-server 时,prompt processing 根本到不了那个性能,处理只有一个 token 的 prompt 也要半分钟起步,有时候还会直接卡死。SYCL 性能基本符合 llama-bench 的数据。
不能使用 unsloth 的量化模型。测试了 unsloth 的 Q4 和 IQ4 量化 Gemma 4 26B-A4B、千问 3.5 35B-A3B 均不能正常使用。Gemma 4 会只会循环输出一个字母,不会自动停止。千问略好一点,偶尔能正常对话(但思考过程会特别啰嗦),但时不时就会像截图里这样进入打环状态。此外我还发现,询问 "Who are you?" 几乎 100% 能让它开始输出 gibberish,同时还会搞坏 KV cache,让后续输出变成更多 gibberish。
得在命令行参数里关闭 FlashAttention,不然会在 warmup 阶段卡死。
后面发现用 SYCL 后端勉强能跑非 unsloth 的模型,用 Gemma 4 26B-A4B 和千问 3.5 35B-A3B tg 都差不多是 8tk/s。pp 没看,反正慢。
超级灵车,中间一度以为我显卡坏了 😇
203
要避免要注意要避免要注意要保持要保持要保持要避免要保持要注意要注意要保持要保持要避免要保持要避免要避免要注意,要避免要保持,要注意要保持要避免要避免要注意要避免要保持要注意要避免要避免要注意要避免要保持要保持要注意,要避免要避免要保持要避免要注意要保持要注意要保持要保持要注意要保持要避免要避免要注意要保持要避免要注意要保持要避免,要避免要注意要避免要注意要保持要注意要避免要避免要避免要注意要注意要注意要保持要注意要避免要保持要注意要注意要避免要注意要注意要避免要保持要保持要避免要保持,要避免要避免要保持要注意要避免,要注意要保持要避免,要避免要避免要注意要避免要保持要注意要避免要注意要保持要保持要保持要保持要保持要注意要保持
203
Repost from 煎蛋无聊图
制式仪刀: https://jandan.net/t/6125204
大老鼠
OO: 147 XX: 2
我可能是朵向日葵: 大耗子
OO: 13, XX: 1
Available now! Telegram Research 2025 — the year's key insights 
