【新智元导读】领导工程师Riley Goodside小哥,依然在用「Strawberry里有几个r」折磨大模子们,GPT-4o在无尽次PUA后,仍是被原地逼疯!比拟之下,Claude刚硬拒却PUA,是个大贤达。而谷歌最近的论文也揭示了本色原因:LLM莫得充足空间,来存储计数向量。
Strawberry里究竟有几个r,如今仍是成为测试模子本领的黄金标准之一了!
就在昨天,堪称全国最强模子Reflection 70B在施展我方的性能时,根据之一即是「反念念微调」新算法能让我方创新对Strawberry勤恳的颠倒酬谢。
好多东谈主说,当今好多大模子仍是学会数strawberry中有几个r了。
18+动漫实验只怕莫得这样逸想。
照旧Riley Goodside小哥,此次又发现,ChatGPT依然数不清Strawberry里有几个r。
况且这一次av天堂网,他给GPT-4o上的是极限难度。