
嘿, AI 爱好者们!我是 Ali,AIMOJO 的创始人。自从聊天机器人连两句话都说不出来的时候起,我就一直痴迷于人工智能。
那时候 AI 感觉就像是某个庞大事物的草图,现在呢?每天都有令人瞠目结舌的事情发生——想想 ChatGPT、Grok,以及大型语言模型 (LLM) 的最新突破。
那么,让我们深入探讨一个大问题:法学硕士 (LLM) 实际上能多好地解决复杂、混乱的挑战?
什么定义了“混乱”的问题?
杂乱无章的问题并不是简单的“5 乘以 7 等于多少?”之类的脑筋急转弯。它们会让你感觉像是蒙着眼睛拼拼图一样——到处都是碎片,没有明确的起点。这些问题从多个地方获取信息,并要求逻辑跳跃将它们联系在一起。

- 第四步:认识到“Power”采样了King Crimson的“21st Century Schizoid Man”。
- 第三步: 确认 King Crimson 的乐队领队是 Robert Fripp。
- 第四步:确定弗里普的出生年份—1946 年。
这是一个多跳问题。你不只是回忆一个事实;你正在把它们串联起来。 这是推理,而不是死记硬背,这是对法学硕士 (LLM) 的完美测试。
为什么这很棘手
杂乱的问题会阻碍模型的运行,因为它们依赖于跨领域的连接点——音乐、历史、流行文化。错过一个环节,整个答案就会崩溃。
FRAMES 数据集:法学硕士 (LLM) 的压力测试
研究人员建造了 FRAMES 数据集来查看 LLM 如何承受压力。 发表于 2024 年的论文 这是一个集合 824 个多步骤问题。 这些涵盖推理、数学、逻辑和基于时间的推理——例如根据历史线索计算某人的年龄。

重要的数字
当顶尖法学硕士在没有帮助的情况下解决 FRAMES 问题时,他们的得分约为 40%的准确度. 还算不错,但不够耀眼。
然后研究人员给了他们一条生命线:通过以下方式获取外部信息 检索增强生成 (RAG)。这样一来, 准确率跃升至 66-73%,具体取决于设置。这是一个巨大的飞跃,表明 LLM 在适当的支持下会更加出色。
深入研究
FRAMES 论文指出,有些问题需要多达六个推理步骤。例如:“如果一位历史人物在 35 年的事件中 1945 岁,而他的兄弟姐妹在 3 年后出生,那么这位兄弟姐妹在 1980 年时多大了?”这集数学、时间线跟踪和推理于一体——非常难!
检索增强生成 (RAG):增强背后的技术

RAG 就像给一个 LLM 快速研究助理。流程如下:
为什么它有帮助
LLM 不会将所有事实都存储在训练数据中。RAG 填补了这些空白。在 FRAMES 中,40% 的基线飙升至 66-73%,证明它改变了多跳推理的游戏规则。
渔获
它并非万无一失。如果搜索到不相关或嘈杂的数据,LLM 仍然可能会出错。YouTube 上的一段视频显示,一个模型误解了一份模糊的文档,在某些情况下准确率下降了 15%。
法学硕士 (LLM) 的难点

模式匹配与真实逻辑-证据
A 2024 年麻省理工学院 CSAIL 研究 研究表明,大型语言模型 (LLM) 在熟悉的任务上表现出色,但在处理新场景时却遇到了很大困难,更多地依赖于记忆而不是真正的推理。 研究测试模型 在反事实任务中,例如改变国际象棋位置和非十进制系统中的算术,准确率会急剧下降。
社区创新驱动未来 AI 推理
推动法学硕士解决现实世界中棘手问题的努力并非只针对大公司,而是一项全球性的草根性努力。想想早期的互联网氛围:混乱、混乱,充满大胆的想法。开源项目和分散工作正在引领 AI 推理 进入这个令人兴奋的空间。

开源巨头
社区正在大量生产与巨头相媲美的工具。 拥抱脸:他们的平台承载着 100,000 款车型, 其中成吨的 推理任务——就像把多个步骤的线索拼凑在一起一样。他们的变形金刚图书馆?这简直就是瑞士军刀 AI 现在研究。
那就是了 艾柳特人工智能,一群叛军建造了 GPT-J,这是一款开源野兽,在 FRAMES 等基准测试中与 GPT-3 不相上下。这不仅很酷,还证明了任何拥有像样装备的人都可以帮助 LLM 更聪明地解决复杂的难题。
去中心化胜利
多样性推动突破。 艾伦人工智能研究所 放弃了 弧(AI2推理挑战赛)这是一组棘手的科学问题数据集,迫使法学硕士逐步推理。与此同时, Kaggle比赛 吸引全球人才来解决复杂的任务,提出实验室都可能错过的想法。
单人玩家也大放异彩。2024 年的一篇 arXiv 论文揭示了一项新的注意力调整,将长上下文推理能力提高了 15%。这正是法学硕士在解决复杂的现实世界问题时所需要的优势。
将其与棘手问题联系起来
杂乱无章的事情(比如从一堆杂乱无章的提示中挖掘出事实)需要能够灵活思考和串联各个点的法学硕士。社区努力通过以下方式实现这一点:
这不仅仅是炒作——它是推动法学硕士走向现实世界的引擎。
推荐读物:
总结
LLM 令人眼花缭乱,但棘手的问题却暴露了它们的局限性。RAG 极大地提升了 LLM 的竞争力,而像 Sentient Chat 这样的新面孔则预示着未来的发展方向。作为 AI 极客,我迫不及待地想看看这一切将如何发展。
你在攻读法学硕士时遇到过一个棘手的问题吗?请发表评论 - 我很想听听你的看法。
坚持 爱莫乔 更多 AI 冒险——我们才刚刚开始

