石南AI工具导航
登录
网站目录
ChatGPT账号购买

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验!

石南1252024-11-21 17:03:20

2024年9月12日,OpenAI的首个推理模型o1重磅发布。从该模型的命名也可以看出,o1走的路和GPT系列模型不是同一条,否则它就应该被命名为GPT-5了。

推理模型的推理二字,是指模型在回答问题前会主动思考,将一个复杂问题拆解为多个子问题,逐个击破,再生成最终答案。这种方式和我们人类解决难题的过程是一样的,回想如果我们面对一道数学难题,是不是也是同样的思路,先思考,然后一步步解答。这个思考过程被称为内部思维链(internal chAIn of thought)。关于思维链更详细的介绍,可以看我这篇文章:《思维链(Chain-of-Thought)技术的背后,是人类思考问题的方式!》。

o1模型经过了思维链的加持后,在物理、化学和生物学等复杂学科的高难度基准任务上,表现几乎与博士生相当。在数学编码领域则更加出色。在国际数学奥林匹克(IMO)资格考试中,o1模型的正确率达到了惊人的83%,作为对比,GPT-4o的正确率为13%。在Codeforces编程竞赛中,o1的表现达到了第89百分位(即表现超过了89%的评估对象,排名前11%)。

在接下来的几个月里,国内的不少AI公司也在纷纷尝试,但更多的是在应用方面,如Kimi、智谱、天工和360的推理型AI搜索。单就推理模型而言,除了上周月之暗面(Kimi)官宣的数学推理模型k0-math,并没有太多的更新。但由于k0-math还处于PPT阶段,并未真正开放使用,真实体验如何还未可知。

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 第1张

然而,今天文章的主角并不是月之暗面的k0-math,而是DeepSeek(中文名:深度求索)的DeepSeek-R1-Lite。和k0-math的宣传预热阶段不同,DeepSeek-R1-Lite是已经切切实实发布了的对标o1的国产推理模型。

关于DeepSeek

DeepSeek由知名量化私募幻方量化于2023年成立的AI初创公司,专注于开发通用人工智能(AGI)底层模型和技术。DeepSeek的产品和技术以开源为主,包括多个百亿级参数的模型,如DeepSeek-LLM、DeepSeek-Coder,以及混合专家模型(MoE)DeepSeek-V2和V2.5.值得一提的是,该公司以高性价比和性能著称,被称为“AI界的拼多多”。比如,DeepSeek-V2的API定价为每百万Tokens输入1元、输出2元。

在LMSYS聊天机器人竞技场排名榜中,目前DeepSeek-V2.5模型综合排名为22名。

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 第2张

关于DeepSeek-R1-Lite

DeepSeek-R1-Lite是DeepSeek于2024年11月20日发布的推理模型,目前已经发布的为预览版(和OpenAI的o1一样)。根据DeepSeek官方介绍,R1系列模型使用强化学习训练,推理过程包含大量反思和验证,思维链长度可达数万字。该系列模型在数学、代码以及各种复杂逻辑推理任务上,取得了媲美o1-preview的推理效果,并为用户展现了o1没有公开的完整思考过程。

下面是DeepSeek官方放出的基准测试对比图。

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 第3张

DeepSeek-R1-Lite初体验

目前DeepSeek-R1-Lite在DeepSeek官网上免费可用,每用户每天使用数量限制为50次。在这里不得不吐槽Kimi探索版,每人每天只能用5次,我做个测试还得分几天才能测试完。

DeepSeek官网:https://chat.DeepSeek.com/

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 第4张

另外需要指出的是,和o1一样,DeepSeek-R1-Lite也是个纯文本模型,目前不支持解析文件。

1. 几何推理

一个圆的半径为10.在其内部随机选择两点,计算这两点之间的平均距离。

先上结果。这道需要用到积分的题目结果完全正确

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 第5张

附上DeepSeek-R1-Lite长达61秒的思考过程。

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 第6张

2. 组合数学

一个班有12名男生和10名女生,要从中选出6人组成一个小组,要求至少有2名女生,问有多少种不同的选法?

19秒就得到了答案65769.完全正确。并且还附上了一个反向思考的验证过程,有点厉害。

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 第7张

3. 逻辑推理

观察以下数列,推断规律并预测下一个数字:2.6.15.31.56

这道题目,相邻数字的差值为递增的平方数4.9.16.25.所以下一个数字应该是56加36.92.回答正确

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 第8张

4. 真假话推理

三个囚犯 A、B 和 C,分别戴着红帽或蓝帽(但无法看到自己的帽子)。守卫说:“至少有一个囚犯戴着红帽。” A 说:“我不知道我的帽子颜色。” B 说:“我也不知道。” C 说:“我知道了。” 问 C 的帽子是什么颜色?

总算有一道题难倒DeepSeek-R1-Lite了,回答错误。这道题其实可以简单思考,只有A蓝B蓝的情况下,C才能根据“至少有一个红帽”来断定自己的帽子颜色。所以C应该是红色。

经过检查DeepSeek-R1-Lite的思维链,我发现它把自己绕进去了,直到最后也没能绕出来,属于“过度思考”了。

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 第9张

作为对比,附上o1-preview的答案。

国内首个对标o1的推理模型发布:DeepSeek-R1-Lite初体验! 第10张

结语

在测试过程中,我还遇到了中英文思考、输出混乱的问题。但综合来看,DeepSeek-R1-Lite已经展现出了一个推理模型应有的推理能力,并且还是免费使用,值得尝试。


DeepSeek

    本文链接:http://www.jxyuhui.com/post/1801.html ,转载需注明文章链接来源:http://www.jxyuhui.com/

    分享到:
    标签:DeepSeekAI
    • 不喜欢(3
    本文转载自互联网,具体来源未知,或在文章中已说明来源,若有权利人发现,请联系我们更正。本站尊重原创,转载文章仅为传递更多信息之目的,并不意味着赞同其观点或证实其内容的真实性。如其他媒体、网站或个人从本网站转载使用,请保留本站注明的文章来源,并自负版权等法律责任。如有关于文章内容的疑问或投诉,请及时联系我们。我们转载此文的目的在于传递更多信息,同时也希望找到原作者,感谢各位读者的支持!

    本文链接:http://www.jxyuhui.com/post/1801.html

    ChatGPT账号购买

    猜你喜欢

    石南

    暂无个人介绍

    1785 文章
    2 页面
    0 评论
    414 附件
    石南最近发表
    最新文章
    文章推荐
    随机文章
      热门标签
      侧栏广告位
      ChatGPT账号购买
      ChatGPT账号购买