新闻资讯

AI界拼多多DeepSeek实力如何?几轮实测后我有了答案

  

AI界拼多多DeepSeek实力如何?几轮实测后我有了答案

  豆包、通义千问等AI大模型★★★,能力较低的版本差不多也是这个价格★,但性能较强的大模型如Doubao-pro-128k,输入价格5元/百万tokens★,输出价格为9元/百万tokens,Kimi的moonshot-v1-128k输出价格更是高达60元/百万tokens。(注明:数据来自AI公司官方)

  一时间小雷怀疑,是不是经过这段时间的训练,所有大模型都能计算出该问题的答案了,于是小雷又测试了几款大模型★,结果豆包和文心3.5依然未能回答正确,分别给出了3人和12人的答案,升级了k1视觉思考模型的Kimi和讯飞星火则给出了正确答案。

  在本轮测试中,DeepSeek的表现堪称优秀★,所有问题全部答对、解答速度快★、有思考步骤,反而是赫赫有名的豆包、文心3.5再次折戟★,未能解答出第三道题★★,DeepSeek表现出的实力远远大于它的名气★★。

  金融问题相关测试中,小雷仍未开启联网搜索功能,DeepSeek给出的答案中规中矩,与其他AI大模型拉不开差距★★★,但这已足够证明DeepSeek的优秀,毕竟它的训练成本仅557.6万美元★★★。

  此前的测试中,唯有付费版o1-preview计算出了该问题的正确答案,豆包、Kimi、文心3.5、免费版GPT-4o等大模型全部回答错误。令小雷没想到的是,DeepSeek居然给出了正确答案。

  测试DeepSeek-V3之前★★,小雷有点看不起这款大模型★★★,OpenAI训练GPT的成本以★“亿美元”为单位,一个训练成本仅557.6万美元的AI大模型,表现能高到哪去?结果实测结果狠狠给了小雷一巴掌。

  OpenAI CEO山姆·奥特曼曾表示★★,GPT-4的训练成本大约1亿美元(约合人民币7★★.3亿元),未来训练大模型的成本将高于10亿美元★。尚未完成训练的GPT-5大模型,为时约半年的一轮训练就消耗了大约5亿美元,可见AI公司的支出成本有多高。

  在DeepSeek取得两连胜后,小雷决定给AI大模型上一上强度,拿出了曾经击败过多个AI大模型的第三道题:

  小雷用豆包和Kimi收集新闻时,豆包回复的内容文字太多,内容不够简洁清晰,Kimi则过于精简★★★,新闻的总结基本只有一句话。

  好在,尽管DeepSeek-V3的大模型主打开源和API接口使用★★,但也为用户准备了可以便捷使用的网页版★★。只要对其测试一番,对比与主流大语言模型的差距,我们就能获知DeepSeek的真正实力。

  与大多数大模型相同,DeepSeek给出的内容遗失了太多重点,尤其是《潮流数码白皮书》给出的部分事例,DeepSeek完全没有归纳出来★。(著名:浅色部分为思考步骤★,深色部分为正文)

  这一轮测试中★★,所有AI大模型给出的答案大同小异,均能准确解读市利率变化和债券价格的关系,并给出一些投资建议★★★,包括分散投资★、缩短久期、投资债券基金等方案★。

  针对DeepSeek-V3★,小雷准备了四轮测试,包括通用问答★★、内容总结、专业数学题、金融知识问答★★★,部分测试还将与豆包、Kimi等大语言模型进行对比,以便于更直观地观察DeepSeek-V3的能力。

  25年1月7日★★★,CES(国际消费电子展) 2025 即将盛大开幕★,雷科技报道团已飞赴美国现场整备,届时我们将对CES展开全程专业报道,敬请关注★★★。

  在数学题解答中,小雷先后准备了三道数学题★,第一道题是较为简单的小学数学题,第二道题则是经典的三门问题,DeepSeek全部轻松回答正确★★,因而小雷不再展示AI给出的答案,小伙伴们可以自己思考一下。

  AI大模型基本存在相同的问题,总结内容时容易变成“归纳大纲和标题”,导致大量信息无法展现出来★★,用户仅凭“脑补”也难以还原出原本内容。

  当然,DeepSeek也确实做到了花小钱办大事★★,通过更先进的MoE架构、多技术融合优化★、FP8混合精度训练框架等技术★,以及与开源社区合作的方法,在成本较低的情况下,就训练出文字生成和逻辑推理能力不输乃至领先主流AI大模型DeepSeek-V3★★★。

  在数学题解答项目中★,即便面对豆包、文心3★★★.5都未能给出正确答案的难题,DeepSeek依然迅速解出答案。讯飞星火和Kimi上次测试给出了错误答案★★,这次成功答对★★★,进步幅度不小。

  对于以文字生成为主要需求的用户来说★★,DeepSeek-V3是一款不错的AI大模型,但若有更多需求,如写长篇小说、创作图片、投资计算,豆包★★★、Kimi等免费服务的AI大模型及其提供的智能体或许更合适★★★。

  某班有39名同学参加短跑、跳远、投掷三项体育比赛★★★,人数分别为23人、18人、21人★★★,其中三项比赛全部参加的有5人,仅参加跳远的有3人,仅参加投掷的有9人,请问仅参加短跑的有多少人?(正确答案★★★:9人)

  作为一名科技编辑,小雷每天都会向AI询问“今天科技圈有什么新闻”,让AI大模型帮助我快速收集新闻,绝大多数大模型也能够轻松胜任。于是★,小雷将其作为第一轮测试题目。

  豆包、文心一言、ChatGPT等★,则在朝着“万能大模型”进发,即Any To Any,用户可以输入任何模态的内容,并输出任何模态的内容。针对许多专业领域★★★,豆包、文心一言纷纷推出了对应的智能体★,涵盖生活★★★、学习★★★、创作等方方面面★★★,这是DeepSeek远不能及的。

  训练成本高昂、竞争愈发激烈已成趋势,未来几年国内外将有大量AI公司倒闭,如何开源与节流已成AI公司必须思考的难题★★,DeepSeek降低成本的方法值得其他AI公司学习。

  DeepSeek页面极为简洁,主框仅有深度思考★、联网搜索、上传文件、发送四个按钮。如果不打开联网搜索功能,将无法搜索网上相关的信息★★,只能当作本地大模型使用,且深度思考和联网搜索无法同时开启,但依然需要电脑联网将问题发送给DeepSeek。

  部分小伙伴看到这里可能就会觉得★,DeepSeek花几百万美元就能训练出这么优秀的大模型,OpenAI、百度★★、字节跳动都是在浪费钱★★。其实不然★★★,DeepSeek纵然在逻辑推理方面表现出色,但其功能缺乏是最大的问题,无法用于创作图片★★、PPT,也不提供智能体可选,功能相对较少。

  除了能够正确回答问题★★,DeepSeek还够详细展示了思考步骤★★★,部分问题还会反复验证答案,甚至使用其他方式再计算一次,而且解答问题的速度更是独一档★★★。

  本着求真的心态,小雷又进行了几次测试,发现未联网状态下询问西方古典音乐时★,DeepSeek给出的回答是英文★★,询问中国相关的音乐内容,如周杰伦的歌曲★★,DeepSeek就会是中文。DeepSeek居然是根据回答内容的相关性选择语言,而不是提问所用的语言,令小雷多少有点诧异。

  几轮测试下来★★,除了几乎所有大模型都存在丢失重点的内容总结环节,其他几轮测试DeepSeek都拿到了高分,表现丝毫不逊色国内赫赫有名的文心一言、Kimi、豆包等AI大模型。

  网上金融相关的信息过于繁杂★★★,查询、挑选★★、提纯信息的流程也较为麻烦★★,AI能很好地解决这一问题★,帮助我们汇集相关信息并提取有用的内容。

  当市场利率上升或下降时,债券价格会如何变化?投资者应如何应对利率波动以保护债券投资组合价值★★?

  总而言之★★★,在常规问答项目中,DeepSeek表现出色,无论是联网状态还是非联网状态都能准确回答出小雷提出的问题★,表现丝毫不逊色豆包、Kimi等国内第一梯队的AI大模型。

  DeepSeek官网的价格表示显示,缓存命中输入价格仅为0.1元/百万tokens★★,缓冲未命中输入价格为1元/百万tokens,输出价格则为2元/百万tokens,在诸多AI大模型中属于最低的一档。(注明:1token约等于1★★★.5个汉字或3个英文字母)

  本文为澎湃号作者或机构在澎湃新闻上传并发布★★,仅代表该作者或机构观点★★,不代表澎湃新闻的观点或立场★,澎湃新闻仅提供信息发布平台★。申请澎湃号请用电脑访问★★★。

  DeepSeek为我寻找了10条新闻★,新闻之间用分割线划分,视觉上更加清晰明了。每一段新闻的末尾,还会提供可一键直达的网页链接★★。该项目的测试中★,DeepSeek的亮点在于★★,新闻的总结简洁且突出了重点★,所收集的内容也不局限于国内平台★★,部分消息来自海外新闻媒体★★★,点击链接可直达海外的新闻网站。有趣的是★★,DeepSeek还找到了自己的“黑料”★,DeepSeek-V3大模型会称自己是ChatGPT★★★,山姆·奥特曼发文回应,认为原因是数据污染。

  在之前大模型横评中,小雷曾让豆包、Kimi、文心一言、讯飞星火等多款AI大模型总结小红书发布的《潮流数码白皮书》★★★,结果大模型总结出的内容普遍缺失重点★★,有车轱辘话来回转的情况★★★。

  随后小雷还让AI推荐几首古典音乐,在未联网的状态下★★,DeepSeek依然可以准确回答我的问题,只是所有内容全部变成了英文。而切换至联网模式后,再次提问相同的问题,回答的内容则又变成了中文。

  DeepSeek-V3超低的训练成本和最低一档的输入、输出价格,令人不禁疑惑,到底是其他AI公司资源利用率太差,还是DeepSeek技术实力太强,抑或DeepSeek-V3的能力是吹的?

  就生成的内容而言,DeepSeek的表现与Kimi★★、文心一言较为接近,略强于讯飞星火★,稍逊于豆包。能够达到这个效果★★★,已经很出乎小雷的意料了。

  然而在AI行业却有一个异类,被广大网友奉为“AI行业的拼多多”,这家公司就是DeepSeek(深度求索),网传其大模型训练成本压缩到极致,最新推出的DeepSeek-V3大模型训练成本仅为557.6万美元(约合人民币4070万元),大概是GPT-4的二十分之一,总计约消耗了278★★★.8万个GPU小时★,参数为6710亿,其中激活参数为370亿★★。

  面向所有消费者的大语言模型,至今大多仍免费提供服务,反而主攻是B端市场和主打专业功能的AI大模型,逐渐收费服务★★。C端市场用户众口难调,且许多人不愿意付费使用,唯有打造专业使用场景,面向有对应需求的用户★★★,AI公司方能有机会实现盈利。因而在第四轮测试中★★★,小雷准备了一道金融知识问题:

上一篇:中证海外内地股可选消费指数报398210点前十大权|3044永利集团最新链接重包含安踏体育等 下一篇:智慧农业的进化之路拼多多做对了什么?

Copyright © 2012-2023 yl6809永利官网,304am永利集团官网,304am永利集团官网网站 版权所有   粤ICP备xxxxxxxx号