DeepSeek-R1 大模型自问世以来,凭借其卓越的逻辑推理能力、高效训练及开源特性,迅速在全球AI领域占据一席之地,被誉为新时代的“斯普特尼克时刻”。其广泛应用已在多个行业引发变革,用户数量爆发式增长,移动端日活突破4000万。然而,用户激增也给 DeepSeek 官方服务带来巨大压力,服务器资源饱和导致频繁报错。正是基于这样的市场背景,各类替代服务方案应运而生,众多云服务商、芯片厂商及国内厂商如阿里云、华为云、腾讯云等纷纷接入 DeepSeek-R1 。

 

作为国内领先的可观测与应用安全厂商,基调听云对多家 DeepSeek-R1 API服务商进行了全面评测,并发布了《大模型服务性能评测 DeepSeek-R1 API版》第一期。该评测通过模拟真实用户行为,从网络性能、接口响应时间、推理速度、内容生成速度等关键指标,对主流云服务厂商的API接口进行了深入测试。在第一期评测中,我们发现火山引擎在API响应性能上全面领先,各项指标均优于其他服务商,可用性高达99.83%,是API接入的首选。相比之下,DeepSeek 官方服务虽推理速度较快,但首Token延迟过长且可用性较低。其他服务商如硅基流动可用性较高,而腾讯云与阿里云百炼的速度表现不尽理想。这些数据揭示了不同服务商在性能上的显著差异。

 

本期测评,我们旨在进一步深入探讨 DeepSeek-R1 大模型服务的性能表现。在当前市场环境下,随着第三方服务商的增多,用户选择面临更多考量。我们希望通过持续、多维度的评测,为广大开发者和终端用户提供更全面、更具参考价值的决策依据,帮助大家找到最适合自身需求、最稳定高效的 DeepSeek-R1 服务。

 

TL;NR(太长不看版):

(1)经过对多家主流云服务厂商API接口的深度评测,阿里云百练在 API 响应性能上全面领先,各项指标均显著优于其他服务商。

(2)DeepSeek 官方虽推理速度较好,但首 Token 延迟过长且可用性低,成为显著短板。

3联通云虽然性能较差,但是首Token时间是最快的。

(4)其他服务商表现分化:火山引擎可用性较高。

(5)天翼云,欧云,联通云和移动云是不支持推理速度的。

(6)如果你不是开发者,只关心哪里能用 DeepSeek-R1,直接拉到文章结尾看我们的推荐网页版服务。

 

测评结果及解读

数据分析:

1.阿里云百炼在平均速度、推理速度上表现最优,且可用性高达 98.59%,在API接入上首选推荐。
2.派欧云平均速度较快。
3.火山引擎生成速度响应快(32.595s)且可用性稳定(99.75%),但性能耗时相对较高(18.531s)。
4.腾讯云整体性能一般,综合性能在第三左右。
5.DeepSeek 官方首 Token 最差(3.985s),DNS时间是最快的(0.06s)。
6.天翼云表现不理想,性能较差(31.626s),主要是剩余包耗时较长(30.634)。
7.联通云首Token时间是最优秀的(0.746s),但是可用性是最差的(97.84%)。
8.移动云的总体性能是最差的(31.938s),主要耗时在剩余包时间(31.146s)。
9.硅基流动平均速度是最慢的(5.137s),首包时间是最长的(1.128s)。
10.派欧云,天翼云,联通云,移动云四家:接口不支持返回推理速度指标。

总体性能影响因素分析:
1、服务端推理性能是主要影响因素

  • 在整体测试中,推理速度和生成速度的差异在厂商间表现较为显著,尤其是阿里云百练在推理上表现优秀,而其他厂商的性能则较为逊色。服务端推理的性能显然是影响API整体性能的关键因素。

     

2、网络因素的影响较小

  • 虽然网络延迟(DNS 时间、连接时间等)存在一定的差异,但从测试结果来看,除非网络层的延迟异常高,否则不会对整体的 API 性能产生根本性影响。例如,DeepSeek 官方和火山引擎的网络层延迟较低,但推理和生成速度的差异更多源自服务端的处理能力,而非网络本身。

     

因此,服务端推理性能是影响整体性能的主要因素,网络层的影响相对较小,基本可以忽略不计,尤其当网络延迟不超过合理范围时。

城市维度

 广州市

 

 

杭州市

 

 

北京市

 

 

上海市

 

 

成都市

 

 

苏州市

 

 

武汉市

 

 

重庆市

 

 

深圳市 

城市维度分析:

1.火山引擎在以上城市均保持最高性能,推理速度是最快的。
2. DeepSeek 官方在以上城市的首 Token 时间最长,都在3.8s以上,比其他厂商都高。
3.硅基流动的平均速度是最慢的。
4.其他服务商与其他指标未见明显差异,整体与前面的结论一致。

运营商维度

运营商维度分析:

1.  天翼云在中国电信的网络下剩余包时间33.603秒,性能最差。
2.  其他服务商指标对比未见明显差异,整体与前面结论一致。 

主机维度

主机维度分析:
该维度从各服务商提供 API 服务的目标主机 IP 地址维度分析各家服务的分布和性能。

主机数量分析总结:

腾讯云主机数量最多,移动云,派欧云,联通云,硅基流动,阿里云百练主机数量最少。
主机城市分析总结:

腾讯云的主机城市分布最广,其次是天翼云,火山引擎,DeepSeek 官方。
主机运营商分布分析总结:

腾讯云的主机运营商分布最广

时间维度 1h颗粒度

各时间段分析:
时段(2025/5/20 01:00 –  2025/5/20 17:00)
特点:联通云,阿里云百炼,天翼云可用性不高,其它服务商可用性相对优秀,稳定。
原因:可能此时用户流量较大,服务器负载也比较大,腾讯云服务商可能受到限流影响。

时段(2025/5/15 00:00 – 2025/5/15 20:00)
特点:移动云性能最高,其它服务商可用性相对优秀,稳定。
原因:可能此时移动云用户流量较大,服务器负载也比较大,移动云服务商可能受到限流影响。
时段(2025/5/17 0:00 – 2025/5/18 8:00)

特点:阿里云百炼得推理速度是最快的,均达到了40tokens/s。
原因:可能此时用户流量较少,服务器负载较低,能够为每个请求分配更多资源。 

各服务商API

各服务商 API 整体性能分析:

  • DeepSeek 官方
    可用性:可用性小幅度,从较差逐渐改善至良好。
    整体性能:在可用性提升的同时,性能表现也逐渐优化,整体时间指标表现优秀。

  • 天翼云
    可用性:整体波动较小,表现稳定,大部分时间维持在95%以上。
    性能:在各时间段内有波动,但整体表现向优秀靠近。

  • 派欧云
    可用性:整体波动较小,大部分时间维持在97%以上。
    性能:在各时间段内有波动,由小幅度波动到大幅度波动。

  • 火山引擎
    可用性:小幅度波动,最差在96%,其余时间均在98%以上。
    性能:前期比较稳定,后续有小幅度的波动。

  • 硅基流动
    可用性:整体表现良好。
    性能:整体表现良好。

  • 移动云
    可用性:可用性相对较差,最低在93%左右。
    性能:整体性能波动较大,最高在41s左右,最低在22s左右。

  • 联通云
    可用性:可用性是最差的,最低时在70%。
    性能:相对波动较大。

  • 腾讯云

    可用性:整体表现良好,小幅度波动。

    性能:前期相对稳定,后期有小幅度波动。

  • 阿里云百炼
    可用性:小幅度波动,后期比前期波动大。
    性能:有小幅度波动。

 

 

本次评测的测试工具、指标采集、测试厂商、测试参数等详情如下:

测试工具及指标采集

1.   测试工具:基调听云拨测平台

2.  采集指标:
通过API返回的数据计算出来的指标包含:平均速度(tokens/s)、首 Token 时间(s)、推理速度(tokens/s)、生成速度(tokens/s)。

通过听云拨测客户端计算的指标包含:DNS 时间(s)、建连时间(s)、握手时间(s)、发出请求时间(s)、首包时间(s)、剩余包时间(s)、性能(s) 和可用性(%)。

3.  测试节点:北京/上海/广州/深圳/重庆/苏州/成都/杭州/武汉九地移动/电信/联通三大运营商,模拟27个终端用户。

4.  任务属性:任务绑定(相同频率,相同监测点)。

5.  大模型相关的测试指标和计算方式参考了公众号“赛博禅心”文章“务实测试:DeepSeek 各家 API 真实速度”中提到的测试脚本。

测试厂商

腾讯云、阿里云、火山引擎、DeepSeek 官方和硅基流动

测试参数

●测试频率:1小时
●测试周期:2025/05/14 00:00 – 2025/05/21 00:00
●测试 Prompt:9.9和9.11这两个数哪个更大?请在结果中只输出比较大的那个数,并放在两个”#”符号之间。
●期望响应格式:#9.9#

指标定义

(1)模型性能指标
● 首 Token 时间:从请求发起至模型返回第一个有效 Token 的时间间隔 (单位:s)。
● 推理速度:模型推理阶段的平均速度 (单位:tokens/s)。
● 生成速度:模型生成阶段的平均速度 (单位:tokens/s)。
● 平均速度:模型推理和生成两个阶段的整体平均速度 (单位:tokens/s)。
(2)网络指标
● DNS:通过域名解析服务,将指定的域名解析成 IP 地址的消耗时间。
● 建连:浏览器和 Web 服务器建立 TCP/IP 连接的消耗时间。
● SSL:浏览器和 Web 服务器建立安全套接层 (SSL) 连接的消耗时间。
● 首包:浏览器发送 HTTP 请求结束开始,到收到 Web 服务器返回的第一个数据包的消耗时间。
● 剩余包:浏览器接收 Web 服务器返回的第一个数据包到元素数据接收结束的消耗时间。
● 性能(总下载时间):监测一个页面总的消耗时间,即从开始监测到监测结束的时间。
● 可用性:时间范围内,目标服务能够被正常访问的次数与总访问次数的比值。
(3)分析维度
● 运营商:移动/电信/联通。
● 城市:北京/上海/广州/深圳/重庆/苏州/成都/杭州/武汉。
● 目标主机(基于 API 服务的暴露的 IP 地址)。

测试工具及指标采

本次测评旨在为开发者提供深度数据支撑,助力其精准洞察各服务商 API 接口的性能表现,从而有针对性地优化产品体验。对于开发者和企业用户而言,这些数据可以作为服务商选择的决策依据,可以依托本次测评数据,更科学地甄别适配自身需求的技术方案,有效提升调用效率,大幅降低响应延迟,全方位增强整体服务质量。
对于普通用户来说,如果您只想直接使用 DeepSeek-R1 的深度思考能力,我们推荐您使用网页版的服务,为此我们整理了以下支持 DeepSeek-R1 的第三方服务及相关网站,供参考:

名称及网址

是否收费

注册方式

腾讯元宝

https://yuanbao.tencent.com

免费和付费两种模式

免费用户:可使用部分基础功能,如AI对话、搜索等,但功能和体验可能受限。

付费用户:可享受更多高级功能,如更快的响应速度、更精准的搜索结果等,具体收费标准和功能差异需参考官方信息。

微信、手机号、QQ

国家超算互联网

https://chat.scnet.cn

通常是付费的。用户根据计算资源的使用量、时长和服务类型支付费用,具体收费标准因超算中心和项目而异。

部分科研项目或教育用途可能享有优惠或免费政策

免登录免注册,直接点击“长思考R1”按钮即可使用

秘塔AI搜索

https://metaso.cn

免费用户每天可使用100次 R1

直接微信扫码或者手机验证登录

纳米搜索

https://www.n.cn

提供“R1-360高速专线”,有免费体验次数,超量部分需购买纳米

手机号码或邮件注册

AskManyAI

https://www.askmanyai.cn/login

注册后选择“DeepSeek-R1 满血版”即可使用

手机号码即可注册

百度千帆

https://console.bce.baidu.com/qianfan/modelcenter/model/buildIn/list

免费付费

 免费额度:新用户通常可获得一定量的免费资源,用于体验和测试。

 付费服务:超出免费额度后,按实际使用的资源(如计算、存储、API 调用等)收费,具体价格可在官网查询。

需百度账号,学生认证有优惠

火山引擎

https://console.volcengine.com/ark/region:ark+cn-beijing/experience

新用户送100次免费调用

可用手机号、邮箱、抖音、头条、飞鼠、穿山甲、巨量引擎账号登录

英伟达认证站

https://build.nvidia.com/deepseek-ai/deepseek-r1

付费

1.  认证费用:硬件和软件需通过英伟达认证,可能产生相关费用。

2.  产品购买:认证站使用的英伟达硬件(如GPU)需额外购买。

3.  服务支持:部分高级技术支持或培训可能收费。

需要英伟达账号,国内访问较慢,适合开发者

AI智慧岛

https://chat.lify.vip/chat

免费和付费

 免费服务:用户可体验部分基础功能,如简单的 AI 工具或资源。

 付费服务:高级功能、更多计算资源或定制服务可能需要付费,具体费用因服务类型和使用量而异。

微信扫码关注公众号即可

微信搜一搜

无网址

微信搜一搜正在灰度测试“AI搜索”功能,部分用户进入微信搜索页面后,可点击由 DeepSeek-R1 提供的“深度思考”选项。

目前测试中

Sider ai
https://sider.ai/
登录即可每天获得30个免费积分
手机号、Google账号、Apple账号

推荐阅读

  • 可观测性平台日志告警​已经成为应用云计算的企业中,一种实用的工具。使用后在软件的开发以及运行维护方面,可以及时的发现问题,并帮助解决问题,从而提高工作的效率,并且还可以保护应用程序。那么,这款工具的概念以及具体作用是什么呢?

    2023-09-27

  • 在目前的数字化时代,智能监控平台已经成了各个领域的重要方式。它可用作监控物流、交通、安防等领域,针对保障公共安全和提升工作效率具有重要的作用。然而,伴随着监控技术的不断进步,许多人开始对监控平台的靠谱性提出质疑。那么,这样的监控平台靠谱吗?

    2023-06-25

  • 随着互联网应用的持续发展以及用户对于网络质量的不断追求,网络性能监控将会继续发挥重要作用,为用户不断提供良好的网络体验,为企业的发展提供可靠支撑。未来,服务端监控网络性能也会不断优化发展,为企业提供更多帮助,为互联网应用的稳定运行提供有力支撑。‍‍

    2023-10-07

  • 在寻求优秀移动应用性能管理解决方案时,我们发现了“基调听云”这家公司,他们的全链路监控和用户体验监控能力,为业务系统提供了杰出的可观测性能力,从而保障了业务的健康与稳定。

    2023-08-08

  • 应用性能管理APM测试是一种软件测试方法,旨在检查应用程序的性能和功能,它主要用于识别并解决应用程序中的瓶颈,以便提高应用程序的可靠性、响应时间和吞吐量。应用性能管理测试通常涉及对应用程序进行监视、分析和优化,以确保其正常运行并符合用户的需求。

    2023-06-29