如何构建可持续的ChatGPT高性能服务器端架构?

边缘计算 | 液冷服务器 | GPT-4

深度学习 | AI服务器 | ChatGPT

在上周举行的发布会上，OpenAI宣布推出了GPT-4模型。与之前的版本相比，GPT-4最大的改进是其多模态（multimodal）能力——它不仅能够阅读文字，还能识别图像。值得注意的是，虽然之前有消息称GPT-4拥有100万亿个参数，但OpenAI并没有证实这个数字。与其相比，OpenAI更强调GPT-4的多模态能力以及其在各种测试中的表现。

据OpenAI表示，GPT-4在多种基准测试中表现出超过绝大多数人类的水平。例如，在美国律师资格考试Uniform Bar Exam、法学院入学考试LSAT、“美国高考”SAT数学部分和证据性阅读与写作部分的考试中，GPT-4的得分高于88%的应试者。

此外，OpenAI正与多家公司合作，将GPT-4结合到他们的产品中，这些公司包括Duolingo、Stripe和Khan Academy等。同时，GPT-4模型也将以API的形式提供给付费版ChatGPT Plus的订阅用户使用。开发者可以利用这个API打造各种应用。微软也在宣布中表示，新款必应搜索引擎将运行于GPT-4系统之上。

在发布会上，演示人员用草稿本和纸笔画了一个非常粗糙的草图，然后拍照告诉GPT-4他需要做一个长这样的网站，并需要生成网站代码。令人印象深刻的是，GPT-4只用了10秒钟便生成了完整的网站代码，实现了一键生成网站的效果。

微信图片_20230315100220.png

ChatGPT的高性能运行离不开一个稳定的服务器端架构。建立可持续的服务器端架构，不仅可以保障ChatGPT的稳定性和可靠性，还有助于减少能源消耗、降低成本和支持企业的可持续发展战略。因此，本文将探讨如何构建可持续的ChatGPT高性能服务器端架构。

GPU服务器.jpg

超越“以往的桎梏”

ChatGPT突破还是AI延伸？

ChatGPT是一种自然语言处理的技术，可以根据已有的数据训练模型，从而产生更加真实自然的对话。这种技术的产生自然是延续了之前的AI发展过程，但在某些方面也实现了突破。

1、ChatGPT具有更强大的对话生成能力。在早期的AI技术中，基于规则和模式的方式进行对话生成，因此往往会面临限制和拘束的问题。但GPT系列模型通过大量的语言训练数据，可以实现更加真实自然，灵活适应对话场景的对话生成。

2、ChatGPT的训练方式也有所改变。在以往，通常需要人工参与到数据标注的过程中，让机器能够理解人类语言的含义。但是GPT系列通过无监督训练的方式，可以从庞大的语言数据中学习人类语言表达的规律和结构，进而实现更加真实、生动的对话生成。

3、GPT系列模型在处理多语种和多场景对话方面也有优势。传统的AI技术主要适应单一场景，缺乏语言的多样性。但是，GPT系列模型因其对多种语言训练的能力，可以处理不同语种之间的对话，也可以应对不同场景的对话需求。

ChatGPT两年内

发展与展望

联合研发OpneAI的GPT-4已经开发了三年多，发布时间不久，它很有可能会在效率上得到大幅提升，但具体将涌现哪些新的代码能力还不确定。目前尚能确定的是GPT-4将解决像GPT-3.5中存在的一些重要问题，例如优化数据参数比例，提高信息处理和规律发现的效率，以及提高信息输入的质量等。极有可能会在效率上提升许多，它的推理成本也会大大降低（有可能降低到百倍）。不确定的是GPT-4将有多大的模型规模（它可能比传言的大模型还大），以及它是否会具备多模态的能力（此前尚未确定，未来也难以预测）。即使模型具备多模态能力，但由于多模态信息很难标准化为文本模式，因此，在ChatGPT对世界进行丰富多彩的想象时，它目前仍然是有限的。

一、ChatGPT现阶段所面临的很多问题在工程上都有相对简单的解决方案。例如：

1、解决“hallucination”问题（ChatGPT偏向于产生不准确的输出）可以通过优化准确度和引入搜索数据来做矫正，而且人类可以参与判断过程以增加准确度。此外，在应用ChatGPT时，可以先在人类确定好坏的场景下进行辅助性判断。

2、对于ChatGPT的记忆力有限问题，可以使用OpenAI提供的开放接口来解决。特别的，现有的解决方法非常神奇，只需要在提示ChatGPT回答之前，向它说明所提供的内容仅是全部信息的一部分，并要求其在听完后再回答。

3、ChatGPT的自我审查能力不仅仅基于规则，更基于理解，这种基于理解的自我审查能力实际上更加可调节。OpenAI也提出了让ChatGPT在尊重基本规则的前提下，发言尺度可以根据需求进行调节的愿景。

二、ChatGPT的成本会直线下降，尤其inference的成本会小两个以上数量级

ChatGPT的成本将会直线下降，特别是inference的成本会小两个以上数量级。 Sam在公开场合曾经说过，ChatGPT的inference成本是几分钱每条。此外，《Key Takes from ChatGPT and Generative AI.pdf》根据Jefferies Research的详细调研，ChatGPT的inference大概率是基于闲置x86 CPU而非GPU进行的。

出于对inference和大型语言模型优化空间的理解，我们认为inference成本会直线下降，这一点是非常有可能的。成本的下降意味着应用范围和数据收集能力的扩大。即使ChatGPT的用户达到了十亿DAU的水平（当前的一亿DAU的估算也是不准确的），它也能做到免费。最多只有一些使用次数的限制。New Bing曾一度限制搜索次数为60次，但现在也已经取消了。这些实际使用中的对话无疑将进一步加强ChatGPT的优势地位。

三、对于ChatGPT的“能力”子模型，可能需要重新训练，但“知识”子模型只需要通过instruct prompting的方式输入新知识即可，无需修改已有的pre-trained模型。

对于许多子任务，只要ChatGPT具备了理解能力和知识量，就可以通过对话、引导和教育的方式，不断调整ChatGPT的表现，让它在各个子任务中发挥出新的能力。与此相比，过往的AI技术在面临新的任务时，需要重新训练模型，而不能像ChatGPT这样只需要输入新的知识。

如果以钢铁侠3为比喻，ChatGPT就像通用型铠甲，能够胜任大部分工作。通过“教育”和“引导”的方式，可以让ChatGPT在多个领域中完成各种工作，例如给出医疗建议、法律参考、编写代码框架、制定营销方案、提供心理咨询、担任面试官等。

需要强调的是，prompting的重要性。微软的New Bing并没有对ChatGPT做出太大的修改，而是通过prompting引导ChatGPT进行合理的搜索。在prompting的基础上，如果要专注于某些方面，例如牺牲对话延续性来提高信息精度，就需要重新训练模型并进行调整。这可能需要整合其他能力模块，例如搜索和其他模型的接口，并融合一些工具，就像那些专精型铠甲一样。总之，通过不断锤炼ChatGPT的能力和使用工具，可以拓展其应用范围和解锁更多的可能性。

四、随着时间的推移，我们预测自助型ChatGPT的Prompting能力将得到大幅提高，并会逐步开放更多功能。

这不仅是商业上的显而易见的优点，还能让用户逐步调教属于自己的ChatGPT，让其适应自己的偏好并学习独特的知识（而非仅限于技能的刺激）。此外，尽管 ChatGPT 的模型仍然是闭源的，不同应用层上的竞争力仍然能够得以开发和提高，解决了仅能向OpenAI提供UI设计的疑虑。想象一下这样的场景，你的 ChatGPT 能够记录你与TA的所有对话，并从你的反馈中逐渐学习。如果你是一个优秀的营销经理，过了一段时间，你的 ChatGPT 也将获得比其他人更出色的营销技能。

五、GPT-4预计能够大幅提升ChatGPT的能力，在多个领域达到“优秀员工”的水平。

最近的范式革命已经体现了New Bing和ChatGPT之间的巨大差异。我们有充足的理由相信，在以下方面，GPT-4几乎肯定会有巨大的进步：

1、大模型、大数据、更优化的参数和数据比例。这些因素的优化方向很明显，因为参数越多、数据越多，但是只有合适的比例才能使模型充分吸收数据知识。

2、更有针对性的训练数据集。OpenAI在“造高质量大数据”上的能力几乎独步天下，而经过GPT-3之后的多年摸索，他们已经能够更好地调整什么数据对增强什么模型能力更有用（例如读取更多代码和调整多种语言的比例等）。

3、可能的“能力模块融合”。New Bing以ChatGPT为基座并延伸了搜索能力。是否有办法直接将搜索能力融入预训练大模型？类似地，可以考虑如何高效地将其他能力融入基于预训练大模型的 ChatGPT，并结合更多的场景进行调教。因此，预测在接下来的两年内，基于GPT-4的ChatGPT，在大多数场景下都能够达到9级员工的水平，拥有更强大的归纳和“理解”能力。

ChatGPT与GPT

能力壁垒探究

ChatGPT的壁垒来源有以下几个方面:

一、GPT-3是闭源的，OpenAI保持着非常审慎的态度，不可能把ChatGPT开源。因此，国产机器学习依赖于“开源模型国产实现”路径在ChatGPT上看起来不现实。

二、模型参数的增加需要强大的工程能力，同时也需要让大模型能够有效地学习到大数据中的知识，如何调教模型产出人类需要的输出这些问题在OpenAI的博客中都被强调了。需要具备“原理性”思考习惯的工程师参与突破这些工程瓶颈。据悉，OpenAI超高的人才密度成功突破了许多工程瓶颈。因此，需要在上一步工程突破的基础上进行下一步工程积累。

三、特定的商业环境下注重实用，例如字节跳动的推荐算法模型虽然十分大，难度也很大。但是，基于现有模式的持续优化不能形成范式突破。在现实的商业环境下，如果不能为业务提供正反馈，模型的发展会受到极大的阻碍。

四、Leadership的技术判断力是稀缺资源。New Bing与ChatGPT的成功结合被视为罕见的奇迹，远超市面上其他人。这方面可遇不可求，不是一个可复制的模式。

五、数据飞轮已经形成，ChatGPT是现象级成功的C端产品之一，结合微软的资源和渠道加成，一上来就卡住了非常好的身位。因此，ChatGPT的使用数据是可以不断反补模型本身的。ChatGPT的博客也强调了他们的独特机制，使得数据的使用、理解和生产都有闭环。

ChatGPT

未来AI时代的新工具

ChatGPT的DAU增长现象级，用户反馈也表现出其异常实用。虽然ChatGPT具有极高的娱乐价值想象，但其显著提升生产力的能力则更为突出。对话和阅读实际上是一种较高门槛的娱乐方式，多数情况下，丰富性和深度并非是娱乐价值的主要决定因素。因此，我们建议在使用ChatGPT时多着眼于提升生产力上。

此外，需要记住，ChatGPT是一种颠覆式的产品，而不是渐进式的改进。对于科技的早期采用者而言，可能已经无法离开ChatGPT，但对于大众而言，打开搜索引擎进行搜索甚至已不是普遍习惯，使用清晰合理的提示与ChatGPT进行对话的程度更是偏低。因此，在未来几年内，ChatGPT取代的更多是各种SaaS、云、效率工具，如搜索引擎等。

在实际场景应用中，我们应该遵循两个原则：对症下药和择善而从。ChatGPT不等同于搜索引擎和程序，我们应该让它发挥其所长，而不是去试图替代其他更为高效的工具或服务。此外，考虑到当前ChatGPT存在明显的幻觉问题，我们应该保持警惕，不在所有场合盲目相信ChatGPT的结论，而是在需要人工判断的情况下使用ChatGPT，并由人来审视其结论的真实性。

ChatGPT与人类

从本质上探究两者的不同

由于脑科学和神经科学发展尚不够成熟，我们只能从哲学的角度探究人类和ChatGPT这两者在本质上的不同与相同。

一、从判断力的角度来看，ChatGPT只能从虚拟数字中吸取数字信号，无法与现实世界进行真实交互。只有躬行实践，才能建立判断力的根基。

二、如果只基于数字信号进行推测，ChatGPT很可能会得出错误的结论。例如牛顿发现万有引力的过程，是基于看到苹果落地从而预测星星运动的。而当时很多人都认为太阳是绕着地球转的，如果有一个ChatGPT，很可能会得出错误的结论。因此，在日常生活中，识别思维能力，例如“灵感并发、灵光一现”的瞬间，也是很有意义的。

三、如果只是归纳现有知识，ChatGPT很可能比人类做得更好。但是创造互联网上不存在的新知识，才是ChatGPT做不到的。

四、从理解人的角度来看，人类能够理解人性，而不需要通过调研、问卷和网络资料。同时，通过现实世界的实践，人类能够带来关于人性的增量理解。这是ChatGPT所无法达到的。这暗示着，在真正理解人类时，要去真实世界进行实践，而不是去人云亦云地重复套路。

ChatGPT探索对算力的需求

AI模型对算力的需求主要体现在训练和推理两个层面。当前主流的人工智能算法通常可分为“训练”和“推理”两个阶段。赛迪数据显示，2022年中国数字经济爆发强大的增长动能，比上年增长20.7%，较2021年提高2.9个百分点，远超世界平均水平，数字经济规模达到45.5万亿元，规模超排名第三的德国一倍有余，数字经济发展水平稳居全球第二位，数字经济规模超过彰显出数字经济大国姿态。近年来中国也在积极推动数字产业创新能力加快提升，推进产业数字化转型提档加速，与美国在数字经济竞争力上的差距也逐渐缩小。

训练阶段
对人工智能模型进行调整和优化的过程，以达到预期的准确度。为了让模型更准确，训练阶段通常需要处理大量的数据集，采取反复迭代的计算方式，需要耗费大量的计算资源。推理阶段是在完成训练阶段后，应用已建立的人工智能模型进行推理或预测输入数据的输出结果。
推理阶段
相比训练阶段对计算能力毕竟要求不那么高，但由于训练出来的人工智能模型需要多次用于推理任务，因此推理运算的总计算量依然很可观。

ChatGPT的算力需求场景可以根据实际应用进一步拆分为预训练、Finetune和日常运营三个阶段。预训练阶段通过大量无标注的文本数据来训练模型的基础语言能力，得到基础大模型，例如GPT-1、GPT-2和GPT-3。Finetune阶段在基础大模型的基础上，进行监督学习、强化学习和迁移学习等二次或多次训练，以优化调整模型参数量。日常运营阶段基于用户输入信息，加载模型参数进行推理计算，并实现最终结果的反馈输出。

预训练阶段：单次算力需求取决于模型参数量，最高可达3640 PFlop/s-day

ChatGPT是一个语言模型，其架构基于Transformer。Transformer架构由编码和解码模块组成，其中GPT只使用解码模块。此外，Transformer还包含三个层级：前馈神经网络，自注意力机制层和自注意力掩码层，这些层级都相互作用，以实现模型的高效性。

自注意力机制是Transformer中最重要的部分之一，其主要作用是计算某个单词对于所有单词的权重（即Attention）。通过这种方式，模型能够更好地理解文本内在关系，以及对输入之间的关系实现高效学习。自注意力机制层还允许模型进行更大规模的并行计算，这使得计算效率得到了大大的提升。

前馈神经网络层提供高效的数据信息存储和检索。在这个层面上，模型能够有效地处理大规模的数据集并实现高效计算。

掩码层是为了在自注意力机制中过滤右侧未出现的单词。 这种遮蔽允许模型只能注意到文本中已经展示的内容，从而保证了计算的准确性。

与之前的深度学习框架相比，Transformer架构具有明显的优势。Transformer架构的并行计算能力更强，能够大大提高计算效率。这使得GPT可以训练更大更复杂的语言模型，并且可以更好地解决语言处理问题。

Transformer解码模块拆解

根据先前的数据，预计日常运营每月需要约7034.7 PFlop/s-day的算力。用户交互也需要算力支持，每次互动成本约0.01美元。根据ChatGPT官网近一个月（2023年1月17日至2月17日）总访问量达8.89亿次，因此2023年1月OpenAI为ChatGPT支付的运营算力成本约为890万美元。另外，Lambda表示，训练一次1746亿参数的GPT-3模型所需的算力成本超过460万美元；而OpenAI表示，训练一次1746亿参数的GPT-3模型所需的算力约为3640 PFlop/s-day。我们假设单位算力成本不变，因此ChatGPT单月运营所需的算力约为7034.7PFlop/s-day。

Finetune阶段：预计ChatGPT单月Finetune的算力需求至少为1350.4PFlop/s-day

ChatGPT是一种需要不断进行Finetune模型调优的模型，以确保它处于最佳应用状态。这个调优的过程需要开发者对模型参数进行调整，以确保输出内容不是有害和失真的，并基于用户反馈和PPO策略对模型进行大规模或小规模的迭代训练。这一过程中需要的算力将为OpenAI带来成本，具体的算力需求和成本金额取决于模型的迭代速度。

预计ChatGPT单月Finetune算力需求至少为1350.4PFlop/s-day。根据IDC的预测，在2022年中国人工智能服务器负载中，推理和训练的比例分别为58.5%和41.5%。如果假设ChatGPT对推理和训练的算力需求分布与之保持一致，且已知单月运营需要算力7034.7 PFlop/s-day、一次预训练需要算力3640 PFlop/s-day，那么我们可以进一步假设每月最多进行一次预训练。由此我们计算得ChatGPT单月Finetune算力成本至少为1350.4PFlop/s-day。

从 GPT-1 的 1.17 亿到 GPT-2 的 15 亿，超 10 倍的参数差距带来了性能上的飞跃。这似乎意味着，随着容量和参数量的增多，模型性能还有更大的潜力——因此，2020 年 GPT-3 的参数量翻了 100 倍：1750 亿，其预训练数据量也高达 45TB（GPT-2 是 40GB，GPT-1 约 5 GB）。事实证明，海量参数确实让 GPT-3 具备了更强大的性能，它在下游任务表现的非常好。即便是复杂的 NLP 任务，GPT-3 也表现惊艳：可以模仿人类写作，编写 SQL 查询语句、React 或 JavaScript 代码等。回顾 GPT-1 、GPT-2 和 GPT-3 这一路的发展，许多人对 GPT-4 寄予厚望，甚至还有传言称 GPT-4 的参数量将高达 100 万亿。

鉴于人类反馈机制下，模型需要不断获得人类指导以实现参数调优，所以模型调整可能会多次进行。这需要的算力成本将会更高。

ChatGPT服务器

种类有哪些？

一、中国服务器发展现状

各国加快提升数字经济发展水平，传统行业的数字化进程加速，企业的数字化智慧化需求旺盛，尤其是5G、大数据、人工智能等新兴技术领域快速发展，持续赋能服务器行业。

1、高算力需求带动服务器行业迎来发展新机遇

算力作为一种核心生产力，应用在互联网、政务、金融等各领域场景随着元宇宙、Web3.0等新概念的出现，更复杂的计算场景产生高算力需求。推动服务器产品向更高计算性能方向升级。

2、大型数据中心建设加快服务器市场规模增长

大规模数据中心建设是全球服务器市场增长的主要动力、北美、亚大西欧等全球大部分地区的数据中心服务器采购持续增长。

二、ChatGPT需要的服务器：AI训练型服务器+AI推理型服务器

边缘计算需要大量机器处理高负载请求，而传统的CS模式已经无法满足这一需求。当前的互联网架构正在向以CDN服务为核心的CES模式转变，但CES模式在边缘上处理非结构化数据存储和处理的需求方面存在局限性。因此，引入Edge端以解决无法处理业务的问题。在AI训练场景下，由于计算量和数据类型的变化，C-E-S也无法满足需求，因此计算架构在回归到C-S，并朝向高效率并行计算的方向演变。

计算架构演变过程

作为硬件核心，服务器面对不同的计算场景，而计算架构变化是服务器技术演进的关键。随着云计算、边缘计算和AI训练等计算架构的出现，服务器需求也在不断变化。单一服务器更加关注个体性能，而云数据中心服务器更关注整体性能。边缘计算对数据交互实时性的要求更高，并需要更多的服务器设施。AI服务器主要用于人工智能训练，使用向量/张量数据类型，并通过大规模并行计算来提高效率。

同一技术路线下，服务器面向数据处理需求持续迭代。复盘主流服务器发展历程来看，随着数据量激增、数据场景复杂化，不同类型服务器发展驱动力也有所差异。具体来看：

传统的通用服务器发展较为缓慢，主要是通过处理器时钟频率、指令集并行度、核数等硬件指标的提升来优化其性能。相比之下，云计算服务器快速发展成熟，这一过程始于20世纪80年代，随后在VMware Workstation、亚马逊AWS等产品的推出，以及OpenStack开源项目的出现下加速了。目前，云计算在全球范围内已经比较普及，许多公司都使用流行的云服务提供商（如AWS、Azure、Google Cloud等）来存储和处理数据。边缘计算服务器概念于2015年孵化，近年来已出现诸如AWS Greengrass、谷歌GMEC等边缘计算平台。随着越来越多的设备（如可穿戴设备和智能家居设备）连接到互联网，边缘计算技术的需求也日益增长。最后，AI服务器是为人工智能和机器学习工作量身定制的，其硬件架构更加适合对训练算力的需求。随着人工智能的应用变得越来越广泛，AI服务器的需求也在增加。

三、云计算服务器：大规模数据处理需求下的商业模式变革

云计算服务器的出现是为了满足数据量激增所带来的高性能计算需求。传统通用服务器通过提高硬件指标提升性能，但随着CPU工艺和单个CPU核心数量接近极限，无法满足数据量激增的性能需求。相比之下，云计算服务器采用虚拟化技术，将计算和存储资源进行池化，把原本物理隔离的单台计算资源进行虚拟化和集中化处理，并以集群化处理来达到单台服务器所难以实现的高性能计算。此外，云计算服务器的计算能力可以通过增加虚拟化服务器的数量来进行扩展，突破单个服务器硬件限制，应对数据量激增所带来的性能需求。

云计算服务器实际上节约了部分硬件成本，并降低了算力采购门槛。在过去，大规模数据处理成本极高，主要因为通用服务器的购置和运维成本居高不下。而传统服务器通常包含处理器摸块、存储模块、网络模块、电源、风扇等全套设备。云计算服务器体系结构精简，省去重复的模块，提高了利用率。此外，云计算服务器针对节能需求，将存储模块进行虚拟化，并去除了主板上的非必要硬件，降低了整体计算成本。另外，流量计费模式也有助于许多厂商负担算力开支，降低了算力采购门槛。

四、边缘服务器：高数据密度和带宽限制下保证低时延

边缘计算是一种在云计算基础之上引入边缘层的计算模式。它位于靠近物或数据源头的网络边缘，通过提供计算、存储和网络等资源来协助应用程序。边缘计算基于一个新的体系架构，引入了边缘层，使得云服务可以扩展到网络边缘。在这个体系架构中，终端层由物联网设备组成，这些设备位于最靠近用户的地方，负责收集原始数据并上传至上层进行计算；边缘层则由路由器、网关、边缘服务器等设备组成，这些设备由于距离用户较近，可以运行延迟敏感型应用程序，满足用户对低时延的要求；云层则由高性能服务器等设备组成，可以处理复杂的计算任务。

边缘计算架构

边缘计算相对于云计算具有实时性、低成本和安全性等优势。它将计算任务从云计算中心部分或全部迁移到离用户更近的网络边缘进行处理，从而提高了数据传输性能和处理的实时性。同时，边缘计算还可以避免远距离传输数据带来的成本问题，并降低云计算中心的计算负载。此外，边缘计算将大部分数据在本地设备和边缘层设备中处理，减少上传至云端的数据量，降低了数据泄露的风险，因此具备更高的安全性。

五、AI服务器：更适合深度学习等AI训练场景

在现代AI领域中，由于大规模的计算需求，普通的CPU服务器已经不能满足需求。相较于CPU，GPU（图形处理单元）具备更适合进行大规模并行计算的架构设计，因此AI服务器采用GPU架构来提高计算性能。

与通用服务器不同的是，AI服务器为异构服务器。意味着它可以使用不同的组合方式来提高计算性能，例如使用CPUGPU、CPUTPU、CPU其他加速卡等，但是以GPU提供计算能力为主要方式。

以ChatGPT模型为例，它采用了并行计算的方式。相比于RNN模型，它能够为输入序列中的任何字符提供上下文，从而不仅精度更高，而且可以一次处理所有输入，而不是一次只处理一个词。

从GPU的计算方式来看，GPU架构采用了大量的计算单元和超长的流水线，因此与CPU相比，可以进行大吞吐量的并行计算。这种计算能力特别适合进行大规模AI并行计算。

深度学习主要进行矩阵向量计算，AI服务器处理效率更高。从ChatGPT模型结构来看，基于Transformer架构，ChatGPT模型采用注意力机制进行文本单词权重赋值，并向前馈神经网络输出数值结果，这一过程需要进行大量向量及张量运算。而AI服务器中往往集成多个AI GPU，AI GPU通常支持多重矩阵运算，例如卷积、池化和激活函数，以加速深度学习算法的运算。因此在人工智能场景下，AI服务器往往较GPU服务器计算效率更高，具备一定应用优势。

六、ChatGPT需要的芯片：CPU+GPU、FPGA、ASIC

GPT模型训练需要大算力支持，或将带来AI服务器建设需求。我们认为，随着国内厂商陆续布局ChatGPT类似产品，GPT大模型预训练、调优及日常运营或将带来大量算力需求，进而带动国内AI服务器市场放量。以GPT-3 175B模型预训练过程为例，据OpenAI，进行一次GPT-3 175B模型的预训练需要的算力约3640 PFlop/s-day。我们假设以浪潮信息目前算力最强的AI服务器NF5688M6（PFlop/s）进行计算，在预训练期限分别为3、5、10天的假设下，单一厂商需采购的AI服务器数量分别为243、146、73台。

AI大模型训练需求火热，智能算力规模增长有望带动AI服务器放量。据IDC数据，以半精度（FP16）运算能力换算，2021年中国智能算力规模约155.2EFLOPS。随着AI模型日益复杂、计算数据量快速增长、人工智能应用场景不断深化，未来国内智能算力规模有望实现快速增长。IDC预计2022年国内智能算力规模将同比增长72.7%至268.0 EFLOPS，预计2026年智能算力规模将达1271.4 EFLOPS，2022-2026年算力规模CAGR将达69.2%。我们认为，AI服务器作为承载智能算力运算的主要基础设施，有望受益于下游需求放量。

总结

ChatGPT是一个高性能的文件传输协议，需要一个可持续的服务器端架构来支持它的持续发展。以下是一个简单的指南：

一、了解客户需求

在构建任何服务器端架构之前，需要知道客户的需求。你需要考虑的问题包括：

1、用户数量：预计有多少用户使用服务？

2、数据量：每个用户将存储多少数据？预计服务将处理多少数据？

3、设备类型和平台：用户将使用哪些设备和平台来访问服务？

二、选择正确的基础架构

选择正确的基础架构对于构建可持续的服务器端架构至关重要。其中一些常见的选择包括：

1、物理服务器：这是在本地运行服务器的经典方式。这需要购买服务器硬件和管理基础架构。

2、虚拟专用服务器（VPS）：VPS是在共享物理服务器上运行的虚拟服务器。大多数云服务商都提供VPS。

3、云计算：云计算允许你根据实际使用情况逐步扩展和缩小基础架构。其中一些提供商包括Amazon Web Services（AWS）、Microsoft Azure和Google Cloud Platform（GCP）。

三、设计可扩展的架构

在设计你的服务器端架构时，你需要考虑如何扩展它以处理更多的流量和用户。其中一些关键考虑因素包括：

1、横向扩展：这是向系统添加更多服务器以处理更多流量和用户的过程。

2、纵向扩展：这是将相同的服务器升级以处理更多流量和用户的过程。

3、负载均衡：这是将请求分配给多个服务器以减轻负载的过程。

4、缓存：这是将请求的结果存储在内存中以提高响应速度的过程。

四、确保安全和可靠性

在构建任何服务器端架构时，安全和可靠性都是至关重要的。这意味着你需要考虑以下事项：

1、数据备份和恢复：你需要定期备份数据，以防止数据丢失，并在必要时能够快速恢复数据。

2、安全性：你需要确保你的服务器端架构是安全的，包括使用安全的传输协议、对数据进行加密等。

3、监控和警报：你需要设置监控和警报系统，以便在服务器出现问题时及时得到通知。

可持续的ChatGPT高性能服务器端架构需要考虑多个因素，包括用户需求、基础架构选择、可扩展性设计以及安全和可靠性保障。通过综合评估这些要素并采取相应的措施。