API(应用程序编程接口)软件应用程序与AI模型通信的标准化方式。大多数AI提供商提供REST API,您发送文本提示并接收模型输出。API访问通常按令牌使用量计费,价格因模型和提供商而异。基准测试用于评估和比较AI模型性能的标准化测试。常见的基准测试包括MMLU(通用知识)、HumanEval(编程)、SWE-bench(软件工程)和GSM8K(数学推理)。LM Market Cap汇总多个基准测试的分数来生成综合排名。思维链 (CoT)一种提示技术,鼓励模型在得出最终答案之前将复杂问题分解为中间推理步骤。思维链提示显著提高了数学、逻辑和多步推理任务的性能。上下文窗口模型在单次请求中可以处理的最大文本量(以令牌为单位),包括输入提示和生成的输出。更大的上下文窗口允许模型处理更长的文档并维护更多的对话历史。现代模型的范围从8K到超过200万令牌。扩散模型一种生成式AI模型,通过从随机起点逐步去除噪声来创建图像(或其他媒体)。Stable Diffusion、DALL-E 3和Midjourney等模型使用扩散过程从文本描述生成高质量图像。Elo评分一种改编自国际象棋的评分系统,基于对决比较对AI模型进行排名。在Chatbot Arena等AI竞技场中,用户盲评两个模型的输出并投票选择更好的一个。由此产生的Elo分数反映了真实用户评判的相对质量。嵌入将文本(或图像、音频等)表示为数字向量的数值表示方法。嵌入捕捉语义含义,因此相似的概念具有相似的向量值。它们对搜索、推荐系统和检索增强生成至关重要。少样本学习一种在提示中给模型提供少量示例(通常2-5个)来演示期望任务或输出格式的技术。少样本提示帮助模型准确理解期望的响应类型,而无需任何额外训练。微调在特定数据集上进一步训练预训练AI模型以提高其在特定任务上性能的过程。微调允许您为医疗诊断、法律分析或特定领域编程等专业用例定制通用模型。GAN(生成对抗网络)一种由两个神经网络组成的机器学习架构:生成器创建合成数据,判别器试图区分真实数据和生成数据。GAN在扩散模型出现之前是图像生成的主要方法,目前仍用于视频合成和图像编辑。幻觉当AI模型生成听起来合理但实际上不正确、虚构或不基于所提供上下文的信息时的现象。幻觉是LLM部署中的主要挑战。RAG、接地和思维链推理等技术有助于减少幻觉。HumanEval用于评估AI代码生成的基准测试,由164个手写的Python编程问题组成。每个问题包含函数签名、文档字符串和单元测试。模型按pass@1评分(首次尝试正确解决问题的百分比)。推理运行训练好的AI模型从新输入数据生成预测或输出的过程。当您向AI API发送提示时,模型执行推理以产生响应。推理速度和成本是生产应用中的关键因素。延迟从向AI模型发送请求到收到响应之间的时间延迟。更低的延迟意味着更快的响应。延迟通常以毫秒为单位测量,取决于模型大小、服务器负载和地理距离。首个令牌时间(TTFT)是相关指标。大语言模型 (LLM)一种在大量文本数据集上训练的AI模型,能够理解和生成人类语言。示例包括GPT-5、Claude、Gemini和Llama。LLM驱动聊天机器人、编程助手、内容生成工具以及越来越多的智能体应用。LoRA(低秩适应)一种参数高效的微调技术,向冻结的预训练模型添加小型可训练矩阵,而不是更新所有参数。LoRA大幅减少了微调所需的内存和计算量,使在消费级硬件上定制大型模型变得可行。MMLU(大规模多任务语言理解)一个涵盖STEM、人文、社会科学等57个学科的基准测试,包含约15,000道选择题。MMLU测试模型的知识广度和推理能力。顶级模型现在得分超过90%,促使创建了更难的变体如MMLU-Pro。MoE(混合专家模型)一种将大型模型分成较小的专门子网络(专家)的架构,路由机制为每个输入选择激活哪些专家。MoE允许模型拥有更多总参数,同时保持推理成本可控,因为每个令牌只有一小部分专家被激活。多模态能够处理和生成多种类型数据(如文本、图像、音频和视频)的AI模型。GPT-4o、Claude和Gemini等多模态模型可以理解提示中的图像,有些还能同时生成文本和视觉内容。困惑度衡量语言模型预测文本序列能力的指标。较低的困惑度表明模型对文本不那么"惊讶",并且更善于预测下一个令牌。困惑度通常在模型训练和评估期间用作内在质量度量。提示工程精心设计输入提示以从AI模型获得最佳输出的实践。技术包括提供示例(少样本)、分配角色、指定输出格式、将复杂任务分解为步骤(思维链)以及使用系统提示来设定行为。量化降低模型权重数值精度(例如从32位浮点数降至4位整数)以减少内存使用和加速推理的过程。量化使在消费级GPU上以最小质量损失运行大型模型成为可能。常见格式包括GPTQ、GGUF和AWQ。检索增强生成 (RAG)一种通过先从外部知识库检索相关信息,然后将该上下文包含在提示中来增强AI模型响应的技术。RAG减少幻觉,并使响应基于最新的、真实的数据,而无需重新训练模型。人类反馈强化学习 (RLHF)一种训练技术,人类评估者对模型输出进行评分,模型学习生成与人类偏好一致的响应。RLHF是现代聊天机器人让人感觉有用、无害和诚实的关键原因。变体包括RLAIF(AI反馈)和DPO(直接偏好优化)。SDK(软件开发工具包)简化将AI模型集成到应用程序中的工具、库和文档集合。SDK通常用特定语言的函数封装REST API,处理认证、管理重试并提供类型安全的接口。主要提供商为Python、TypeScript和其他语言提供SDK。温度控制模型输出随机性的参数。较低的温度(如0.1)产生更确定性、更集中的响应,而较高的温度(如1.0)产生更有创意和多样化的输出。温度为0时给出最一致、可重复的结果。吞吐量模型每秒可以生成的令牌数,或在给定时间段内可以处理的请求数。更高的吞吐量意味着模型可以同时服务更多用户并更快地生成响应。吞吐量是生产部署的关键指标。令牌/TokenAI模型处理的基本文本单位。一个令牌可以是一个单词、单词的一部分或标点符号。在英语中,平均一个令牌约等于一个单词的3/4(约4个字符)。API定价通常按每百万令牌计量(输入和输出分别定价)。Top-p(核采样)一种采样参数,限制模型从累积概率超过阈值p的最小令牌集合中选择。例如,Top-p为0.9意味着模型只考虑合计占90%概率质量的最可能令牌,修剪掉不太可能的选项。Transformer(变换器)几乎所有现代LLM背后的神经网络架构。2017年在"Attention Is All You Need"论文中提出,Transformer使用自注意力机制同时处理输入各部分之间的关系,大大改善了文本中长距离依赖的处理。向量数据库专门为存储、索引和查询高维向量(嵌入)优化的数据库。Pinecone、Weaviate、Qdrant和pgvector等向量数据库支持快速相似性搜索,这对RAG管道、语义搜索和推荐系统至关重要。零样本学习模型在没有任何提示中的示例的情况下执行其未经明确训练的任务的能力。零样本能力是衡量模型泛化能力的关键指标。例如,一个模型在从未见过标注的情感分析示例的情况下执行情感分析,就是零样本学习。 将这些术语付诸实践
既然您已经了解了这些术语,可以使用我们的工具通过真实的基准测试数据、价格信息和社区评分来比较AI模型。