Iawen's Blog

风无形,水无势,互联网没有昼夜。趁这稍许的闲暇时光,随手采摘或记录着这知识海洋的点点滴滴......

deepspeed 入门<一>

DeepSpeed是一个开源深度学习训练优化库, 其中包含的一个新的显存优化技术—— ZeRO(零冗余优化器), 通过扩大规模, 提升速度, 控制成本, 提升可用性, 极大地推进了大模型训练能力。

大模型 2025-03-12 18:12:12

大模型功能简介以及对应工具整理

大型语言模型是深度学习神经网络, 可以通过对大量文本进行训练来理解、处理和生成人类语言。LLM(Large Language Model) 可以归类为自然语言处理(NLP), 这是一个旨在理解、解释和生成自然语言的人工智能领域。

大模型 2025-03-12 18:12:12

关于 LLM 代理

LLM“代理”可以通过多种方式定义。一些客户将代理定义为完全自主的系统, 这些系统在较长时间内独立运行, 使用各种工具完成复杂的任务。其他人使用该术语来描述遵循预定义工作流的更规范的实施。

大模型 2025-03-12 18:12:12

大模型推理与部署框架

大模型的推理与部署框架越来越多, 如vllm、lmdeploy、llamm.cpp等, 但各种的支持不同、更新的频率不一, 在生成部署时, 还是要按需选择合适的框架。

大模型 2025-03-07 15:25:15

从概念到代码:揭开 ChatGPT 算法的面纱[转]

在过去的两年里, ChatGPT 和大型语言模型 (LLM) 总体上一直是人工智能领域的大事。已经发表了许多关于如何使用、提示工程和背后的逻辑的文章。尽管如此, 当我开始熟悉 LLM 的算法(所谓的 transformer)时, 我必须浏览许多不同的来源才能感觉自己真正理解了这个主题。

大模型 2025-03-06 20:18:10

LLaMA,开源语言模型

LLaMA是Meta(Facebook)的开源语言模型, 该语言模型据说是比openAI的ChatGPT能力更强的。虽说是开源语言模型, 但如果想要直接使用, 还是需要通过Edu教育邮箱来申请资格的, 得到批复邮件之后, 可以做为科学研究使用

大模型 2025-03-05 17:53:50

大模型LLM 的基准测试<一>

LLMs的不可思议的能力可以推广到广泛的NLP任务, 这要求研究人员设计全面的评估基准, 以有效地测试他们在各种任务上的能力。这些基准测试应该涵盖 LLM 的全部功能, 同时足够简单, 易于管理和解释。

大模型 2025-03-05 17:53:50

finetune 的几种方法和对应框架

给定预训练模型(Pre_trained model),基于模型进行微调(Fine Tune)。相对于从头开始训练(Training a model from scatch), 微调为你省去大量计算资源和计算时间, 提高了计算效率,甚至提高准确率。

大模型 2025-03-04 11:48:38

RAG 入门<一>

RAG 顾名思义就是: Retrieval Augmented Generation, 即使用 LLM 生成, 它由严格编程的自动化流程或代理辅助的自动化流程辅助, 这些流程收集、操作并向系统提供数据。RAG 不是 Vector DB 技术, 而是一个定义松散的概念, 描述了自动化系统协助 LLM 生成的过程, 并且可以使用数据库(如 vector dbs、sql dbs 甚至普通文件)来增强其操作。

大模型 2025-03-04 11:48:38

大模型量化总结

大型语言模型(LLM)通常太大而无法在消费者硬件上运行。这些模型可能超过数十亿个参数, 通常需要具有大量 VRAM 的 GPU 来加速推理。因此, 越来越多的研究集中在通过改进训练、适配器等来缩小这些模型。该领域的一项主要技术称为量化

大模型 2025-03-04 11:48:38

transformers 入门<一>

Huggingface Transformer能够帮我们跟踪流行的新模型, 并且提供统一的代码风格来使用BERT、XLNet和GPT等等各种不同的模型。而且它有一个模型仓库, 所有常见的预训练模型和不同任务上fine-tuning的模型都可以在这里方便的下载。

大模型 2025-03-03 18:30:40

一文带你了解Deepseek

无论是 DeepSeek-v3 还是 DeepSeek-R1, 都以大约 1/20 的成本大大优于 SOTA 模型。DeepSeek R1 是一种可与 OpenAI 的 o1 相媲美但便宜 95% 的模型。

大模型 2025-03-03 18:30:40

初次接触chatGPT<一>

chatGPT 是在经历了多轮迭代之后, 才出现的产物。从最开始的 GPT-1.0, 经历了GPT- 2.0 , GPT-3.0 , GPT-3.5 再到instructGPT、chatGPT.OpenAI的语言模型使用了深度神经网络, 并使用了非常大的数据集进行训练, 这导致了模型参数数量的大幅度增加。

大模型 2024-03-09 14:19:37

StarCoder初接触

BigCode 是由 HuggingFace和ServiceNow共同领导的开放式科学合作项目, 该项目致力于开发负责任的代码大模型。StarCoderBase 模型是使用 The Stack(v1.2)中的 80+ 种编程语言训练的 15.5B 参数模型, 不包括选择退出请求。该模型使用多查询注意力(包含 8192 个令牌的上下文窗口), 并使用 1 万亿个令牌的中间填充目标进行训练。

大模型 2024-01-10 13:53:19