Iawen's Blog

Docker 从入门到实践

Docker 支持 Windows/Linux/Mac/AWS/Azure 多种平台的安装, 其中 Windows 需要 Win10+, Mac 需要 EI Captain+。Docker 是一个 C/S 架构的服务, 安装好 docker 之后需要启动 docker 软件后才能使用 docker 命令。Docker 软件包已经包括在默认的 CentOS-Extras 软件源里。因此想要安装 docker, 只需要运行下面的 yum 命令.

服务器管理与架构 2025-04-28 17:09:42

Embedding与向量数据库总结

Embedding 的基本内容大概就是这么多啦, 然而小普想说的是它的价值并不仅仅在于 word embedding 或者 entity embedding 再或者是多模态问答中涉及的 image embedding, 而是这种能将某类数据随心所欲的操控且可自学习的思想。

数据科学 2025-04-27 08:14:57

大模型功能简介以及对应工具整理

大型语言模型是深度学习神经网络, 可以通过对大量文本进行训练来理解、处理和生成人类语言。LLM(Large Language Model) 可以归类为自然语言处理(NLP), 这是一个旨在理解、解释和生成自然语言的人工智能领域。

大模型 2025-04-27 08:14:57

大模型推理与部署框架

大模型的推理与部署框架越来越多, 如vllm、lmdeploy、llamm.cpp等, 但各种的支持不同、更新的频率不一, 在生成部署时, 还是要按需选择合适的框架。

大模型 2025-04-27 08:14:57

Linux定时任务-crontab 命令详解

cron是一个linux下的定时执行工具(相当于windows下的scheduled task), 可以在无需人工干预的情况下定时地运行任务task。由于cron 是Linux的service(deamon), 可以用以下的方法启动、关闭这个服务

常用工具说明篇 2025-03-25 18:13:16

Python常用模块介绍与使用说明

Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆于1990 年代初设计, 作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构, 还能简单有效地面向对象编程。Python语法和动态类型, 以及解释型语言的本质......

脚本语言 2025-03-16 21:29:36

常用的NER(Named Entity Recognition)库总结

命名实体识别(Named Entity Recognition, NER)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度, 决定了下游任务的效果, 是NLP中非常重要的一个基础问题。

数据科学 2025-03-16 21:29:36

初次接触深度学习之AAAMLP-CN节选<二>

《Approaching (almost) any machine learning problem》, 介绍了如何应对 ML 和 DL 过程中遇到的挑战, 而非单纯地解释算法。该书内含大量代码, 适合有一定ML与DL理论基础, 想深入研究应用机器学习的读者阅读。

数据科学 2025-03-16 21:29:36

Python数据可视化相关模块介绍与使用说明

在实际工作中, 我们不能过分依赖相关系数, 为什么这么说呢？因为统计指标是有局限性的。我们做数据清理的时候, 就规避了离群值对统计的影响, 并且, 在机器学习, 深入学习高速发展的大环境里, 用方差, 平均数来描述数据维度是远远不够的。

脚本语言 2025-03-15 20:52:22

Linux的安装与更新及基本设置

Linux 系统的U盘安装, 磁盘分区、LVM的扩展与大硬盘的挂载, 系统升级及安全更新(CentOS、Ubuntu)、SELinux已经内核的升级, 系统优化, 硬件信息查看等

操作系统 2025-03-12 18:12:12

OpenCV学习笔记<一>

OpenCV是一个开源程序库, 包含了500多个用于图像和视频分析的优化算法。该程序库建立于1999年, 目前在计算机视觉领域的研发人员社区中非常流行, 被用作主要开发工具。

编译语言 2025-03-12 18:12:12

文本相似度总结<一>

工业界的很多应用都有在语义上衡量文本相似度的需求, 我们将这类需求统称为“语义匹配”。从传统的无监督相似度方法, 到孪生模型, 交互式模型, BERT, 以及基于BERT的一些改进工作.总体来说, 在BERT出现之前, 文本相似度任务可以说是一个百花齐放的过程。

数据科学 2025-03-12 18:12:12

机器学习入门大纲

机器学习算法有助于从不同数据源收集数据, 转换富数据集的形式, 并基于分析结果, 帮助我们采取明智的行动。机器学习算法是高效、准确的方法, 并提供通用的学习方法来解决各种问题。

数据科学 2025-03-12 18:12:12

deepspeed 入门<一>

DeepSpeed是一个开源深度学习训练优化库, 其中包含的一个新的显存优化技术—— ZeRO(零冗余优化器), 通过扩大规模, 提升速度, 控制成本, 提升可用性, 极大地推进了大模型训练能力。

大模型 2025-03-12 18:12:12

关于 LLM 代理

LLM“代理”可以通过多种方式定义。一些客户将代理定义为完全自主的系统, 这些系统在较长时间内独立运行, 使用各种工具完成复杂的任务。其他人使用该术语来描述遵循预定义工作流的更规范的实施。

大模型 2025-03-12 18:12:12

从概念到代码：揭开 ChatGPT 算法的面纱[转]

在过去的两年里, ChatGPT 和大型语言模型 (LLM) 总体上一直是人工智能领域的大事。已经发表了许多关于如何使用、提示工程和背后的逻辑的文章。尽管如此, 当我开始熟悉 LLM 的算法(所谓的 transformer)时, 我必须浏览许多不同的来源才能感觉自己真正理解了这个主题。

大模型 2025-03-06 20:18:10

LLaMA,开源语言模型

LLaMA是Meta(Facebook)的开源语言模型, 该语言模型据说是比openAI的ChatGPT能力更强的。虽说是开源语言模型, 但如果想要直接使用, 还是需要通过Edu教育邮箱来申请资格的, 得到批复邮件之后, 可以做为科学研究使用

大模型 2025-03-05 17:53:50

大模型LLM 的基准测试<一>

LLMs的不可思议的能力可以推广到广泛的NLP任务, 这要求研究人员设计全面的评估基准, 以有效地测试他们在各种任务上的能力。这些基准测试应该涵盖 LLM 的全部功能, 同时足够简单, 易于管理和解释。

大模型 2025-03-05 17:53:50

finetune 的几种方法和对应框架

给定预训练模型(Pre_trained model),基于模型进行微调(Fine Tune)。相对于从头开始训练(Training a model from scatch), 微调为你省去大量计算资源和计算时间, 提高了计算效率,甚至提高准确率。

大模型 2025-03-04 11:48:38

RAG 入门<一>

RAG 顾名思义就是: Retrieval Augmented Generation, 即使用 LLM 生成, 它由严格编程的自动化流程或代理辅助的自动化流程辅助, 这些流程收集、操作并向系统提供数据。RAG 不是 Vector DB 技术, 而是一个定义松散的概念, 描述了自动化系统协助 LLM 生成的过程, 并且可以使用数据库(如 vector dbs、sql dbs 甚至普通文件)来增强其操作。

风无形，水无势，互联网没有昼夜。趁这稍许的闲暇时光，随手采摘或记录着这知识海洋的点点滴滴......

笔记导航

最新笔记

服务器管理与架构 2025-04-28 17:09:42

数据科学 2025-04-27 08:14:57

大模型 2025-04-27 08:14:57

大模型 2025-04-27 08:14:57

常用工具说明篇 2025-03-25 18:13:16

脚本语言 2025-03-16 21:29:36

数据科学 2025-03-16 21:29:36

数据科学 2025-03-16 21:29:36

脚本语言 2025-03-15 20:52:22

操作系统 2025-03-12 18:12:12

编译语言 2025-03-12 18:12:12

数据科学 2025-03-12 18:12:12

数据科学 2025-03-12 18:12:12

大模型 2025-03-12 18:12:12

大模型 2025-03-12 18:12:12

大模型 2025-03-06 20:18:10

大模型 2025-03-05 17:53:50

大模型 2025-03-05 17:53:50

大模型 2025-03-04 11:48:38

大模型 2025-03-04 11:48:38