Iawen's Blog

我喜欢这样自由的随手涂鸦, 因为我喜欢风......

Linux的安装与更新及基本设置

Linux 系统的U盘安装, 磁盘分区、LVM的扩展与大硬盘的挂载, 系统升级及安全更新(CentOS、Ubuntu)、SELinux已经内核的升级, 系统优化, 硬件信息查看等

操作系统 2023-09-05 22:19:47

使用OpenSSL, 生成各种证书

计算机网络上, OpenSSL是一个开放源代码的软件库包, 应用程序可以使用这个包来进行安全通信, 避免窃听, 同时确认另一端连线者的身份。这个包广泛被应用在互联网的网页服务器上。

安全(WEB与软件) 2023-09-05 22:19:47

Linux下编译程序

系统设置,环境变量,目标模块,归档生成静态库文件,在x64位Linux上生成动态链接库必须使用编译选项-fPIC的问题,查看依赖库...

编译语言 2023-07-28 10:31:15

StarCoder初接触

BigCode 是由 HuggingFace和ServiceNow共同领导的开放式科学合作项目, 该项目致力于开发负责任的代码大模型。StarCoderBase 模型是使用 The Stack(v1.2)中的 80+ 种编程语言训练的 15.5B 参数模型, 不包括选择退出请求。该模型使用多查询注意力(包含 8192 个令牌的上下文窗口), 并使用 1 万亿个令牌的中间填充目标进行训练。

数据科学 2023-07-28 10:31:15

finetune 的几种方法和对应框架

给定预训练模型(Pre_trained model),基于模型进行微调(Fine Tune)。相对于从头开始训练(Training a model from scatch),微调为你省去大量计算资源和计算时间,提高了计算效率,甚至提高准确率。

数据科学 2023-07-28 10:31:15

Python常用模块介绍与使用说明

Python由荷兰数学和计算机科学研究学会的吉多·范罗苏姆 于1990 年代初设计, 作为一门叫做ABC语言的替代品。Python提供了高效的高级数据结构, 还能简单有效地面向对象编程。Python语法和动态类型, 以及解释型语言的本质......

脚本语言 2023-07-07 13:51:29

Embedding与向量数据库总结

Embedding 的基本内容大概就是这么多啦, 然而小普想说的是它的价值并不仅仅在于 word embedding 或者 entity embedding 再或者是多模态问答中涉及的 image embedding, 而是这种能将某类数据随心所欲的操控且可自学习的思想。

数据科学 2023-07-05 21:50:57

deepspeed 入门<一>

DeepSpeed是一个开源深度学习训练优化库, 其中包含的一个新的显存优化技术—— ZeRO(零冗余优化器), 通过扩大规模, 提升速度, 控制成本, 提升可用性, 极大地推进了大模型训练能力。

数据科学 2023-07-05 21:43:00

transformers 入门<一>

Huggingface Transformer能够帮我们跟踪流行的新模型, 并且提供统一的代码风格来使用BERT、XLNet和GPT等等各种不同的模型。而且它有一个模型仓库, 所有常见的预训练模型和不同任务上fine-tuning的模型都可以在这里方便的下载。

数据科学 2023-07-05 21:43:00

常用的NER(Named Entity Recognition)库总结

命名实体识别(Named Entity Recognition, NER)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度, 决定了下游任务的效果, 是NLP中非常重要的一个基础问题。

数据科学 2023-07-05 21:43:00

DeepCTR 和 DeepMatch|推荐算法框架

DeepCTR 和 DeepMatch是知乎浅梦大神以及其他大佬开发的针对推荐系统排序召回算法训练推理的一套框架, 支持embedding matrix模块和类似tf estimator 的feature column, 并继承大量排序, 召回已有模型, 能够帮助学生和从业者很快搭建一套推荐算法架构。

数据科学 2023-06-21 15:28:56

埋点设计一二三

埋点是数据领域的专业术语, 它的学名叫事件追踪, 对应的英文是Event Tracking。它主要是针对特定用户行为或事件进行捕获、处理和发送的相关技术及其实施过程。

服务器管理与架构 2023-06-21 14:45:46

MongoDB 基础与简介

MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案.它支持的数据结构非常松散, 是类似json的bson格式, 因此可以存储比较复杂的数据类型...

数据库 2023-06-21 07:37:31

Neo4j 入门

Neo4j是一个高性能的,NOSQL图形数据库, 它将结构化数据存储在网络上而不是表中。它是一个嵌入式的、基于磁盘的、具备完全的事务特性的Java持久化引擎, 但是它将结构化数据存储在网络(从数学角度叫做图)上而不是表中。

图数据库 2023-06-21 07:37:31

PaddleNLP的简介与使用

PaddleNLP 是飞桨自然语言处理开发库, 具备易用的文本领域API, 多场景的应用示例、和高性能分布式训练三大特点, 旨在提升飞桨开发者文本领域建模效率, 旨在提升开发者在文本领域的开发效率, 并提供丰富的NLP应用示例

数据科学 2023-06-21 07:37:31

初次接触chatGPT<一>

chatGPT 是在经历了多轮迭代之后, 才出现的产物。从最开始的 GPT-1.0, 经历了GPT- 2.0 , GPT-3.0 , GPT-3.5 再到instructGPT、chatGPT.OpenAI的语言模型使用了深度神经网络, 并使用了非常大的数据集进行训练, 这导致了模型参数数量的大幅度增加。

数据科学 2023-06-17 15:26:57

Docker 从入门到实践

Docker 支持 Windows/Linux/Mac/AWS/Azure 多种平台的安装, 其中 Windows 需要 Win10+, Mac 需要 EI Captain+。Docker 是一个 C/S 架构的服务, 安装好 docker 之后需要启动 docker 软件后才能使用 docker 命令。Docker 软件包已经包括在默认的 CentOS-Extras 软件源里。因此想要安装 docker, 只需要运行下面的 yum 命令.

服务器管理与架构 2023-06-01 15:46:19

Linux 网络配置

常用网络配置和经网络检测, 包含: network, ip, sysctl, iptables, lsof, netstat, slabtop等

安全(WEB与软件) 2023-06-01 15:46:19

初次接触深度学习<一>

深度学习是机器学习的一个分支领域:它是从数据中学习表示的一种新方法, 强调从连续的层(layer)中进行学习, 这些层对应于越来越有意义的表示。"深度学习"中的"深度"指的并不是利用这种方法所获取的更深层次的理解, 而是指一系列连续的表示层。

数据科学 2023-06-01 15:46:19

深度学习中常见的数据处理方法

数据作为三者之中不容易用标准化的元素来说, 其不可控的原因主要是由于不同的任务要使用不同的数据集, 所以很难对数据做到真正的标准化和模块化, 无法像算法模型一样直接对其调用。

数据科学 2023-06-01 15:46:19
1 2 3 4 5 6