Iawen's Blog

我喜欢这样自由的随手涂鸦, 因为我喜欢风......

初次接触深度学习<一>

深度学习是机器学习的一个分支领域:它是从数据中学习表示的一种新方法, 强调从连续的层(layer)中进行学习, 这些层对应于越来越有意义的表示。"深度学习"中的"深度"指的并不是利用这种方法所获取的更深层次的理解, 而是指一系列连续的表示层。

数据科学 2024-05-02 21:07:13

文本相似度总结<一>

工业界的很多应用都有在语义上衡量文本相似度的需求, 我们将这类需求统称为“语义匹配”。从传统的无监督相似度方法, 到孪生模型, 交互式模型, BERT, 以及基于BERT的一些改进工作.总体来说, 在BERT出现之前, 文本相似度任务可以说是一个百花齐放的过程。

数据科学 2024-04-28 17:13:42

Embedding与向量数据库总结

Embedding 的基本内容大概就是这么多啦, 然而小普想说的是它的价值并不仅仅在于 word embedding 或者 entity embedding 再或者是多模态问答中涉及的 image embedding, 而是这种能将某类数据随心所欲的操控且可自学习的思想。

数据科学 2024-04-26 18:13:47

了解科学计算的Python相关基础

科学计算(scientific computing)是指在科学与工程领域, 使用计算机数学建模和数值分析技术分析和解决问题的过程。科学问题包括不同科学学科中的问题, 如地球科学、空间科学、社会科学、生命科学、物理学和形式科学。

数据科学 2023-10-18 17:07:09

常用的NER(Named Entity Recognition)库总结

命名实体识别(Named Entity Recognition, NER)是NLP中一项非常基础的任务。NER是信息提取、问答系统、句法分析、机器翻译等众多NLP任务的重要基础工具。命名实体识别的准确度, 决定了下游任务的效果, 是NLP中非常重要的一个基础问题。

数据科学 2023-07-05 21:43:00

DeepCTR 和 DeepMatch|推荐算法框架

DeepCTR 和 DeepMatch是知乎浅梦大神以及其他大佬开发的针对推荐系统排序召回算法训练推理的一套框架, 支持embedding matrix模块和类似tf estimator 的feature column, 并继承大量排序, 召回已有模型, 能够帮助学生和从业者很快搭建一套推荐算法架构。

数据科学 2023-06-21 15:28:56

PaddleNLP的简介与使用

PaddleNLP 是飞桨自然语言处理开发库, 具备易用的文本领域API, 多场景的应用示例、和高性能分布式训练三大特点, 旨在提升飞桨开发者文本领域建模效率, 旨在提升开发者在文本领域的开发效率, 并提供丰富的NLP应用示例

数据科学 2023-06-21 07:37:31

深度学习中常见的数据处理方法

数据作为三者之中不容易用标准化的元素来说, 其不可控的原因主要是由于不同的任务要使用不同的数据集, 所以很难对数据做到真正的标准化和模块化, 无法像算法模型一样直接对其调用。

数据科学 2023-06-01 15:46:19

推荐系统及相关算法简介

随着信息技术和互联网的发展, 人们逐渐从信息匮乏的时代走入了信息过载(information overload)的时代。推荐系统的任务就是联系用户和信息, 一方面帮助用户发现对自己有价值的信息, 另一方面让信息能够展现在对它感兴趣的用户面前, 从而实现信息消费者和信息生产者的双赢。

数据科学 2023-05-21 19:54:59

NLP自然语言处理相关一些知识点汇集<一>

自然语言处理( Natural Language Processing, NLP)是计算机科学领域与人工智能领域中的一个重要方向。它研究能实现人与计算机之间用自然语言进行有效通信的各种理论和方法

数据科学 2023-03-05 09:22:44

一文了解什么是RPA

RPA, 即Robotic Process Automation(机器人流程自动化), 是以机器人作为虚拟劳动力, 依据预先设定的程序与现有用户系统进行交互并完成预期的任务。通俗的讲, RPA机器人就是借助一些能够自动执行的脚本

数据科学 2023-03-05 09:22:44