排序
降维算法之奇异值分解 (Singular Value Decomposition, SVD)
引言 在机器学习和数据分析领域,当数据的维度特别高时,处理和分析数据就会变得尤为困难。这是因为随着维度的增加,数据的稀疏性也会增加,这种现象被称为“维度的诅咒”。为了克服这个挑战,...
降维算法之主成分分析 (Principal Component Analysis, PCA)
主成分分析(PCA)是一种统计方法,用于减少数据的维度,同时尽量保留原始数据中的方差。PCA在机器学习和数据可视化中有着坚实的地位,因为它可以有效地简化数据,同时保留其核心特征。 1 算法...
岭回归与LASSO回归
引言 岭回归: 通过向线性回归中引入L2正则化项防止过拟合。 LASSO回归: 通过向线性回归中引入L1正则化项实现特征选择。 L1正则化与LASSO回归 L1正则化通过在损失函数中添加参数权重的绝对值和的...
降维算法之t-SNE (t-Distributed Stochastic Neighbor Embedding)
t-SNE是一种用于探索高维数据结构的非线性降维技术。它特别适用于高维数据的可视化,因为它能够在低维空间中保留原始高维数据的局部结构。由于这个特性,t-SNE在机器学习和数据分析领域越来越受...
聚类算法之DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
DBSCAN是在1990年代后期推出的一种聚类方法,它迅速成为基于密度的聚类技术中最受欢迎和广泛使用的算法之一。与传统的聚类方法如K-means不同,DBSCAN的主要优势在于其能够识别出任意形状的聚类...
聚类算法之层次聚类 (Hierarchical Clustering)
层次聚类是一种非常独特和强大的聚类方法,与众多其他的聚类技术相比,它不仅为数据集提供了一个划分,还给出了一个层次结构,这在某些应用中是非常有价值的。在生物信息学、社会网络分析、市场...
GPT-3:大语言模型的爆发
引言 在科技界,GPT3的热潮正如火如荼地展开。这类庞大的语言模型(比如GPT3)开始以它们惊人的能力让我们惊叹。虽然现在对于大多数企业来说,将它们直接应用于面对客户的业务中还不够可靠,但...
GPT-2:迈向先进语言模型的大步
2023年,我们见证了机器学习的一个耀眼应用——OpenAI的Chat GPT。这个模型不仅仅展现了写作连贯、充满激情的文章的能力,更超出了我们对当前语言模型能力的预期。Chat GPT虽然并非一个特别新颖...
BERT, ELMo大语言模型详解
引言 2018年,对于处理文本的机器学习模型来说,可谓是一个转折点(更准确地说,是自然语言处理或简称NLP领域)。我们对于如何最佳地表示词语和句子,以捕捉其潜在的含义和关系的理解正在迅速发...
蚁群优化算法(Ant Colony Optimization Algorithm)
算法引言 蚁群算法,是一种模拟蚂蚁觅食行为的优化算法。想象一下,当你在野餐时,不小心洒了一些糖在地上。一只蚂蚁偶然发现了这些糖,就会在回巢的路上留下信息素,引导其他蚂蚁也找到这个食...