排序
机器学习简介
1 机器学习基础 1.1 机器学习的定义与核心概念 为了更深入地理解机器学习,我们可以从以下核心概念入手: 数据驱动:机器学习完全依赖于数据。这些数据既可以是结构化的,如表格,也可以是非结...
过拟合与欠拟合
过拟合与欠拟合 过拟合和欠拟合现象的定义 过拟合和欠拟合模型是深度学习模型在训练过程中比较容易出现的不好的现象。 当模型的表现能力弱于事件的真实表现时,会出现欠拟合现象。某个非线性模...
聚类算法之高斯混合模型聚类 (Gaussian Mixture Model, GMM)
高斯混合模型(GMM)是统计模型中的一颗璀璨之星,它为数据提供了一种复杂而又强大的表示方法。在机器学习的许多领域,从模式识别到图像处理,GMM都被广泛地采用和研究。它背后的核心思想是使用...
聚类算法之层次聚类 (Hierarchical Clustering)
层次聚类是一种非常独特和强大的聚类方法,与众多其他的聚类技术相比,它不仅为数据集提供了一个划分,还给出了一个层次结构,这在某些应用中是非常有价值的。在生物信息学、社会网络分析、市场...
聚类算法总结
1. K均值(K-Means) 计算效率高,适合大数据集。 结果易于解释。 缺点: 需要预先设定聚类数量 K。 对异常值敏感。 假设聚类为凸形且各向同性,可能不适用于复杂形状的数据分布。 初始中心点的...
聚类算法之DBSCAN (Density-Based Spatial Clustering of Applications with Noise)
DBSCAN是在1990年代后期推出的一种聚类方法,它迅速成为基于密度的聚类技术中最受欢迎和广泛使用的算法之一。与传统的聚类方法如K-means不同,DBSCAN的主要优势在于其能够识别出任意形状的聚类...
支持向量机(SVM)
什么是SVM? SVM 是一类强大的用于分类和回归问题的监督学习算法。 在分类方面,SVM 可以被视为最大间隔线性分类器。 SVM 使用的目标明确鼓励低样本外误差(良好的泛化性能)。 通过最大化类的超...
降维算法之t-SNE (t-Distributed Stochastic Neighbor Embedding)
t-SNE是一种用于探索高维数据结构的非线性降维技术。它特别适用于高维数据的可视化,因为它能够在低维空间中保留原始高维数据的局部结构。由于这个特性,t-SNE在机器学习和数据分析领域越来越受...
多项式回归算法
算法解读 多项式回归是回归分析的一种形式,它允许因变量 \(y\) 与自变量 \(x\) 之间的关系模型化为 \(x\) 的 \(n\) 次多项式。多项式回归的标准形式如下:$$y=\beta_0+\beta_1 x+\beta_2 x^2+\b...
降维算法之主成分分析 (Principal Component Analysis, PCA)
主成分分析(PCA)是一种统计方法,用于减少数据的维度,同时尽量保留原始数据中的方差。PCA在机器学习和数据可视化中有着坚实的地位,因为它可以有效地简化数据,同时保留其核心特征。 1 算法...
逻辑回归算法
逻辑回归算法解读 基本原理: 有了之前线性回归的学习,我们学习逻辑回归是非常简单的,核心就是通过sigmoid函数将线性回归的输出映射到(0,1)区间,表示为概率。简单来说,逻辑回归模型的输出是...