机器学习概要

作者:Kinglong    发表时间:2024-02-25 20:48   

关键词:  

参考:https://blog.csdn.net/weixin_42301220/article/details/12394052

1.机器学习概述

机器学习是一种人工智能的分支领域,它致力于研究如何使计算机系统通过学习数据和经验来改善其性能。

机器学习的目标是让计算机系统具有自我学习的能力,从而能够自动地识别模式、预测趋势、进行决策并执行任务。

机器学习可以分为监督学习、无监督学习和强化学习三种主要类型。

在监督学习中,系统通过已知的输入和输出数据来学习模式,并根据这些模式来预测新的输出。在无监督学习中,系统从未标记的数据中自动发现模式和关联。在强化学习中,系统通过与环境互动来学习如何做出最优的决策。

机器学习在各种领域都有广泛的应用,包括自然语言处理、计算机视觉、医疗诊断、金融预测等。随着数据量的不断增加和计算能力的提升,机器学习技术正变得越来越重要和普遍。

2.机器学习相关技术

监督学习(Supervised Learning):监督学习是最常见的机器学习方法之一,它通过已知的输入和输出数据来训练模型,从而使得模型能够预测新的输出。常见的监督学习算法包括线性回归、逻辑回归、支持向量机(SVM)、决策树等。

无监督学习(Unsupervised Learning):无监督学习是一种从未标记数据中自动发现模式和关联的方法。常见的无监督学习算法包括聚类、关联规则挖掘、主成分分析(PCA)等。

半监督学习(Semi-supervised Learning):训练数据中只有部分样本有标签信息,模型利用有标签和无标签数据进行学习。

强化学习(Reinforcement Learning):强化学习是一种通过与环境互动来学习如何做出最优决策的方法。在强化学习中,系统根据执行的动作和环境的反馈来不断调整策略,以获得最大的奖励。

深度学习(Deep Learning):深度学习是一种基于人工神经网络的机器学习方法,它通过多层次的神经网络结构来学习复杂的模式和特征。深度学习在计算机视觉、自然语言处理等领域取得了很大的成功。

迁移学习(Transfer Learning):迁移学习是一种利用已有知识来加速新任务学习的方法。通过将已训练好的模型或特征迁移到新任务中,可以减少训练时间和数据需求。

集成学习(Ensemble Learning):集成学习是一种将多个基本模型集成在一起来提高预测性能的方法。常见的集成学习算法包括随机森林、梯度提升树等。

3.机器学习术语

数据集(data set):所有记录的集合为。

样本(Sample):数据集中的一个单独的数据点,通常表示为一个向量。

训练集(trainning set):所有训练样本的集合。

测试集(test set):所有测试样本的集合。

特征(Feature):样本中的属性或变量,用来描述样本的特点。

特征向量(feature vector):特征向量是一个包含了样本特征值的向量,每个元素对应一个特征。在特征向量中,每个特征可以是数值、类别、文本或其他形式的数据。

标签(Label):监督学习中的输出变量,用来表示样本的类别或结果。

模型(Model):根据训练数据学习到的用来预测未知数据的规律或函数。

训练(Training):使用标记的训练数据来学习模型的过程。

测试(Testing):用来评估模型性能的未标记数据集。

分类(classification):预测值为离散值的问题,是监督学习的范畴。

回归(regression):预测值为连续值的问题,是监督学习的范畴。

聚类(Clustering):是一种无监督学习方法,旨在将数据集中的样本分成具有相似特征的组或簇。聚类算法试图发现数据中的内在结构,将数据点划分为不同的类别,使得同一类别内的数据点彼此相似,而不同类别之间的数据点具有明显的差异。

损失函数(Loss Function):衡量模型预测值与真实值之间差距的函数。

优化算法(Optimization Algorithm):用来调整模型参数以最小化损失函数的算法,如梯度下降。

泛化(Generalization):模型对未见过的数据的预测能力,从特殊到一般。

欠拟合(Underfitting):模型无法很好地拟合训练数据,表现不够复杂或灵活。

过拟合(Overfitting):模型在训练数据上表现很好,但在测试数据上表现较差的现象。

4.部分术语扩展

特征向量

    特征向量(Feature Vector)是机器学习和数据分析中常用的概念,用于表示数据样本的特征信息。特征向量是一个包含了样本特征值的向量,每个元素对应一个特征。在特征向量中,每个特征可以是数值、类别、文本或其他形式的数据。

    特征向量在机器学习任务中扮演着重要的角色,因为模型的输入通常是由特征向量表示的。特征向量的选择和构建对于模型的性能和效果具有重要影响。一些常见的特征向量表示方法包括:

  1. 数值特征向量:包含数值型特征的向量,如身高、体重等。

  2. 类别特征向量:使用独热编码(One-Hot Encoding)等方法将类别型特征转换为向量形式。

  3. 文本特征向量:通过文本处理技术(如词袋模型、TF-IDF等)将文本数据表示为向量。

  4. 图像特征向量:使用卷积神经网络(CNN)等方法提取图像特征并表示为向量。

    特征向量的维度取决于数据样本的特征数量,通常情况下,特征向量的维度越高,模型的表达能力也越强。然而,高维度的特征向量可能会导致维度灾难(Curse of Dimensionality)问题,因此在特征选择和降维的过程中需要注意平衡模型性能和计算效率。

聚类

    聚类(Clustering)是一种无监督学习方法,旨在将数据集中的样本分成具有相似特征的组或簇。聚类算法试图发现数据中的内在结构,将数据点划分为不同的类别,使得同一类别内的数据点彼此相似,而不同类别之间的数据点具有明显的差异。

    聚类算法的目标是最大化簇内的相似性,同时最小化簇间的差异性。常见的聚类算法包括:

  1. K均值聚类(K-means Clustering):将数据点划分为K个簇,每个簇由其内部数据点的中心(质心)表示。算法通过迭代优化簇的中心位置来最小化簇内的方差。

  2. 层次聚类(Hierarchical Clustering):根据数据点之间的相似度逐步合并或分裂簇,形成层次结构。可以是自底向上的凝聚聚类(Agglomerative Clustering)或自顶向下的分裂聚类(Divisive Clustering)。

  3. DBSCAN:基于密度的聚类算法,能够识别任意形状的簇,并且可以自动识别异常值。

  4. 高斯混合模型(Gaussian Mixture Model,GMM):假设数据是由多个高斯分布混合而成,通过最大化似然函数来拟合数据并进行聚类。

  5. 谱聚类(Spectral Clustering):基于数据的相似性图谱,将数据点投影到低维空间进行聚类。

    聚类算法在数据挖掘、模式识别、图像分割等领域广泛应用,可以帮助发现数据中的潜在结构并进行数据分析。在实际应用中,选择合适的聚类算法和合适的簇数是关键,以确保得到有意义的结果。