机器学习
机器学习

机器学习:

监督学习模型(使用有标签的数据)

监督学习是指从标记的训练数据中学习,以便对新的、未见过的数据做出预测或决策的机器学习方法。在监督学习中,每个训练样本都是成对的,包括输入数据和对应的标签或输出。模型通过学习这些有标签的数据,来建立输入与输出之间的映射关系,从而对未知数据进行预测。

分类

识别:预测离散标签,例如垃圾邮件检测(是 / 否)、图像中的物体分类、疾病诊断(有病 / 无病)等。分类算法有随机森林、决策树、逻辑回归、支持向量机等

回归:预测连续值,如房价预测、股票价格预测、气温预测等。常见的回归算法包括线性回归、回归树、非线性回归、贝叶斯线性回归、多项式回归等。

非监督学习(使用没有标签的数据)

非监督学习是一类在没有给定明确标签或目标值的情况下,对数据进行分析和建模的机器学习技术。它旨在发现数据中的内在结构、模式或规律,通过数据自身的特征和关系来对数据进行分组、降维或其他形式的处理,以揭示数据中隐藏的信息。

分类

聚类:将数据点划分为不同的簇,使得同一簇内的数据点相似度较高,而不同簇之间的数据点相似度较低。例如,对客户进行细分,将具有相似购买行为的客户归为一类;对图像中的物体进行聚类,将相似特征的物体分为一组。常见的聚类算法有 K-Means、DBSCAN、层次聚类等。

降维 : 三维——>二维 剔除次要维度信息

在尽量保留数据原有信息的前提下,减少数据的维度,去除数据中的冗余信息,以便于数据的可视化、存储和进一步分析。比如,在处理高维的图像数据或基因数据时,通过主成分分析(PCA)等方法将数据投影到低维空间。主要的降维方法有主成分分析(PCA)、线性判别分析(LDA)、t-SNE 等。

进行机器学习的七个步骤:

数据收集

数据清洗与转换

特征工程

模型选择

模型评估 (使用单独数据集)

改进模型


Last modified on 2025-02-27