机器学习、深度学习与AI基础

1.机器学习和深度学习的定义与差别

机器学习：是一种人工智能技术，在给定数据集的情况下，可以自动学习模式并使用学习结果来预测或做出决策。它依靠数学和统计学算法来构建模型，这些模型可以使计算机在没有明确编程的情况下自主学习。

深度学习：是一种机器学习的方法，它利用由多个层次构成的神经网络来模拟和解决复杂问题。它的核心思想是通过层次化的学习和特征提取，从而逐步提高模型对数据的表征能力和预测能力。在深度学习中，核心技术包括反向传播算法、卷积神经网络、循环神经网络、生成对抗网络等。深度学习具有广泛的应用场景，如图像识别、语音识别、自然语言处理、人工智能等领域。

主要区别

模型复杂性
1.1机器学习：通常采用较为简单的模型，如线性回归、逻辑回归、支持向量机、决策树等。这些模型结构简单，易于理解和解释，适用于中小规模的数据集。
1.2深度学习：使用多层神经网络，尤其是深度神经网络，包含大量的参数和复杂的计算结构。典型的深度学习模型如卷积神经网络（CNN）、循环神经网络（RNN）、生成对抗网络（GAN）等，能够处理复杂的高维数据。
特征提取
2.1机器学习：通常需要人工进行特征工程，根据领域知识提取关键特征，以便算法能够更好地理解和利用数据。这一过程需要大量的专家知识和经验。
2.2深度学习：通过多层神经网络的自动特征提取能力，从原始数据中自动学习和提取高层次特征。无需人工干预，网络层次越深，提取的特征越抽象和复杂。
数据与计算资源
3.1机器学习：适用于数据量相对较小的任务，对计算资源要求较低，通常在普通计算机上即可运行。
3.2深度学习：需要大量的数据进行训练，尤其是在图像、语音、自然语言处理等领域。对计算资源要求较高，通常需要GPU或TPU等高性能计算设备支持。

2.机器学习/深度学习/AI的内容以及什么是学习？

① 输入（图片、数据集）；②算法（参数）；③输出（分类）

这里的算法（参数）就被称为感知机，通过调整参数，使得可以把输入（图片、数据集）进行分类（输出）。通过反复对参数的试错和调整称之为参数的学习，也叫模型的训练

3. 学习的分类

机器学习通常分为三种主要类型：监督学习、无监督学习和强化学习。

监督学习： 监督学习是指在训练数据集中包含输入和相应的正确输出，通过学习这些输入输出对，模型能够推断出新的数据。常见的监督学习算法有：
1.1 线性回归算法（Linear Regression）：线性回归是机器学习中最基础也是应用最广泛的算法之一。它主要用于预测一个或多个自变量（输入特征）与一个因变量（输出标签）之间的线性关系。线性回归模型试图找到一条直线（在二维空间中）或一个超平面（在更高维空间中），使得所有数据点到这条直线或超平面的垂直距离之和最小，这样的直线或超平面称为最佳拟合线或最佳拟合超平面。
1.2 支持向量机算法（Support Vector Machine,SVM）：支持向量机（Support Vector Machine，SVM）是一种监督学习算法，可以用于分类或回归任务。SVM的基本模型是在特征空间上找到一个最优的超平面，这个超平面能够最好地将不同类别的数据分开，同时保持最大的间隔（margin）。对于分类问题，SVM寻找一个超平面，使得距离最近的两个不同类别的数据点之间的距离最大，这样的超平面称为最大间隔超平面。
1.3 最近邻居/k-近邻算法（K-Nearest Neighbors,KNN）：k-近邻（k-Nearest Neighbors，k-NN）算法是一种基本的机器学习算法，用于分类和回归任务。它的工作原理非常简单：对于一个未知类别的数据点，k-NN算法会在训练集中找到与它最接近的k个数据点，然后根据这k个“邻居”的类别来预测未知数据点的类别。如果k-NN用于回归任务，那么预测值通常是k个邻居的平均值。
1.4 逻辑回归算法（Logistic Regression）
1.5 决策树算法（Decision Tree）：决策树（Decision Tree）是一种常见的机器学习算法，用于分类和回归任务。它是一种监督学习算法，以树形结构进行决策。每个内部节点代表一个特征，每个分支代表一个特征的测试结果，每个叶节点代表一个分类或回归结果。
1.6 随机森林算法（Random Forest）：随机森林（Random Forest）是一种基于决策树的集成学习算法。它通过构建多个决策树并进行投票来提高预测的准确性和稳定性。随机森林在处理分类和回归任务时都非常有效，尤其是对于具有大量特征的数据集。
1.7 朴素贝叶斯算法（Naive Bayes）：朴素贝叶斯（Naive Bayes）算法是一种基于贝叶斯定理的简单概率分类器，它假设特征之间相互独立。尽管这种独立性假设在现实世界中通常不成立，但朴素贝叶斯分类器在许多实际应用中仍然非常有效。
无监督学习：无监督学习是在没有标注数据的情况下，模型需要自己发现数据的结构和模式。常见的无监督学习算法有：
2.1 聚类算法（Clustering Algorithms）：
2.1.1 K-means：K-平均（K-Means）算法是一种无监督的聚类算法，它的目的是将相似的数据点分组到一起，形成多个簇（cluster）。算法通过迭代过程来优化簇内点的均方误差，直到达到收敛条件。
2.1.2 层次聚类
2.2 降维算法：降维（Dimensionality Reduction）是机器学习中的一个重要概念，它涉及到减少数据集的维数，同时尽可能地保留数据中的有用信息。降维的目的是为了简化模型，提高计算效率，减少过拟合的风险，并可能提高模型的泛化能力。
2.2.1 主成分分析（Principal Component Analysis, PCA）：用于降维，提取数据中最重要的特征。
2.3 关联规则学习（Association Rule Learning）：如Apriori算法，用于发现数据中的关联关系，常用于市场篮子分析。
半监督学习算法：
3.1 朴素贝叶斯算法（Naive Bayes）：虽然通常被视为分类算法，但在某些情况下也可以用于非监督学习，尤其是在特征选择和概率模型中。
3.2 梯度增强算法（Gradient Boosting）：梯度提升（Gradient Boosting）是一种强大的机器学习算法，用于构建预测模型。它是一种迭代算法，通过组合多个弱学习器（通常是非参数或简单模型）来形成一个强大的预测模型。虽然通常用于监督学习，但也可以用于非监督学习任务，如排名和异常检测。
强化学习：强化学习是一种通过与环境交互来学习策略的算法。模型通过试错方式，不断调整其策略以获得最大化的奖励。典型应用包括游戏AI、机器人控制等。主要方法包括：
4.1 Q-learning：通过更新Q值表格来学习最优策略。
4.2 深度强化学习（Deep Reinforcement Learning）：结合深度学习技术，如深度Q网络（DQN），用于处理复杂的高维度问题。

4.感知机与神经网络的关系？

通过把人工神经元（感知机）组合起来从而获得更强大的分类能力，神经元可以组成“层”，更多的“层”又组成了所谓的“神经网络”（多层感知机的进阶），神经网络的层越多，感知能力越强，越学越深，即称之为“深度学习”，其实就是通过“学习”调整“参数”，让模型的输出离给定的目标越来越近。

5.深度学习的核心——神经网络是什么？

深度学习是机器学习的一个子领域，它受到人脑中神经网络的启发，通过构建“深层”的神经网络来模拟人类学习的过程。深度学习模型由多个处理层组成，这些层可以自动学习数据的多层次特征，无需人工干预。

卷积神经网络（Convolutional Neural Network, CNN）：即指并非每一层的感知机不需要和前一层的所有感知机全都稠密的连接，而只需要和局部的几个感知机连接，而且每一个感知机和前一层连接的参数和结构又都是类似的，这样可以减少参数和运算量，从而提升神经网络的性能。CNN广泛应用于图像识别和处理。
循环神经网络（Rerrent Neural Network, RNN）：RNN对具有序列特性的数据非常有效，它能挖掘数据中的时序信息以及语义信息
生成对抗网络（Generative Adversarial Networks, GAN）：由两个网络组成，一个生成数据，另一个评估数据，常用于图像生成和风格转换。
人工神经网络（Artificial Neural Networks, ANN）:

参考链接

https://blog.csdn.net/qq_52213943/article/details/135115245
https://blog.csdn.net/weixin_69553582/article/details/131406297
https://blog.csdn.net/weixin_42132035/article/details/140237091
https://blog.csdn.net/Like_July_moon/article/details/136750962

一	二	三	四	五	六	日
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30