cs_notes

1. Introduction, Optimization Problems (MIT 6.0002 Intro to Computational Thinking and Data Science)

这个视频介绍了优化问题。优化问题是指寻找使目标函数取得极值的解决方案。目标函数通常取决于一组决策变量。

优化问题包括最大化问题和最小化问题。最大化问题是找出使目标函数取得最大值的决策变量组合。最小化问题则是找出使目标函数取得最小值的决策变量组合。

优化问题在科学、工程和商业中的应用很广泛。例如计算机程序优化、生产计划、电路设计等都可以表述为优化问题。

解决优化问题需要考虑目标函数和决策变量的关系,找出目标函数极值点。通常使用计算机进行求解。求解方法包括穷举搜索、梯度下降法等。

优化问题的求解过程中,决策变量可能受限制条件的约束。约束条件分为等式约束和不等式约束。满足所有约束的决策变量组合才是问题的可行解。

优化问题求解的最终目的是找到使目标函数取得极值的可行解,也就是优化问题的解答。

2. Optimization Problems

优化问题是指寻找一个目标函数所取值最大或者最小的问题。目标函数取决于一组决策变量。

优化问题可以分为最大化问题和最小化问题两种:

优化问题广泛应用于科学、工程和商业等领域。例如:

求解优化问题需要考虑目标函数与决策变量之间的关系,找到目标函数值的极值点。通常使用计算机和算法求解,如穷举搜索法和梯度下降法。

在实际问题中,决策变量可能受限于一定的约束条件,如等式约束和不等式约束。只有决策变量组合满足所有约束条件,才是问题的可行解。优化问题的最终 goal 是找到一个使目标函数取得极值的可行解。

3. Graph-theoretic Models

图论模型可以用来描述许多优化问题。

图通常由顶点和边组成。在优化问题中:

常见的图论模型包括:

这些图论模型可以用于运筹问题求解,如作业安排、城市规划或网络流设计等。利用图的结构化特征也常常可以简化问题求解的难度。

4. Stochastic Thinking

许多优化问题中,决策变量的值或目标函数结果会受到随机因素的影响,我们称这些问题为随机优化问题。

随机优化问题需要考虑不确定性,常用的方法包括:

随机优化问题于是也可以看作是相对优化问题的一个概括,其中包含有确定性和不确定性因素的影响。正确处理随机因素对问题求解至关重要。

5. Random Walks

随机游走是一个简单并广泛使用的随机过程。它可以用于描述和模拟许多不同类型的随机优化问题。

随机游走定义为:一个对象(通常简称为“行者”)在一个 discreet 状态空间中的位置,在每一个时间步中有基于其当前位置的概率转移到相邻的位置。

简单随机游走的基本假设包括:

随机游走在许多应用中都有用处,比如模拟分子的Brownian motion,计算PageRank算法,描述病毒在网络中的传播等。

通过改变基本假设,也可以建立各种有趣的随机游走变体来模拟更复杂的随机优化问题。

6. Monte Carlo Simulation

蒙特卡洛模拟是一个通过随机采样来解决某些问题的计算技术。它广泛应用于优化问题的随机求解。

蒙特卡洛模拟的基本思想是:

具体应用包括:

蒙特卡洛模拟的优点是数学形式没有限制,可以用于任何概率空间。其结果虽不确定但随抽样次数增加逼近真实分布。

7. Confidence Intervals

置信区间是描述抽样统计量分布情况的一个统计概念。它可用于分析蒙特卡洛模拟的结果。

置信区间的定义为:给定一个置信水平(如95%),该区间统计量的真实值落入该区间的概率便等于该置信水平。

例如当通过蒙特卡洛模拟估算期望值为μ,若其95%置信区间为[a, b],则μ的真实值落在a和b之间的概率为95%。

计算置信区间的常用方法包括:

正确理解模拟结果的置信区间,可以反应样本数量对精度的影响,并给出数值结果的可信程度。这对分析随机优化问题十分重要。

8. Sampling and Standard Error

抽样和标准误是分析模拟结果的重要概念。

标准误指的是采用不同样本计算的统计量的标准差。它反映了估计值的随机误差大小。

标准误与样本量成反比。样本量越大:

  1. 各样本计算出来的统计量分布将更紧密地集中在总体真实值周围;

  2. 标准误将越小,估计值的准确性就越高。

在评估蒙特卡洛模拟结果时,标准误可以指出:

正确理解标准误对分析随机性问题和求解是否收敛都很重要。

9. Understanding Experimental Data

理解实验数据对优化问题的求解很重要。主要包括:

数据驱动的方法,需要深入理解数据背后的物理意义,把控变量和参数关系,才能有效解决优化问题。

10. Understanding Experimental Data (cont.)

理解实验数据对优化问题求解至关重要。

除数据描述和模型学习外,还需要关注:

全面高质量的数据是优化问题重要一环,深入研究数据尤其重要。

11. Introduction to Machine Learning

机器学习是一个数据驱动的方法,可以应用于解决优化问题。

机器学习的基本思想是:

常见机器学习方法包括:

机器学习的优点是:

机器学习逐步成为解决优化问题重要技术之一。

12. Clustering

聚类是一种无监督机器学习技术。它可以用来识别结构和寻找数据中的模式。

聚类的目的是:

常用的聚类算法有:

聚类可用于:

通过识别数据模式,有助于理解规律并优化相关问题。

13. Classification

分类是监督学习的一个重要任务。它通过学习真实样本的类别标记,构建一个分类模型或分类器,用以预测新样本的类别。

常见分类算法包括:

分类在优化问题中的应用包括:

通过有监督学习建立分类器,能有效识别样本模式,为优化提供建议。分类算法选择需视问题性质而定。

14. Classification and Statistical Sins

分类算法学习过程中需要避免的一些统计失误包括:

过拟合:模型过于复杂,学习到训练集的随机噪声,而丧失新的样本的预测能力。

解决方法为增加正则项进行惩罚和特征选择简化模型。

数据泄漏:测试集信息走入模型的训练过程中。

解决方法为严格区分训练集和测试集,采用交叉验证的方法。

多重分类:一个样本可能属于多个类别的情况。

解决方法为使用概率模型进行软分类,或使用重叠度较低的新特征。

数据偏差:训练集不均衡或缺失关键特征。

解决方法为采样平衡不同类样本,或者采集新的有效特征进行 augument。

仍需要注意分类结果不等同于实际原因或机制。模型能提供参考支援,但决不等同于真相。全面深入理解数据至关重要。

15. Statistical Sins and Wrap Up

机器学习过程中容易发生的一些统计失误包括:

过拟合:模型过于复杂,学习到训练集的随机噪声,丧失预测能力。解决方法为增加正则化项或者特征选择简化模型。

数据泄漏:测试集信息进入训练集的训练过程中。解决方法为严格区分训练集与测试集,采用交叉验证方法。

多重分类:一个样本可能同时属于多个类别。解决方法为使用概率模型进行软分类,或者采用特征选择降低相关性。

数据偏差:训练集分布与真实数据分布不匹配,如 samples 不平衡或缺少关键特征。解决方法为采样均衡不同类样本,或采集新特征增强训练集。

样本规模有限:结果可能仅适用于特定数据集。需要测试新数据的泛化能力。

在应用机器学习解决优化问题时,需要注意避免统计失误,了解学习结果的可靠性与限制。同时,优化问题复杂,需综合多个方法与细致数据。机器学习提供一种有效路径,但不等同于成功解决。