这是一篇没有高等数学基础的初学者的笔记,除非你仅仅是想了解一下机器学习的概念,否则不建议继续下读去。
本文主要记录在学习 ML-For-Beginner 课程中的一些笔记和总结。
机器学习 关注的是使用专门的算法来发现有意义的信息,并从感知的数据中找到隐藏的模式,以佐证理性的决策过程。
ML is concerned with using specialized algorithms to uncover meaningful information and find hidden patterns from perceived data to corroborate the rational decision-making process.
通常来讲,机器善于在大量的数据中发现其中隐藏的规则。
宏观上来讲,可以分为以下几个步骤:
通常指一个数据集中的每一个属性,详情参考 Introduction to Feature。
通过代码,可视化的显示数据与数据之间的关系。这可以帮忙我们更好的发现数据之间隐藏的关系。
把准备的数据集分割成一下几个部分:
Supervised learning (SL) is the machine learning task of learning a function that maps an input to an output based on example input-output pairs. ----- wiki
监督式学习是基于实例的输入-输出对,来构建一个映射函数。
监督式学习适用于 已经做过标记(labeled) 的数据。
通过标记的数据,构建一个映射函数。此映射函数可用来预测对应的特征值。
监督式学习的一些方法:
用一个或者多个变量去表示目标值,常用于预测某个特征的值。 两种常见的线性回归模型
常用于分类,目标特征值需要是已知的有限个数。
ONNX
是一种机器学习通用数据模型结构,主要用于不同框架采用相同格式存储模型数据并交互。源码 Github - ONNX。
这让训练好的模型,可复用于多个不同场景。
在训练之前,需要先对数据进行处理。主要提取以下几点:
Unsupervised learning is a type of machine learning in which the algorithm is not provided with any pre-assigned labels or scores for the training data. -- wiki
无监督学习一种用于无标签数据(Data without labels)的机器学习的算法。
根据定义可看出,无监督式学习并不需要数据的标签,因此,无监督学习需要自己发现数据之间隐藏的关系。
聚类 Clustering,无监督学习的一个类别。
在了解机器学习的过程,发现没有数学基础,好多机器学习的算法,在我眼中,全都是天书,仅仅能从代码的角度,去寻找成就感。
虽然,这很难,但也不妨碍我站在巨人的肩膀上做事情。
通过,这个阶段的学习,已经清楚,传统的机器学习,就是通过算法,去构建一个数据集和特征值之间的映射。利用构建好的这个映射关系, 去预测或者归类未知的数据。