特征选择 基础知识 对一个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,另一些属性则可能没什么用.我们将属性称为“特征”(feature),对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(irrelevant feature).从给定的特征集合中选择出相关特征子集的过程,称为…
参考资料:周志华著《机器学习》 基础知识 在“无监督学习”(unsupervised learning)中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础.此类学习任务中研究最多、应用最广的是“聚类”(clustering)。聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也…
参考视频:10 EM算法(1):餐前小甜点——回顾MLE_哔哩哔哩_bilibili 极大似然估计与EM的联系 极大似然估计回顾 举例 极大似然法求解 有缺失情况计算十分复杂,引入em思维 EM算法举例 盒子中有两枚硬币a和b,从中摸一个硬币抛掷10次,记录正反次数,求硬币a和硬币b的正面概率 若知道摸出的硬币是a还是b 若不知道摸出的硬币是哪一个…
所用包 import osimport reimport pandas as pdfrom PyPDF2 import PdfReaderfrom pathlib import Pathimport openpyxl STEP1 pdf信息转text文本 filepath="青春末期随访全pdf/xxxx.pdf" reader = PdfRead…
参考文章:https://blog.csdn.net/hgnuxc_1993/article/details/114897839 参考视频:7.3 最大熵模型:拉格朗日乘子法_哔哩哔哩_bilibili 最大熵模型的数学基础 什么是熵? 熵是用来表示随机变量不确定性的度量。 拉格朗日乘子法 原始问题 对偶问题 当满足KKT条件时,原始问题和对偶问题…
待更新..... 连续型因变量 general linear regression 二分类因变量 logistic regression Logistic回归:适用于任何二分类结局的建模,特别是稀有事件;也是最常见的二分类模型。 目的是估计结局的优势比 (Odds Ratio, OR)。 输出的回归系数是OR的对数,可以解释为结局事件的“发生优势”…
注:医学研究回归模型的效应值有很多种,乱用误用现象频出,本篇文章搜集了知乎、csdn网的相关知识以求区分和正确解释这些效应值。 OR值 odds: 称为几率、比值、比数,是指某事件发生的可能性(概率)与不发生的可能性(概率)之比。用p表示事件发生的概率,则:odds =p/(1-p)。OR:比值比,为实验组的事件发生几率(odds1)/对照组的事件…
本节内容主要来自周志华老师的《机器学习》系列,李航《统计学习方法》。 参考视频8 支持向量机(2):感知机与支持向量机_哔哩哔哩_bilibili 待更新. 支持向量机基础 感知机和logistic回归的关系 logistic回归可转为感知机模型 支持向量机和感知机的关系 观察感知机损失函数可发现,感知机所找到的超平面不唯一 支持向量机名字解析:支…
注:参考视频分布滞后模型与自回归模型-上_哔哩哔哩_bilibili 基础概念 滞后变量 滞后效应是什么? 一般来说,因为解释变量对被解释变量的影响不可能在短时间内完成。所以,解释变量需要通过一段时间才能完全作用于被解释变量。(存在时间滞后)简洁:被解释变量受自身或其它变量过去值影响的现象称为滞后效应。 滞后变量是什么? 滞后变量:过去时期的、对当…
待更新 分段回归模型 断点回归模型 多项式回归模型 样条模型 自然样条模型 惩罚样条模型 RCS限制性立方样条模型 广义加性模型