所用r包:meta 待更新 单组连续型统计量 单组率 # 导入excel为列表 sheets <- getSheetNames("7d数据分析提取表.xlsx") data_frame <- lapply(sheets, read.xlsx, xlsxFile="7d数据分析提取表.xlsx") # assigning names to…
所用r包 library(tidyverse)library(openxlsx) 数据导入和预处理 adam <- read.csv("青春末期随访24.11.12录入完毕数据.csv") #空值转为缺失 adam <- adam %>% mutate(across(everything(),~ifelse(.=="",NA,.)…
参考资料:周志华《机器学习》 待更新 在高维情形下出现的数据样本稀疏、距离计算困难等问题是所有机器学习方法共同面临的严重障碍,被称为“维数灾难”(curseofdimensionality)缓解维数灾难的一个重要途径是降维(dimensionreduction),亦称“维数约简”,即通过某种数学变换将原始高维属性空间转变为一个低维“子空间“,很多时…
特征选择 基础知识 对一个学习任务来说,给定属性集,其中有些属性可能很关键、很有用,另一些属性则可能没什么用.我们将属性称为“特征”(feature),对当前学习任务有用的属性称为“相关特征”(relevant feature)、没什么用的属性称为“无关特征”(irrelevant feature).从给定的特征集合中选择出相关特征子集的过程,称为…
参考资料:周志华著《机器学习》 基础知识 在“无监督学习”(unsupervised learning)中,训练样本的标记信息是未知的,目标是通过对无标记训练样本的学习来揭示数据的内在性质及规律,为进一步的数据分析提供基础.此类学习任务中研究最多、应用最广的是“聚类”(clustering)。聚类既能作为一个单独过程,用于找寻数据内在的分布结构,也…
参考视频:10 EM算法(1):餐前小甜点——回顾MLE_哔哩哔哩_bilibili 极大似然估计与EM的联系 极大似然估计回顾 举例 极大似然法求解 有缺失情况计算十分复杂,引入em思维 EM算法举例 盒子中有两枚硬币a和b,从中摸一个硬币抛掷10次,记录正反次数,求硬币a和硬币b的正面概率 若知道摸出的硬币是a还是b 若不知道摸出的硬币是哪一个…
所用包 import osimport reimport pandas as pdfrom PyPDF2 import PdfReaderfrom pathlib import Pathimport openpyxl STEP1 pdf信息转text文本 filepath="青春末期随访全pdf/xxxx.pdf" reader = PdfRead…
参考文章:https://blog.csdn.net/hgnuxc_1993/article/details/114897839 参考视频:7.3 最大熵模型:拉格朗日乘子法_哔哩哔哩_bilibili 最大熵模型的数学基础 什么是熵? 熵是用来表示随机变量不确定性的度量。 拉格朗日乘子法 原始问题 对偶问题 当满足KKT条件时,原始问题和对偶问题…