机器学习(五)——支持向量机SVM(支持向量、间隔、正则化参数C、误差容忍度ε、核函数、软间隔、SVR、回归分类源码)

news/2024/11/8 6:40:17 标签: 机器学习, 支持向量机, svm, SVR

目录

  • 关于
  • 1 间隔与支持向量
  • 2 对偶问题
  • 3 核函数
  • 4 软间隔与正则化
  • 5 支持向量回归
  • 6 核方法
  • X 案例代码
    • X.1 分类任务
      • X.1.1 源码
      • X.1.2 数据集(鸢尾花数据集)
      • X.1.3 模型效果
    • X.2 回归任务
      • X.2.1 源码
      • X.2.2 数据集(加州房价数据)
      • X.2.3 模型效果


关于

  • 本文是基于西瓜书(第六章)的学习记录。内容包括SVM模型间隔、支持向量、正则化参数C、误差容忍度 ε ε ε、核函数、软间隔、SVR模型、Python实现分类和回归的源码。
  • 西瓜书电子版:百度网盘分享链接

1 间隔与支持向量

  • 支持向量机(SVM)是一种监督学习算法,用于分类和回归分析。

  • 分类学习最基本的想法就是基于训练集D在样本空间中找到一个划分超平面,将不同类别的样本分开.

  • 怎样的超平面是最好的?——找位于两类训练样本“正中间”的划分超平面,这样的超平面对训练样本的局部扰动的“容忍性”最好。
    在这里插入图片描述

  • 支持向量机的基本思想是找到样本空间中的最佳划分超平面,以区分不同类别的样本。

  • 支持向量:距离超平面最近的训练样本点,它们决定了超平面的位置。

  • 间隔:两个异类支持向量到超平面的距离之和,称为间隔,SVM的目标是最大化这个间隔。
    在这里插入图片描述

  • 支持向量机的基本型:
    在这里插入图片描述
    在这里插入图片描述

2 对偶问题

  • SVM的优化问题可以通过拉格朗日乘子法转化为对偶问题,这样可以更高效地求解。
  • 问题的求解不是本文重心所在,在此不介绍,大家可参考电子书学习。

3 核函数

  • 在现实任务中,原始样本空间内也许并不存在一个能正确划分两类样本的超平面,可将样本从原始空间映射到一个更高维的特征空间,使得样本在这个特征空间内线性可分

  • 但是映射到高维空间意味着更大的计算量,这时候就引出了核函数:核函数允许SVM在高维空间或无穷维空间中寻找最优超平面,而无需显式地映射样本。

  • 核函数生效的技巧:通过核函数计算原始样本空间中的内积,避免了直接在高维空间中计算。
    在这里插入图片描述

  • 哪些函数可以作为核函数:只要一个对称函数所对应的核矩阵半正定,它就能作为核函数使用。

  • 常用核函数:包括线性核、多项式核、高斯核等。
    在这里插入图片描述

4 软间隔与正则化

  • 在现实任务中,训练样本往往不是线性可分的(即便恰好找到了某个核函数使训练集在特征空间中线性可分,也很难断定这个貌似线性可分的结果不是由于过拟合所造成的.),这时可以引入软间隔和正则化来提高模型的泛化能力。

  • 软间隔:允许一些样本不满足硬间隔的约束,通过引入松弛变量来实现。

  • 替代损失函数:如hinge损失、指数损失和对率损失,用于代替0/1损失函数,使得问题更容易求解,常用的替代损失函数:
    -

  • 如果使用对率损失函数替代0/1损失函数,则几乎得到了对率回归模型。实际上两者确实优化目标相近,性能相近。

  • 正则化参数C:这个参数控制着模型对误分类的惩罚程度。C值越大,模型对误分类的惩罚越高,可能导致过拟合;C值越小,模型对误分类的惩罚越低,可能导致欠拟合。
    在这里插入图片描述

5 支持向量回归

  • 支持向量回归(SVR)是SVM在回归问题上的应用,它假设模型输出与真实输出之间存在一定的容忍度。

  • ε ε ε-不敏感损失:仅当模型输出与真实输出的差值超过 ε ε ε时才计算损失。
    在这里插入图片描述

  • SVR的优化问题:通过引入松弛变量和正则化项来求解。

  • SVR的支持向量:与SVM类似,SVR的支持向量是落在 ε ε ε间隔带之外的样本。

6 核方法

  • 核方法是一种基于核函数的学习方法,可以将线性学习器扩展为非线性学习器。

  • 表示定理:任何在再生核希尔伯特空间中的学习问题都可以用核函数的线性组合来表示。

  • 核化线性判别分析:通过核化将线性判别分析扩展到非线性情况。

X 案例代码

X.1 分类任务

X.1.1 源码

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import load_iris
from sklearn.model_selection import train_test_split
from sklearn.svm import SVC
from sklearn.metrics import confusion_matrix, accuracy_score, classification_report
import seaborn as sns

# 1. 加载数据集
iris = load_iris()
X, y = iris.data, iris.target
print("此时X,y的数据类型为:", type(X), type(y), '\n')

# 2. 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("此时X_train,y_train的数据类型为:", type(X_train), type(y_train), '\n')
print("X_train的前10条数据展示:")
print(pd.DataFrame(X_train).head(10).to_string(index=False, justify='left'), '\n')

# 3. 构建并训练SVM分类模型
model = SVC(kernel='rbf', random_state=42)  # 使用高斯核函数
model.fit(X_train, y_train)

# 4. 预测测试集上的目标变量
y_pred = model.predict(X_test)

# 5. 评估模型性能
accuracy = accuracy_score(y_test, y_pred)
print("模型准确率:", accuracy)

print("分类报告:")
print(classification_report(y_test, y_pred))

# 6. 绘制混淆矩阵
conf_matrix = confusion_matrix(y_test, y_pred)
plt.figure(figsize=(8, 6))
sns.heatmap(conf_matrix, annot=True, fmt='d', cmap='Blues', xticklabels=iris.target_names, yticklabels=iris.target_names)
plt.xlabel('Predicted Labels')
plt.ylabel('True Labels')
plt.title('Confusion Matrix for Iris Dataset')
plt.tight_layout()
plt.show()

# 可选:将结果保存到DataFrame中以便进一步分析
results = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})
print("模型预测结果:")
print(results.head())

X.1.2 数据集(鸢尾花数据集)

  • 鸢尾花数据集是机器学习领域中最著名的数据集之一,常被用于分类算法的测试和演示。

  • 概览

    • 样本数量:150个样本
    • 特征数量:4个特征
    • 标签种类数量:3个类别,每个类别有50个样本
  • 特征描述

    • 萼片长度 (sepal length):花萼的长度,单位为厘米。
    • 萼片宽度 (sepal width):花萼的宽度,单位为厘米。
    • 花瓣长度 (petal length):花瓣的长度,单位为厘米。
    • 花瓣宽度 (petal width):花瓣的宽度,单位为厘米。
  • 目标变量是鸢尾花的种类,共有三种:

    1. Iris setosa
    2. Iris versicolor
    3. Iris virginica
  • 使用

    • 可以使用 sklearn.datasets.load_iris() 函数来加载这个数据集,并查看其详细信息。

X.1.3 模型效果

在这里插入图片描述
在这里插入图片描述

X.2 回归任务

X.2.1 源码

import pandas as pd
import matplotlib.pyplot as plt
from sklearn.datasets import fetch_california_housing
from sklearn.model_selection import train_test_split
from sklearn.preprocessing import StandardScaler
from sklearn.svm import SVR
from sklearn.metrics import mean_squared_error, r2_score

# 1. 加载数据集
data = fetch_california_housing()
X, y = data.data, data.target
print("此时X,y的数据类型为:", type(X), type(y), '\n')

# 2. 将数据集分为训练集和测试集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
print("此时X_train,y_train的数据类型为:", type(X_train), type(y_train), '\n')
print("X_train的前10条数据展示:")
print(pd.DataFrame(X_train).head(10).to_string(index=False, justify='left'), '\n')

# 3. 数据标准化
scaler = StandardScaler()
X_train = scaler.fit_transform(X_train)
X_test = scaler.transform(X_test)

# 4. 构建并训练SVR模型
# 使用RBF核
svr = SVR(kernel='rbf', C=100, gamma=0.1, epsilon=.1)

# 训练模型
svr.fit(X_train, y_train)

# 5. 预测测试集上的目标变量
y_pred = svr.predict(X_test)

# 6. 评估模型性能
mse = mean_squared_error(y_test, y_pred)
r2 = r2_score(y_test, y_pred)

print("SVR模型性能:")
print(f"Mean Squared Error: {mse:.2f}")
print(f"R^2 Score: {r2:.2f}", '\n')

# 6. 绘制实际值和预测值的折线图
plt.figure(figsize=(12, 6))
plt.plot(y_test[:50], label='Actual', marker='o', color='blue')
plt.plot(y_pred[:50], label='Predicted', marker='x', color='red', linestyle='--')
plt.title('Actual vs Predicted Values for California Housing Dataset (50 Samples)')
plt.xlabel('Sample Index')
plt.ylabel('Target Value')
plt.legend()
plt.tight_layout()
plt.show()

# 可选:将结果保存到DataFrame中以便进一步分析
results = pd.DataFrame({
    'Actual': y_test,
    'Predicted': y_pred
})

# 可选:打印模型的一些参数
print("模型预测结果:")
print(results)
print("模型参数:")
print("C:", svr.C)
print("Gamma:", svr.gamma)
print("Epsilon:", svr.epsilon)
print("Kernel:", svr.kernel)

X.2.2 数据集(加州房价数据)

  • 加州房价数据集是机器学习领域中常用的数据集之一,常被用于回归算法的测试和演示。

  • 概览

    • 样本数量:20640个样本
    • 特征数量:8个特征
    • 标签:1个连续的目标变量
  • 特征描述

    • MedInc (Median Income in block group):区块组的中位数收入,单位为10,000美元。
    • HouseAge (Median House Age in block group):区块组中房屋的中位数年龄,单位为年。
    • AveRooms (Average number of rooms per household):每个家庭的平均房间数。
    • AveBedrms (Average number of bedrooms per household):每个家庭的平均卧室数。
    • Population (Block group population):区块组的人口数。
    • AveOccup (Average house occupancy):每个房屋的平均居住人数。
    • Latitude (Block group latitude):区块组的纬度。
    • Longitude (Block group longitude):区块组的经度。
  • 目标变量

    • MedHouseVal (Median house value for households in block group):区块组中房屋的中位数价值,单位为100,000美元。
  • 使用

    • 可以使用 sklearn.datasets.fetch_california_housing() 函数来加载这个数据集,并查看其详细信息。

X.2.3 模型效果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述


http://www.niftyadmin.cn/n/5743450.html

相关文章

微信小程序使用阿里巴巴矢量图标库正确姿势

1、打开官网:https://www.iconfont.cn/,把整理好的图标下载解压。 2、由于微信小程序不支持直接在wxss中引入.ttf/.woff/.woff2(在开发工具生效,手机不生效)。我们需要对下载的文件进一步处理。 eot:IE系列…

Linux grep 使用正则表达式说明

Linux grep 使用正则表达式说明 在 Linux 中使用 grep 时,不同的正则表达式标准可能会导致写法上的差异,尤其是在 符号的使用上。以下是对这些差异的详细说明,以及为什么 符号需要加反斜杠,而中括号 [] 不需要。 1. 不同类型的…

Kafka 源码 KRaft 模式本地运行

KRaft(Kafka Raft Metadata mode),从版本 2.8.0 开始作为测试特性引入,并在后续版本中持续得到改进和增强。 KRaft 模式是指 Kafka 使用 Raft 协议来管理集群元数据的一种运行模式,这标志着 Kafka 向去除对 ZooKeeper …

D365 无法在数据被选择或插入到另一个事务作用域中的缓冲区上调用 NEXT、update() 或 delete()

问题描述 尝试在工作流拒绝操作时,更新WorkflowTrackingStatusTable 上的字段,结果报错:无法编辑WorkflowTrackingStatusTable 中的记录。无法在数据被选择或插入到另一个事务作用域中的缓冲区上调用 NEXT、update() …

【支付行业-支付系统架构及总结】

记得第一次看埃隆马斯克(Elon Musk)讲第一性原理的视频时,深受震撼,原来还可以这样处理复杂的事务。这篇文章也尝试化繁为简,探寻支付系统的本质,讲清楚在线支付系统最核心的一些概念和设计理念。 虽然支付…

《大模型应用开发极简入门》笔记

推荐序 可略过不看。 初识GPT-4和ChatGPT LLM概述 NLP的目标是让计算机能够处理自然语言文本,涉及诸多任务: 文本分类:将输入文本归为预定义的类别。自动翻译:将文本从一种语言自动翻译成另一种语言,包括程序语言。…

Git 测验

Git 测验 引言 Git 是一款强大的分布式版本控制系统,它由Linus Torvalds创建,主要用于帮助多人协作开发项目。Git 的设计目标是速度、数据完整性以及分布式支持。自从2005年发布以来,Git 已经成为全球最流行的版本控制系统之一,被广泛应用于各种规模的软件开发项目中。 …

戴尔R930服务器增加 Intel X710-DA2双万兆光口含模块

老服务器升级增加了内存换了固态盘,想着网卡也升级成万兆光卡吧。插上之后发现服务器能识别,但是安装的esxi7.0.3虚拟化系统重不能识别增加的网卡。在dell官网的知识库中找到https://www.dell.com/support/kbdoc/zh-cn/000194101/how-to-install-vmware-…