l1_ls.rar_L1正则化问题_l1范数_二范数_最小化范数_正则化范数_l1

共1个文件

m：1个

版权申诉

182 浏览量 2022-07-14 02:40:42 上传评论 1 收藏 3KB RAR 举报

在机器学习和优化领域，L1正则化（L1 regularization）是一种常用的技术，用于防止模型过拟合。本文将详细探讨L1正则化问题，L1范数，二范数，以及它们在最小化问题中的应用。我们来理解L1范数（L1 Norm）。L1范数是指一个向量各元素绝对值之和，表示为||x||1，其中x是向量。这种范数有一个显著的特点，即它倾向于产生稀疏解。在许多情况下，尤其是特征选择或压缩感知（compressed sensing）问题中，我们希望找到的解中有大部分元素为零，这正是L1范数能够做到的。相比于L2范数（二范数，表示为||x||2，即向量的欧几里得长度），L1范数更有可能产生稀疏解，因为L2范数会使得所有元素尽可能接近，而L1范数则允许部分元素较大，其余元素为零。接下来，我们讨论L1正则化问题。在最优化问题中，L1正则化通常与最小二乘法结合，形成L1正则化的最小二乘问题。具体形式为： \[ \text{minimize} \ ||y - Ax||^2 + \lambda ||x||_1 \] 这里，\( A \) 是一个矩阵，\( x \) 是我们要找的系数向量，\( y \) 是目标向量，\( \lambda \) 是正则化参数，控制正则化的程度。\( ||y - Ax||^2 \) 是预测值与真实值之间的残差平方和，表示模型的预测误差。加上L1范数项 \( ||x||_1 \) 后，整个优化目标既考虑了模型的预测能力，又考虑了模型的复杂度。求解L1正则化的最小二乘问题并非易事，因为它不是凸优化问题，导致直接的梯度下降法等方法可能无法找到全局最优解。不过，有几种算法可以有效解决这个问题，比如：坐标下降法、lasso回归（L1正则化的线性回归）以及最近提出的proximal gradient descent算法等。坐标下降法通过逐个更新向量x的每个元素，每次迭代只优化一个变量，其余变量固定。这种方法简单且易于实现，但收敛速度可能较慢。 Lasso回归是统计学中实现L1正则化的特例，它在最小化平方误差的同时引入L1正则化项，可以得到稀疏解。Lasso回归的求解可以通过解一个二次规划问题来实现，也可以用特定的算法如LARS（Least Angle Regression）进行求解。 Proximal gradient descent则是针对非凸优化问题的一种通用方法，它结合了梯度下降和正则化项的“proximity”操作，可以处理包括L1范数在内的各种正则化问题。在给定的压缩包文件中，"l1_ls.m"可能是一个MATLAB脚本，用于实现上述L1正则化的最小二乘计算。通过运行这个脚本，用户可以解决特定数据集上的L1正则化问题，得到稀疏的系数向量。 L1正则化是一种强大的工具，能够在保持模型预测性能的同时，降低模型的复杂度，避免过拟合。通过结合L1范数和最小二乘法，我们可以构建出既能有效预测又能提供稀疏解的模型。不同的优化算法如坐标下降法、Lasso回归和proximal gradient descent等，为我们提供了求解这类问题的有效途径。在实际应用中，根据问题的特性选择合适的算法至关重要。

资源详情

资源评论

资源推荐

收起资源包目录

l1_ls.rar （1个子文件）

l1_ls.m 8KB

function [x,status,history] = l1_ls(A,varargin) % % l1-Regularized Least Squares Problem Solver % % l1_ls solves problems of the following form: % % minimize ||A*x-y||^2 + lambda*sum|x_i|, % % where A and y are problem data and x is variable (described below). % % CALLING SEQUENCES % [x,status,history] = l1_ls(A,y,lambda [,tar_gap[,quiet]]) % [x,status,history] = l1_ls(A,At,m,n,y,lambda, [,tar_gap,[,quiet]])) % % if A is a matrix, either sequence can be used. % if A is an object (with overloaded operators), At, m, n must be % provided. % % INPUT % A : mxn matrix; input data. columns correspond to features. % % At : nxm matrix; transpose of A. % m : number of examples (rows) of A % n : number of features (column)s of A % % y : m vector; outcome. % lambda : positive scalar; regularization parameter % % tar_gap : relative target duality gap (default: 1e-3) % quiet : boolean; suppress printing message when true (default: false) % % (advanced arguments) % eta : scalar; parameter for PCG termination (default: 1e-3) % pcgmaxi : scalar; number of maximum PCG iterations (default: 5000) % % OUTPUT % x : n vector; classifier % status : string; 'Solved' or 'Failed' % % history : matrix of history data. columns represent (truncated) Newton % iterations; rows represent the following: % - 1st row) gap % - 2nd row) primal objective % - 3rd row) dual objective % - 4th row) step size % - 5th row) pcg iterations % - 6th row) pcg status flag % % USAGE EXAMPLES % [x,status] = l1_ls(A,y,lambda); % [x,status] = l1_ls(A,At,m,n,y,lambda,0.001); % % AUTHOR Kwangmoo Koh <[email protected]> % UPDATE Apr 8 2007 % % COPYRIGHT 2008 Kwangmoo Koh, Seung-Jean Kim, and Stephen Boyd %------------------------------------------------------------ % INITIALIZE %------------------------------------------------------------ % IPM PARAMETERS MU = 2; % updating parameter of t MAX_NT_ITER = 400; % maximum IPM (Newton) iteration % LINE SEARCH PARAMETERS ALPHA = 0.01; % minimum fraction of decrease in the objective BETA = 0.5; % stepsize decrease factor MAX_LS_ITER = 100; % maximum backtracking line search iteration % VARIABLE ARGUMENT HANDLING % if the second argument is a matrix or an operator, the calling sequence is % l1_ls(A,At,y,lambda,m,n [,tar_gap,[,quiet]])) % if the second argument is a vector, the calling sequence is % l1_ls(A,y,lambda [,tar_gap[,quiet]]) if ( (isobject(varargin{1}) || ~isvector(varargin{1})) && nargin >= 6) At = varargin{1}; m = varargin{2}; n = varargin{3}; y = varargin{4}; lambda = varargin{5}; varargin = varargin(6:end); elseif (nargin >= 3) At = A'; [m,n] = size(A); y = varargin{1}; lambda = varargin{2}; varargin = varargin(3:end); else if (~quiet) disp('Insufficient input arguments'); end x = []; status = 'Failed'; history = []; return; end % VARIABLE ARGUMENT HANDLING t0 = min(max(1,1/lambda),2*n/1e-3); defaults = {1e-3,false,1e-3,5000,zeros(n,1),ones(n,1),t0}; given_args = ~cellfun('isempty',varargin); defaults(given_args) = varargin(given_args); [reltol,quiet,eta,pcgmaxi,x,u,t] = deal(defaults{:}); f = [x-u;-x-u]; % RESULT/HISTORY VARIABLES pobjs = [] ; dobjs = [] ; sts = [] ; pitrs = []; pflgs = []; pobj = Inf; dobj =-Inf; s = Inf; pitr = 0 ; pflg = 0 ; ntiter = 0; lsiter = 0; zntiter = 0; zlsiter = 0; normg = 0; prelres = 0; dxu = zeros(2*n,1); % diagxtx = diag(At*A); diagxtx = 2*ones(n,1); if (~quiet) disp(sprintf('\nSolving a problem of size (m=%d, n=%d), with lambda=%.5e',... m,n,lambda)); end if (~quiet) disp('-----------------------------------------------------------------------------');end if (~quiet) disp(sprintf('%5s %9s %15s %15s %13s %11s',... 'iter','gap','primobj','dualobj','step len','pcg iters')); end %------------------------------------------------------------ % MAIN LOOP %------------------------------------------------------------ for ntiter = 0:MAX_NT_ITER z = A*x-y; %------------------------------------------------------------ % CALCULATE DUALITY GAP %------------------------------------------------------------ nu = 2*z; maxAnu = norm(At*nu,inf); if (maxAnu > lambda) nu = nu*lambda/maxAnu; end pobj = z'*z+lambda*norm(x,1); dobj = max(-0.25*nu'*nu-nu'*y,dobj); gap = pobj - dobj; pobjs = [pobjs pobj]; dobjs = [dobjs dobj]; sts = [sts s]; pflgs = [pflgs pflg]; pitrs = [pitrs pitr]; %------------------------------------------------------------ % STOPPING CRITERION %------------------------------------------------------------ if (~quiet) disp(sprintf('%4d %12.2e %15.5e %15.5e %11.1e %8d',... ntiter, gap, pobj, dobj, s, pitr)); end if (gap/dobj < reltol) status = 'Solved'; history = [pobjs-dobjs; pobjs; dobjs; sts; pitrs; pflgs]; if (~quiet) disp('Absolute tolerance reached.'); end %disp(sprintf('total pcg iters = %d\n',sum(pitrs))); return; end %------------------------------------------------------------ % UPDATE t %------------------------------------------------------------ if (s >= 0.5) t = max(min(2*n*MU/gap, MU*t), t); end %------------------------------------------------------------ % CALCULATE NEWTON STEP %------------------------------------------------------------ q1 = 1./(u+x); q2 = 1./(u-x); d1 = (q1.^2+q2.^2)/t; d2 = (q1.^2-q2.^2)/t; % calculate gradient gradphi = [At*(z*2)-(q1-q2)/t; lambda*ones(n,1)-(q1+q2)/t]; % calculate vectors to be used in the preconditioner prb = diagxtx+d1; prs = prb.*d1-(d2.^2); % set pcg tolerance (relative) normg = norm(gradphi); pcgtol = min(1e-1,eta*gap/min(1,normg)); if (ntiter ~= 0 && pitr == 0) pcgtol = pcgtol*0.1; end [dxu,pflg,prelres,pitr,presvec] = ... pcg(@AXfunc_l1_ls,-gradphi,pcgtol,pcgmaxi,@Mfunc_l1_ls,... [],dxu,A,At,d1,d2,d1./prs,d2./prs,prb./prs); if (pflg == 1) pitr = pcgmaxi; end dx = dxu(1:n); du = dxu(n+1:end); %------------------------------------------------------------ % BACKTRACKING LINE SEARCH %------------------------------------------------------------ phi = z'*z+lambda*sum(u)-sum(log(-f))/t; s = 1.0; gdx = gradphi'*dxu; for lsiter = 1:MAX_LS_ITER newx = x+s*dx; newu = u+s*du; newf = [newx-newu;-newx-newu]; if (max(newf) < 0) newz = A*newx-y; newphi = newz'*newz+lambda*sum(newu)-sum(log(-newf))/t; if (newphi-phi <= ALPHA*s*gdx) break; end end s = BETA*s; end if (lsiter == MAX_LS_ITER) break; end % exit by BLS x = newx; u = newu; f = newf; end %------------------------------------------------------------ % ABNORMAL TERMINATION (FALL THROUGH) %------------------------------------------------------------ if (lsiter == MAX_LS_ITER) % failed in backtracking linesearch. if (~quiet) disp('MAX_LS_ITER exceeded in BLS'); end status = 'Failed'; elseif (ntiter == MAX_NT_ITER) % fail to find the solution within MAX_NT_ITER if (~quiet) disp('MAX_NT_ITER exceeded.'); end status = 'Failed'; end history = [pobjs-dobjs; pobjs; dobjs; sts; pitrs; pflgs]; return; %------------------------------------------------------------ % COMPUTE AX (PCG) %------------------------------------------------------------ function [y] = AXfunc_l1_ls(x,A,At,d1,d2,p1,p2,p3) % % y = hessphi*[x1;x2], % % where hessphi = [A'*A*2+D1 , D2; % D2 , D1]; n = lengt