[{"data":1,"prerenderedAt":2514},["ShallowReactive",2],{"doc-page:\u002Fdocs\u002Flocal-llm-deployment":3},{"doc":4,"prev":2482,"next":2484,"resolvedType":8,"readingMinutes":279,"audience":2491,"checklist":2495,"related":2499},{"path":5,"title":6,"description":7,"docType":8,"resourceKind":9,"categoryId":10,"categoryLabel":11,"updatedAt":12,"publishedAt":12,"icon":13,"body":14},"\u002Fdocs\u002Flocal-llm-deployment","本地 LLM 部署指南","使用 Ollama、vLLM、LM Studio 在本地运行大语言模型","article",null,"ai-tools","AI 工具","2026-02-28","i-carbon-chat-bot",{"type":15,"value":16,"toc":2413},"minimark",[17,21,25,28,32,67,70,74,106,109,129,131,135,161,165,187,191,213,217,220,308,311,408,411,531,535,589,593,599,676,681,749,752,755,763,766,796,800,803,843,846,938,942,1002,1005,1070,1074,1077,1087,1090,1104,1107,1122,1126,1189,1193,1196,1263,1266,1269,1297,1300,1361,1364,1412,1415,1418,1525,1528,1548,1551,1555,1631,1634,1637,1641,1646,1679,1685,1753,1757,1762,1768,1773,1960,1964,2053,2056,2059,2102,2106,2144,2147,2191,2194,2197,2217,2219,2239,2241,2261,2264,2267,2284,2287,2290,2293,2307,2310,2313,2327,2331,2334,2337,2348,2351,2371,2374,2409],[18,19,6],"h1",{"id":20},"本地-llm-部署指南",[22,23,24],"p",{},"在本地运行大语言模型，保护隐私、降低成本、提升响应速度。",[22,26,27],{},"这页适合作为“本地大模型系统部署入口”。真正决定部署体验的，通常不是模型名本身，而是你准备走桌面交互、开发 API、批量推理，还是长期自托管服务。",[29,30,31],"h2",{"id":31},"先按用途选方案",[33,34,35,43,49,55,61],"ul",{},[36,37,38,42],"li",{},[39,40,41],"strong",{},"个人桌面体验","：Ollama \u002F LM Studio",[36,44,45,48],{},[39,46,47],{},"高性能推理服务","：vLLM",[36,50,51,54],{},[39,52,53],{},"轻量本地实验","：llama.cpp",[36,56,57,60],{},[39,58,59],{},"想快速接 OpenAI 兼容 API","：优先 Ollama 或 vLLM",[36,62,63,66],{},[39,64,65],{},"想少折腾先验证可行性","：先上 7B 级别模型",[29,68,69],{"id":69},"为什么选择本地部署",[71,72,73],"h3",{"id":73},"优势",[33,75,76,82,88,94,100],{},[36,77,78,81],{},[39,79,80],{},"隐私保护","：数据不离开本地设备",[36,83,84,87],{},[39,85,86],{},"成本控制","：无 API 调用费用",[36,89,90,93],{},[39,91,92],{},"离线可用","：无需网络连接",[36,95,96,99],{},[39,97,98],{},"低延迟","：本地推理更快",[36,101,102,105],{},[39,103,104],{},"定制化","：可微调模型",[71,107,108],{"id":108},"劣势",[33,110,111,117,123],{},[36,112,113,116],{},[39,114,115],{},"硬件要求","：需要较强的 GPU\u002FCPU",[36,118,119,122],{},[39,120,121],{},"模型质量","：小模型能力有限",[36,124,125,128],{},[39,126,127],{},"维护成本","：需要自己管理",[29,130,115],{"id":115},[71,132,134],{"id":133},"最低配置7b-模型","最低配置（7B 模型）",[33,136,137,143,149,155],{},[36,138,139,142],{},[39,140,141],{},"CPU","：8 核心以上",[36,144,145,148],{},[39,146,147],{},"内存","：16GB RAM",[36,150,151,154],{},[39,152,153],{},"存储","：50GB 可用空间",[36,156,157,160],{},[39,158,159],{},"GPU","：可选，但推荐",[71,162,164],{"id":163},"推荐配置13b-34b-模型","推荐配置（13B-34B 模型）",[33,166,167,172,177,182],{},[36,168,169,171],{},[39,170,141],{},"：16 核心以上",[36,173,174,176],{},[39,175,147],{},"：32GB RAM",[36,178,179,181],{},[39,180,159],{},"：NVIDIA RTX 3060 12GB \u002F 4060 Ti 16GB",[36,183,184,186],{},[39,185,153],{},"：100GB SSD",[71,188,190],{"id":189},"高端配置70b-模型","高端配置（70B+ 模型）",[33,192,193,198,203,208],{},[36,194,195,197],{},[39,196,141],{},"：32 核心以上",[36,199,200,202],{},[39,201,147],{},"：64GB+ RAM",[36,204,205,207],{},[39,206,159],{},"：NVIDIA RTX 4090 24GB \u002F A100 40GB",[36,209,210,212],{},[39,211,153],{},"：200GB+ NVMe SSD",[29,214,216],{"id":215},"ollama推荐入门","Ollama（推荐入门）",[71,218,219],{"id":219},"安装",[221,222,227],"pre",{"className":223,"code":224,"language":225,"meta":226,"style":226},"language-bash shiki shiki-themes github-light github-dark","# Windows\nwinget install Ollama.Ollama\n\n# macOS\nbrew install ollama\n\n# Linux\ncurl -fsSL https:\u002F\u002Follama.com\u002Finstall.sh | sh\n","bash","",[228,229,230,239,253,260,266,277,282,288],"code",{"__ignoreMap":226},[231,232,235],"span",{"class":233,"line":234},"line",1,[231,236,238],{"class":237},"sJ8bj","# Windows\n",[231,240,242,246,250],{"class":233,"line":241},2,[231,243,245],{"class":244},"sScJk","winget",[231,247,249],{"class":248},"sZZnC"," install",[231,251,252],{"class":248}," Ollama.Ollama\n",[231,254,256],{"class":233,"line":255},3,[231,257,259],{"emptyLinePlaceholder":258},true,"\n",[231,261,263],{"class":233,"line":262},4,[231,264,265],{"class":237},"# macOS\n",[231,267,269,272,274],{"class":233,"line":268},5,[231,270,271],{"class":244},"brew",[231,273,249],{"class":248},[231,275,276],{"class":248}," ollama\n",[231,278,280],{"class":233,"line":279},6,[231,281,259],{"emptyLinePlaceholder":258},[231,283,285],{"class":233,"line":284},7,[231,286,287],{"class":237},"# Linux\n",[231,289,291,294,298,301,305],{"class":233,"line":290},8,[231,292,293],{"class":244},"curl",[231,295,297],{"class":296},"sj4cs"," -fsSL",[231,299,300],{"class":248}," https:\u002F\u002Follama.com\u002Finstall.sh",[231,302,304],{"class":303},"szBVR"," |",[231,306,307],{"class":244}," sh\n",[71,309,310],{"id":310},"基本使用",[221,312,314],{"className":223,"code":313,"language":225,"meta":226,"style":226},"# 运行模型\nollama run llama3.2\n\n# 运行中文优化模型\nollama run qwen2.5:7b\n\n# 运行代码模型\nollama run deepseek-coder:6.7b\n\n# 列出已下载模型\nollama list\n\n# 删除模型\nollama rm llama3.2\n",[228,315,316,321,332,336,341,350,354,359,368,373,379,387,392,398],{"__ignoreMap":226},[231,317,318],{"class":233,"line":234},[231,319,320],{"class":237},"# 运行模型\n",[231,322,323,326,329],{"class":233,"line":241},[231,324,325],{"class":244},"ollama",[231,327,328],{"class":248}," run",[231,330,331],{"class":248}," llama3.2\n",[231,333,334],{"class":233,"line":255},[231,335,259],{"emptyLinePlaceholder":258},[231,337,338],{"class":233,"line":262},[231,339,340],{"class":237},"# 运行中文优化模型\n",[231,342,343,345,347],{"class":233,"line":268},[231,344,325],{"class":244},[231,346,328],{"class":248},[231,348,349],{"class":248}," qwen2.5:7b\n",[231,351,352],{"class":233,"line":279},[231,353,259],{"emptyLinePlaceholder":258},[231,355,356],{"class":233,"line":284},[231,357,358],{"class":237},"# 运行代码模型\n",[231,360,361,363,365],{"class":233,"line":290},[231,362,325],{"class":244},[231,364,328],{"class":248},[231,366,367],{"class":248}," deepseek-coder:6.7b\n",[231,369,371],{"class":233,"line":370},9,[231,372,259],{"emptyLinePlaceholder":258},[231,374,376],{"class":233,"line":375},10,[231,377,378],{"class":237},"# 列出已下载模型\n",[231,380,382,384],{"class":233,"line":381},11,[231,383,325],{"class":244},[231,385,386],{"class":248}," list\n",[231,388,390],{"class":233,"line":389},12,[231,391,259],{"emptyLinePlaceholder":258},[231,393,395],{"class":233,"line":394},13,[231,396,397],{"class":237},"# 删除模型\n",[231,399,401,403,406],{"class":233,"line":400},14,[231,402,325],{"class":244},[231,404,405],{"class":248}," rm",[231,407,331],{"class":248},[71,409,410],{"id":410},"推荐模型",[412,413,414,433],"table",{},[415,416,417],"thead",{},[418,419,420,424,427,430],"tr",{},[421,422,423],"th",{},"模型",[421,425,426],{},"大小",[421,428,429],{},"用途",[421,431,432],{},"内存需求",[434,435,436,451,465,478,491,504,518],"tbody",{},[418,437,438,442,445,448],{},[439,440,441],"td",{},"qwen2.5:7b",[439,443,444],{},"4.7GB",[439,446,447],{},"通用中文",[439,449,450],{},"8GB",[418,452,453,456,459,462],{},[439,454,455],{},"llama3.2:3b",[439,457,458],{},"2GB",[439,460,461],{},"轻量对话",[439,463,464],{},"4GB",[418,466,467,470,473,476],{},[439,468,469],{},"deepseek-coder:6.7b",[439,471,472],{},"3.8GB",[439,474,475],{},"代码生成",[439,477,450],{},[418,479,480,483,486,489],{},[439,481,482],{},"mistral:7b",[439,484,485],{},"4.1GB",[439,487,488],{},"通用英文",[439,490,450],{},[418,492,493,496,499,502],{},[439,494,495],{},"phi3:3.8b",[439,497,498],{},"2.3GB",[439,500,501],{},"快速推理",[439,503,464],{},[418,505,506,509,512,515],{},[439,507,508],{},"qwen2.5:14b",[439,510,511],{},"9GB",[439,513,514],{},"高质量中文",[439,516,517],{},"16GB",[418,519,520,523,526,529],{},[439,521,522],{},"codellama:13b",[439,524,525],{},"7.4GB",[439,527,528],{},"代码专家",[439,530,517],{},[71,532,534],{"id":533},"api-使用","API 使用",[221,536,538],{"className":223,"code":537,"language":225,"meta":226,"style":226},"# 启动服务（默认端口 11434）\nollama serve\n\n# 测试 API\ncurl http:\u002F\u002Flocalhost:11434\u002Fapi\u002Fgenerate -d '{\n  \"model\": \"qwen2.5:7b\",\n  \"prompt\": \"你好，介绍一下自己\"\n}'\n",[228,539,540,545,552,556,561,574,579,584],{"__ignoreMap":226},[231,541,542],{"class":233,"line":234},[231,543,544],{"class":237},"# 启动服务（默认端口 11434）\n",[231,546,547,549],{"class":233,"line":241},[231,548,325],{"class":244},[231,550,551],{"class":248}," serve\n",[231,553,554],{"class":233,"line":255},[231,555,259],{"emptyLinePlaceholder":258},[231,557,558],{"class":233,"line":262},[231,559,560],{"class":237},"# 测试 API\n",[231,562,563,565,568,571],{"class":233,"line":268},[231,564,293],{"class":244},[231,566,567],{"class":248}," http:\u002F\u002Flocalhost:11434\u002Fapi\u002Fgenerate",[231,569,570],{"class":296}," -d",[231,572,573],{"class":248}," '{\n",[231,575,576],{"class":233,"line":279},[231,577,578],{"class":248},"  \"model\": \"qwen2.5:7b\",\n",[231,580,581],{"class":233,"line":284},[231,582,583],{"class":248},"  \"prompt\": \"你好，介绍一下自己\"\n",[231,585,586],{"class":233,"line":290},[231,587,588],{"class":248},"}'\n",[71,590,592],{"id":591},"集成到-ai-代理","集成到 AI 代理",[22,594,595,598],{},[39,596,597],{},"nanobot 配置","：",[221,600,604],{"className":601,"code":602,"language":603,"meta":226,"style":226},"language-json shiki shiki-themes github-light github-dark","{\n  \"providers\": {\n    \"ollama\": {\n      \"apiKey\": \"ollama\",\n      \"apiBase\": \"http:\u002F\u002Flocalhost:11434\u002Fv1\"\n    }\n  },\n  \"model\": \"qwen2.5:7b\"\n}\n","json",[228,605,606,612,620,627,641,651,656,661,671],{"__ignoreMap":226},[231,607,608],{"class":233,"line":234},[231,609,611],{"class":610},"sVt8B","{\n",[231,613,614,617],{"class":233,"line":241},[231,615,616],{"class":296},"  \"providers\"",[231,618,619],{"class":610},": {\n",[231,621,622,625],{"class":233,"line":255},[231,623,624],{"class":296},"    \"ollama\"",[231,626,619],{"class":610},[231,628,629,632,635,638],{"class":233,"line":262},[231,630,631],{"class":296},"      \"apiKey\"",[231,633,634],{"class":610},": ",[231,636,637],{"class":248},"\"ollama\"",[231,639,640],{"class":610},",\n",[231,642,643,646,648],{"class":233,"line":268},[231,644,645],{"class":296},"      \"apiBase\"",[231,647,634],{"class":610},[231,649,650],{"class":248},"\"http:\u002F\u002Flocalhost:11434\u002Fv1\"\n",[231,652,653],{"class":233,"line":279},[231,654,655],{"class":610},"    }\n",[231,657,658],{"class":233,"line":284},[231,659,660],{"class":610},"  },\n",[231,662,663,666,668],{"class":233,"line":290},[231,664,665],{"class":296},"  \"model\"",[231,667,634],{"class":610},[231,669,670],{"class":248},"\"qwen2.5:7b\"\n",[231,672,673],{"class":233,"line":370},[231,674,675],{"class":610},"}\n",[22,677,678,598],{},[39,679,680],{},"OpenClaw 配置",[221,682,684],{"className":601,"code":683,"language":603,"meta":226,"style":226},"{\n  \"model\": {\n    \"provider\": \"openai\",\n    \"apiBase\": \"http:\u002F\u002Flocalhost:11434\u002Fv1\",\n    \"apiKey\": \"ollama\",\n    \"model\": \"qwen2.5:7b\"\n  }\n}\n",[228,685,686,690,696,708,720,731,740,745],{"__ignoreMap":226},[231,687,688],{"class":233,"line":234},[231,689,611],{"class":610},[231,691,692,694],{"class":233,"line":241},[231,693,665],{"class":296},[231,695,619],{"class":610},[231,697,698,701,703,706],{"class":233,"line":255},[231,699,700],{"class":296},"    \"provider\"",[231,702,634],{"class":610},[231,704,705],{"class":248},"\"openai\"",[231,707,640],{"class":610},[231,709,710,713,715,718],{"class":233,"line":262},[231,711,712],{"class":296},"    \"apiBase\"",[231,714,634],{"class":610},[231,716,717],{"class":248},"\"http:\u002F\u002Flocalhost:11434\u002Fv1\"",[231,719,640],{"class":610},[231,721,722,725,727,729],{"class":233,"line":268},[231,723,724],{"class":296},"    \"apiKey\"",[231,726,634],{"class":610},[231,728,637],{"class":248},[231,730,640],{"class":610},[231,732,733,736,738],{"class":233,"line":279},[231,734,735],{"class":296},"    \"model\"",[231,737,634],{"class":610},[231,739,670],{"class":248},[231,741,742],{"class":233,"line":284},[231,743,744],{"class":610},"  }\n",[231,746,747],{"class":233,"line":290},[231,748,675],{"class":610},[71,750,751],{"id":751},"自定义模型",[22,753,754],{},"创建 Modelfile：",[221,756,761],{"className":757,"code":759,"language":760},[758],"language-text","FROM qwen2.5:7b\n\nPARAMETER temperature 0.7\nPARAMETER top_p 0.9\nPARAMETER top_k 40\n\nSYSTEM \"\"\"\n你是一个专业的 Python 编程助手，擅长：\n- 代码审查和优化\n- Bug 修复\n- 最佳实践建议\n\"\"\"\n","text",[228,762,759],{"__ignoreMap":226},[22,764,765],{},"构建模型：",[221,767,769],{"className":223,"code":768,"language":225,"meta":226,"style":226},"ollama create python-expert -f Modelfile\nollama run python-expert\n",[228,770,771,787],{"__ignoreMap":226},[231,772,773,775,778,781,784],{"class":233,"line":234},[231,774,325],{"class":244},[231,776,777],{"class":248}," create",[231,779,780],{"class":248}," python-expert",[231,782,783],{"class":296}," -f",[231,785,786],{"class":248}," Modelfile\n",[231,788,789,791,793],{"class":233,"line":241},[231,790,325],{"class":244},[231,792,328],{"class":248},[231,794,795],{"class":248}," python-expert\n",[29,797,799],{"id":798},"vllm高性能推理","vLLM（高性能推理）",[71,801,219],{"id":802},"安装-1",[221,804,806],{"className":223,"code":805,"language":225,"meta":226,"style":226},"# 使用 pip\npip install vllm\n\n# 或使用 Docker\ndocker pull vllm\u002Fvllm-openai:latest\n",[228,807,808,813,823,827,832],{"__ignoreMap":226},[231,809,810],{"class":233,"line":234},[231,811,812],{"class":237},"# 使用 pip\n",[231,814,815,818,820],{"class":233,"line":241},[231,816,817],{"class":244},"pip",[231,819,249],{"class":248},[231,821,822],{"class":248}," vllm\n",[231,824,825],{"class":233,"line":255},[231,826,259],{"emptyLinePlaceholder":258},[231,828,829],{"class":233,"line":262},[231,830,831],{"class":237},"# 或使用 Docker\n",[231,833,834,837,840],{"class":233,"line":268},[231,835,836],{"class":244},"docker",[231,838,839],{"class":248}," pull",[231,841,842],{"class":248}," vllm\u002Fvllm-openai:latest\n",[71,844,845],{"id":845},"启动服务器",[221,847,849],{"className":223,"code":848,"language":225,"meta":226,"style":226},"# 基本启动\nvllm serve Qwen\u002FQwen2.5-7B-Instruct\n\n# 指定 GPU\nvllm serve Qwen\u002FQwen2.5-7B-Instruct --gpu-memory-utilization 0.9\n\n# 多 GPU\nvllm serve Qwen\u002FQwen2.5-14B-Instruct --tensor-parallel-size 2\n\n# 量化加速\nvllm serve Qwen\u002FQwen2.5-7B-Instruct --quantization awq\n",[228,850,851,856,867,871,876,891,895,900,915,919,924],{"__ignoreMap":226},[231,852,853],{"class":233,"line":234},[231,854,855],{"class":237},"# 基本启动\n",[231,857,858,861,864],{"class":233,"line":241},[231,859,860],{"class":244},"vllm",[231,862,863],{"class":248}," serve",[231,865,866],{"class":248}," Qwen\u002FQwen2.5-7B-Instruct\n",[231,868,869],{"class":233,"line":255},[231,870,259],{"emptyLinePlaceholder":258},[231,872,873],{"class":233,"line":262},[231,874,875],{"class":237},"# 指定 GPU\n",[231,877,878,880,882,885,888],{"class":233,"line":268},[231,879,860],{"class":244},[231,881,863],{"class":248},[231,883,884],{"class":248}," Qwen\u002FQwen2.5-7B-Instruct",[231,886,887],{"class":296}," --gpu-memory-utilization",[231,889,890],{"class":296}," 0.9\n",[231,892,893],{"class":233,"line":279},[231,894,259],{"emptyLinePlaceholder":258},[231,896,897],{"class":233,"line":284},[231,898,899],{"class":237},"# 多 GPU\n",[231,901,902,904,906,909,912],{"class":233,"line":290},[231,903,860],{"class":244},[231,905,863],{"class":248},[231,907,908],{"class":248}," Qwen\u002FQwen2.5-14B-Instruct",[231,910,911],{"class":296}," --tensor-parallel-size",[231,913,914],{"class":296}," 2\n",[231,916,917],{"class":233,"line":370},[231,918,259],{"emptyLinePlaceholder":258},[231,920,921],{"class":233,"line":375},[231,922,923],{"class":237},"# 量化加速\n",[231,925,926,928,930,932,935],{"class":233,"line":381},[231,927,860],{"class":244},[231,929,863],{"class":248},[231,931,884],{"class":248},[231,933,934],{"class":296}," --quantization",[231,936,937],{"class":248}," awq\n",[71,939,941],{"id":940},"docker-部署","Docker 部署",[221,943,945],{"className":223,"code":944,"language":225,"meta":226,"style":226},"docker run -d \\\n  --name vllm \\\n  --gpus all \\\n  -p 8000:8000 \\\n  vllm\u002Fvllm-openai:latest \\\n  --model Qwen\u002FQwen2.5-7B-Instruct\n",[228,946,947,958,968,978,988,995],{"__ignoreMap":226},[231,948,949,951,953,955],{"class":233,"line":234},[231,950,836],{"class":244},[231,952,328],{"class":248},[231,954,570],{"class":296},[231,956,957],{"class":296}," \\\n",[231,959,960,963,966],{"class":233,"line":241},[231,961,962],{"class":296},"  --name",[231,964,965],{"class":248}," vllm",[231,967,957],{"class":296},[231,969,970,973,976],{"class":233,"line":255},[231,971,972],{"class":296},"  --gpus",[231,974,975],{"class":248}," all",[231,977,957],{"class":296},[231,979,980,983,986],{"class":233,"line":262},[231,981,982],{"class":296},"  -p",[231,984,985],{"class":248}," 8000:8000",[231,987,957],{"class":296},[231,989,990,993],{"class":233,"line":268},[231,991,992],{"class":248},"  vllm\u002Fvllm-openai:latest",[231,994,957],{"class":296},[231,996,997,1000],{"class":233,"line":279},[231,998,999],{"class":296},"  --model",[231,1001,866],{"class":248},[71,1003,1004],{"id":1004},"性能优化",[221,1006,1008],{"className":223,"code":1007,"language":225,"meta":226,"style":226},"# 启用 PagedAttention\nvllm serve model --enable-paged-attention\n\n# 调整批处理大小\nvllm serve model --max-num-batched-tokens 8192\n\n# 启用前缀缓存\nvllm serve model --enable-prefix-caching\n",[228,1009,1010,1015,1027,1031,1036,1050,1054,1059],{"__ignoreMap":226},[231,1011,1012],{"class":233,"line":234},[231,1013,1014],{"class":237},"# 启用 PagedAttention\n",[231,1016,1017,1019,1021,1024],{"class":233,"line":241},[231,1018,860],{"class":244},[231,1020,863],{"class":248},[231,1022,1023],{"class":248}," model",[231,1025,1026],{"class":296}," --enable-paged-attention\n",[231,1028,1029],{"class":233,"line":255},[231,1030,259],{"emptyLinePlaceholder":258},[231,1032,1033],{"class":233,"line":262},[231,1034,1035],{"class":237},"# 调整批处理大小\n",[231,1037,1038,1040,1042,1044,1047],{"class":233,"line":268},[231,1039,860],{"class":244},[231,1041,863],{"class":248},[231,1043,1023],{"class":248},[231,1045,1046],{"class":296}," --max-num-batched-tokens",[231,1048,1049],{"class":296}," 8192\n",[231,1051,1052],{"class":233,"line":279},[231,1053,259],{"emptyLinePlaceholder":258},[231,1055,1056],{"class":233,"line":284},[231,1057,1058],{"class":237},"# 启用前缀缓存\n",[231,1060,1061,1063,1065,1067],{"class":233,"line":290},[231,1062,860],{"class":244},[231,1064,863],{"class":248},[231,1066,1023],{"class":248},[231,1068,1069],{"class":296}," --enable-prefix-caching\n",[29,1071,1073],{"id":1072},"lm-studio图形界面","LM Studio（图形界面）",[71,1075,219],{"id":1076},"安装-2",[22,1078,1079,1080],{},"下载：",[1081,1082,1086],"a",{"href":1083,"rel":1084},"https:\u002F\u002Flmstudio.ai\u002F",[1085],"nofollow","lmstudio.ai",[71,1088,1089],{"id":1089},"特点",[33,1091,1092,1095,1098,1101],{},[36,1093,1094],{},"图形化界面，易于使用",[36,1096,1097],{},"内置模型市场",[36,1099,1100],{},"支持 GGUF 格式",[36,1102,1103],{},"本地 API 服务器",[71,1105,1106],{"id":1106},"使用流程",[1108,1109,1110,1113,1116,1119],"ol",{},[36,1111,1112],{},"打开 LM Studio",[36,1114,1115],{},"搜索并下载模型（如 Qwen2.5-7B-GGUF）",[36,1117,1118],{},"加载模型到聊天界面",[36,1120,1121],{},"或启动本地服务器（端口 1234）",[71,1123,1125],{"id":1124},"api-集成","API 集成",[221,1127,1129],{"className":601,"code":1128,"language":603,"meta":226,"style":226},"{\n  \"providers\": {\n    \"lmstudio\": {\n      \"apiKey\": \"lm-studio\",\n      \"apiBase\": \"http:\u002F\u002Flocalhost:1234\u002Fv1\"\n    }\n  },\n  \"model\": \"qwen2.5-7b-instruct\"\n}\n",[228,1130,1131,1135,1141,1148,1159,1168,1172,1176,1185],{"__ignoreMap":226},[231,1132,1133],{"class":233,"line":234},[231,1134,611],{"class":610},[231,1136,1137,1139],{"class":233,"line":241},[231,1138,616],{"class":296},[231,1140,619],{"class":610},[231,1142,1143,1146],{"class":233,"line":255},[231,1144,1145],{"class":296},"    \"lmstudio\"",[231,1147,619],{"class":610},[231,1149,1150,1152,1154,1157],{"class":233,"line":262},[231,1151,631],{"class":296},[231,1153,634],{"class":610},[231,1155,1156],{"class":248},"\"lm-studio\"",[231,1158,640],{"class":610},[231,1160,1161,1163,1165],{"class":233,"line":268},[231,1162,645],{"class":296},[231,1164,634],{"class":610},[231,1166,1167],{"class":248},"\"http:\u002F\u002Flocalhost:1234\u002Fv1\"\n",[231,1169,1170],{"class":233,"line":279},[231,1171,655],{"class":610},[231,1173,1174],{"class":233,"line":284},[231,1175,660],{"class":610},[231,1177,1178,1180,1182],{"class":233,"line":290},[231,1179,665],{"class":296},[231,1181,634],{"class":610},[231,1183,1184],{"class":248},"\"qwen2.5-7b-instruct\"\n",[231,1186,1187],{"class":233,"line":370},[231,1188,675],{"class":610},[29,1190,1192],{"id":1191},"llamacpp轻量级","llama.cpp（轻量级）",[71,1194,1195],{"id":1195},"编译安装",[221,1197,1199],{"className":223,"code":1198,"language":225,"meta":226,"style":226},"git clone https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fllama.cpp\ncd llama.cpp\nmake\n\n# 启用 CUDA（NVIDIA GPU）\nmake LLAMA_CUDA=1\n\n# 启用 Metal（Apple Silicon）\nmake LLAMA_METAL=1\n",[228,1200,1201,1212,1220,1225,1229,1234,1245,1249,1254],{"__ignoreMap":226},[231,1202,1203,1206,1209],{"class":233,"line":234},[231,1204,1205],{"class":244},"git",[231,1207,1208],{"class":248}," clone",[231,1210,1211],{"class":248}," https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fllama.cpp\n",[231,1213,1214,1217],{"class":233,"line":241},[231,1215,1216],{"class":296},"cd",[231,1218,1219],{"class":248}," llama.cpp\n",[231,1221,1222],{"class":233,"line":255},[231,1223,1224],{"class":244},"make\n",[231,1226,1227],{"class":233,"line":262},[231,1228,259],{"emptyLinePlaceholder":258},[231,1230,1231],{"class":233,"line":268},[231,1232,1233],{"class":237},"# 启用 CUDA（NVIDIA GPU）\n",[231,1235,1236,1239,1242],{"class":233,"line":279},[231,1237,1238],{"class":244},"make",[231,1240,1241],{"class":248}," LLAMA_CUDA=",[231,1243,1244],{"class":296},"1\n",[231,1246,1247],{"class":233,"line":284},[231,1248,259],{"emptyLinePlaceholder":258},[231,1250,1251],{"class":233,"line":290},[231,1252,1253],{"class":237},"# 启用 Metal（Apple Silicon）\n",[231,1255,1256,1258,1261],{"class":233,"line":370},[231,1257,1238],{"class":244},[231,1259,1260],{"class":248}," LLAMA_METAL=",[231,1262,1244],{"class":296},[71,1264,1265],{"id":1265},"下载模型",[22,1267,1268],{},"从 Hugging Face 下载 GGUF 格式模型：",[221,1270,1272],{"className":223,"code":1271,"language":225,"meta":226,"style":226},"# 使用 huggingface-cli\nhuggingface-cli download Qwen\u002FQwen2.5-7B-Instruct-GGUF \\\n  qwen2.5-7b-instruct-q4_k_m.gguf\n",[228,1273,1274,1279,1292],{"__ignoreMap":226},[231,1275,1276],{"class":233,"line":234},[231,1277,1278],{"class":237},"# 使用 huggingface-cli\n",[231,1280,1281,1284,1287,1290],{"class":233,"line":241},[231,1282,1283],{"class":244},"huggingface-cli",[231,1285,1286],{"class":248}," download",[231,1288,1289],{"class":248}," Qwen\u002FQwen2.5-7B-Instruct-GGUF",[231,1291,957],{"class":296},[231,1293,1294],{"class":233,"line":255},[231,1295,1296],{"class":248},"  qwen2.5-7b-instruct-q4_k_m.gguf\n",[71,1298,1299],{"id":1299},"运行模型",[221,1301,1303],{"className":223,"code":1302,"language":225,"meta":226,"style":226},"# 交互模式\n.\u002Fllama-cli -m models\u002Fqwen2.5-7b-instruct-q4_k_m.gguf -p \"你好\"\n\n# 服务器模式\n.\u002Fllama-server -m models\u002Fqwen2.5-7b-instruct-q4_k_m.gguf \\\n  --host 0.0.0.0 --port 8080\n",[228,1304,1305,1310,1327,1331,1336,1347],{"__ignoreMap":226},[231,1306,1307],{"class":233,"line":234},[231,1308,1309],{"class":237},"# 交互模式\n",[231,1311,1312,1315,1318,1321,1324],{"class":233,"line":241},[231,1313,1314],{"class":244},".\u002Fllama-cli",[231,1316,1317],{"class":296}," -m",[231,1319,1320],{"class":248}," models\u002Fqwen2.5-7b-instruct-q4_k_m.gguf",[231,1322,1323],{"class":296}," -p",[231,1325,1326],{"class":248}," \"你好\"\n",[231,1328,1329],{"class":233,"line":255},[231,1330,259],{"emptyLinePlaceholder":258},[231,1332,1333],{"class":233,"line":262},[231,1334,1335],{"class":237},"# 服务器模式\n",[231,1337,1338,1341,1343,1345],{"class":233,"line":268},[231,1339,1340],{"class":244},".\u002Fllama-server",[231,1342,1317],{"class":296},[231,1344,1320],{"class":248},[231,1346,957],{"class":296},[231,1348,1349,1352,1355,1358],{"class":233,"line":279},[231,1350,1351],{"class":296},"  --host",[231,1353,1354],{"class":296}," 0.0.0.0",[231,1356,1357],{"class":296}," --port",[231,1359,1360],{"class":296}," 8080\n",[71,1362,1363],{"id":1363},"量化模型",[221,1365,1367],{"className":223,"code":1366,"language":225,"meta":226,"style":226},"# 转换为 GGUF\npython convert-hf-to-gguf.py models\u002FQwen2.5-7B-Instruct\n\n# 量化\n.\u002Fllama-quantize models\u002Fqwen2.5-7b-f16.gguf \\\n  models\u002Fqwen2.5-7b-q4_k_m.gguf Q4_K_M\n",[228,1368,1369,1374,1385,1389,1394,1404],{"__ignoreMap":226},[231,1370,1371],{"class":233,"line":234},[231,1372,1373],{"class":237},"# 转换为 GGUF\n",[231,1375,1376,1379,1382],{"class":233,"line":241},[231,1377,1378],{"class":244},"python",[231,1380,1381],{"class":248}," convert-hf-to-gguf.py",[231,1383,1384],{"class":248}," models\u002FQwen2.5-7B-Instruct\n",[231,1386,1387],{"class":233,"line":255},[231,1388,259],{"emptyLinePlaceholder":258},[231,1390,1391],{"class":233,"line":262},[231,1392,1393],{"class":237},"# 量化\n",[231,1395,1396,1399,1402],{"class":233,"line":268},[231,1397,1398],{"class":244},".\u002Fllama-quantize",[231,1400,1401],{"class":248}," models\u002Fqwen2.5-7b-f16.gguf",[231,1403,957],{"class":296},[231,1405,1406,1409],{"class":233,"line":279},[231,1407,1408],{"class":248},"  models\u002Fqwen2.5-7b-q4_k_m.gguf",[231,1410,1411],{"class":248}," Q4_K_M\n",[29,1413,1414],{"id":1414},"模型量化",[71,1416,1417],{"id":1417},"量化级别对比",[412,1419,1420,1438],{},[415,1421,1422],{},[418,1423,1424,1427,1429,1432,1435],{},[421,1425,1426],{},"量化",[421,1428,426],{},[421,1430,1431],{},"质量",[421,1433,1434],{},"速度",[421,1436,1437],{},"推荐场景",[434,1439,1440,1457,1474,1491,1508],{},[418,1441,1442,1445,1448,1451,1454],{},[439,1443,1444],{},"F16",[439,1446,1447],{},"100%",[439,1449,1450],{},"最佳",[439,1452,1453],{},"慢",[439,1455,1456],{},"评测基准",[418,1458,1459,1462,1465,1468,1471],{},[439,1460,1461],{},"Q8_0",[439,1463,1464],{},"50%",[439,1466,1467],{},"优秀",[439,1469,1470],{},"中",[439,1472,1473],{},"高质量需求",[418,1475,1476,1479,1482,1485,1488],{},[439,1477,1478],{},"Q5_K_M",[439,1480,1481],{},"35%",[439,1483,1484],{},"良好",[439,1486,1487],{},"快",[439,1489,1490],{},"平衡选择",[418,1492,1493,1496,1499,1502,1505],{},[439,1494,1495],{},"Q4_K_M",[439,1497,1498],{},"25%",[439,1500,1501],{},"可用",[439,1503,1504],{},"很快",[439,1506,1507],{},"日常使用",[418,1509,1510,1513,1516,1519,1522],{},[439,1511,1512],{},"Q3_K_M",[439,1514,1515],{},"20%",[439,1517,1518],{},"较差",[439,1520,1521],{},"极快",[439,1523,1524],{},"资源受限",[71,1526,1527],{"id":1527},"使用建议",[33,1529,1530,1536,1542],{},[36,1531,1532,1535],{},[39,1533,1534],{},"16GB 内存","：Q4_K_M 量化的 7B 模型",[36,1537,1538,1541],{},[39,1539,1540],{},"32GB 内存","：Q5_K_M 量化的 13B 模型",[36,1543,1544,1547],{},[39,1545,1546],{},"64GB 内存","：Q4_K_M 量化的 34B 模型",[29,1549,1550],{"id":1550},"性能对比",[71,1552,1554],{"id":1553},"推理速度tokenss","推理速度（tokens\u002Fs）",[412,1556,1557,1573],{},[415,1558,1559],{},[418,1560,1561,1564,1567,1570],{},[421,1562,1563],{},"工具",[421,1565,1566],{},"7B 模型",[421,1568,1569],{},"13B 模型",[421,1571,1572],{},"备注",[434,1574,1575,1589,1603,1617],{},[418,1576,1577,1580,1583,1586],{},[439,1578,1579],{},"Ollama",[439,1581,1582],{},"30-50",[439,1584,1585],{},"15-25",[439,1587,1588],{},"易用性最佳",[418,1590,1591,1594,1597,1600],{},[439,1592,1593],{},"vLLM",[439,1595,1596],{},"80-120",[439,1598,1599],{},"40-60",[439,1601,1602],{},"性能最强",[418,1604,1605,1608,1611,1614],{},[439,1606,1607],{},"LM Studio",[439,1609,1610],{},"25-40",[439,1612,1613],{},"12-20",[439,1615,1616],{},"图形界面",[418,1618,1619,1622,1625,1628],{},[439,1620,1621],{},"llama.cpp",[439,1623,1624],{},"40-70",[439,1626,1627],{},"20-35",[439,1629,1630],{},"轻量级",[22,1632,1633],{},"测试环境：RTX 4090 24GB",[29,1635,1636],{"id":1636},"实战案例",[71,1638,1640],{"id":1639},"案例-1本地代码助手","案例 1：本地代码助手",[22,1642,1643,598],{},[39,1644,1645],{},"配置",[221,1647,1649],{"className":223,"code":1648,"language":225,"meta":226,"style":226},"# 下载代码模型\nollama pull deepseek-coder:6.7b\n\n# 启动服务\nollama serve\n",[228,1650,1651,1656,1664,1668,1673],{"__ignoreMap":226},[231,1652,1653],{"class":233,"line":234},[231,1654,1655],{"class":237},"# 下载代码模型\n",[231,1657,1658,1660,1662],{"class":233,"line":241},[231,1659,325],{"class":244},[231,1661,839],{"class":248},[231,1663,367],{"class":248},[231,1665,1666],{"class":233,"line":255},[231,1667,259],{"emptyLinePlaceholder":258},[231,1669,1670],{"class":233,"line":262},[231,1671,1672],{"class":237},"# 启动服务\n",[231,1674,1675,1677],{"class":233,"line":268},[231,1676,325],{"class":244},[231,1678,551],{"class":248},[22,1680,1681,1684],{},[39,1682,1683],{},"集成到 VS Code","：\n安装 Continue 插件，配置：",[221,1686,1688],{"className":601,"code":1687,"language":603,"meta":226,"style":226},"{\n  \"models\": [\n    {\n      \"title\": \"DeepSeek Coder\",\n      \"provider\": \"ollama\",\n      \"model\": \"deepseek-coder:6.7b\"\n    }\n  ]\n}\n",[228,1689,1690,1694,1702,1707,1719,1730,1740,1744,1749],{"__ignoreMap":226},[231,1691,1692],{"class":233,"line":234},[231,1693,611],{"class":610},[231,1695,1696,1699],{"class":233,"line":241},[231,1697,1698],{"class":296},"  \"models\"",[231,1700,1701],{"class":610},": [\n",[231,1703,1704],{"class":233,"line":255},[231,1705,1706],{"class":610},"    {\n",[231,1708,1709,1712,1714,1717],{"class":233,"line":262},[231,1710,1711],{"class":296},"      \"title\"",[231,1713,634],{"class":610},[231,1715,1716],{"class":248},"\"DeepSeek Coder\"",[231,1718,640],{"class":610},[231,1720,1721,1724,1726,1728],{"class":233,"line":268},[231,1722,1723],{"class":296},"      \"provider\"",[231,1725,634],{"class":610},[231,1727,637],{"class":248},[231,1729,640],{"class":610},[231,1731,1732,1735,1737],{"class":233,"line":279},[231,1733,1734],{"class":296},"      \"model\"",[231,1736,634],{"class":610},[231,1738,1739],{"class":248},"\"deepseek-coder:6.7b\"\n",[231,1741,1742],{"class":233,"line":284},[231,1743,655],{"class":610},[231,1745,1746],{"class":233,"line":290},[231,1747,1748],{"class":610},"  ]\n",[231,1750,1751],{"class":233,"line":370},[231,1752,675],{"class":610},[71,1754,1756],{"id":1755},"案例-2私有知识库问答","案例 2：私有知识库问答",[22,1758,1759,598],{},[39,1760,1761],{},"架构",[221,1763,1766],{"className":1764,"code":1765,"language":760},[758],"文档 → 向量化（Embedding）→ 向量数据库（Chroma）\n                                    ↓\n用户提问 → 检索相关文档 → 本地 LLM 生成答案\n",[228,1767,1765],{"__ignoreMap":226},[22,1769,1770,598],{},[39,1771,1772],{},"实现",[221,1774,1777],{"className":1775,"code":1776,"language":1378,"meta":226,"style":226},"language-python shiki shiki-themes github-light github-dark","from langchain.vectorstores import Chroma\nfrom langchain.embeddings import OllamaEmbeddings\nfrom langchain.llms import Ollama\n\n# 初始化\nembeddings = OllamaEmbeddings(model=\"qwen2.5:7b\")\nvectorstore = Chroma(embedding_function=embeddings)\nllm = Ollama(model=\"qwen2.5:7b\")\n\n# 添加文档\nvectorstore.add_texts([\"文档内容...\"])\n\n# 查询\ndocs = vectorstore.similarity_search(\"问题\")\nanswer = llm(f\"根据以下内容回答：{docs}\\n\\n问题：...\")\n",[228,1778,1779,1793,1805,1817,1821,1826,1849,1867,1885,1889,1894,1905,1909,1914,1929],{"__ignoreMap":226},[231,1780,1781,1784,1787,1790],{"class":233,"line":234},[231,1782,1783],{"class":303},"from",[231,1785,1786],{"class":610}," langchain.vectorstores ",[231,1788,1789],{"class":303},"import",[231,1791,1792],{"class":610}," Chroma\n",[231,1794,1795,1797,1800,1802],{"class":233,"line":241},[231,1796,1783],{"class":303},[231,1798,1799],{"class":610}," langchain.embeddings ",[231,1801,1789],{"class":303},[231,1803,1804],{"class":610}," OllamaEmbeddings\n",[231,1806,1807,1809,1812,1814],{"class":233,"line":255},[231,1808,1783],{"class":303},[231,1810,1811],{"class":610}," langchain.llms ",[231,1813,1789],{"class":303},[231,1815,1816],{"class":610}," Ollama\n",[231,1818,1819],{"class":233,"line":262},[231,1820,259],{"emptyLinePlaceholder":258},[231,1822,1823],{"class":233,"line":268},[231,1824,1825],{"class":237},"# 初始化\n",[231,1827,1828,1831,1834,1837,1841,1843,1846],{"class":233,"line":279},[231,1829,1830],{"class":610},"embeddings ",[231,1832,1833],{"class":303},"=",[231,1835,1836],{"class":610}," OllamaEmbeddings(",[231,1838,1840],{"class":1839},"s4XuR","model",[231,1842,1833],{"class":303},[231,1844,1845],{"class":248},"\"qwen2.5:7b\"",[231,1847,1848],{"class":610},")\n",[231,1850,1851,1854,1856,1859,1862,1864],{"class":233,"line":284},[231,1852,1853],{"class":610},"vectorstore ",[231,1855,1833],{"class":303},[231,1857,1858],{"class":610}," Chroma(",[231,1860,1861],{"class":1839},"embedding_function",[231,1863,1833],{"class":303},[231,1865,1866],{"class":610},"embeddings)\n",[231,1868,1869,1872,1874,1877,1879,1881,1883],{"class":233,"line":290},[231,1870,1871],{"class":610},"llm ",[231,1873,1833],{"class":303},[231,1875,1876],{"class":610}," Ollama(",[231,1878,1840],{"class":1839},[231,1880,1833],{"class":303},[231,1882,1845],{"class":248},[231,1884,1848],{"class":610},[231,1886,1887],{"class":233,"line":370},[231,1888,259],{"emptyLinePlaceholder":258},[231,1890,1891],{"class":233,"line":375},[231,1892,1893],{"class":237},"# 添加文档\n",[231,1895,1896,1899,1902],{"class":233,"line":381},[231,1897,1898],{"class":610},"vectorstore.add_texts([",[231,1900,1901],{"class":248},"\"文档内容...\"",[231,1903,1904],{"class":610},"])\n",[231,1906,1907],{"class":233,"line":389},[231,1908,259],{"emptyLinePlaceholder":258},[231,1910,1911],{"class":233,"line":394},[231,1912,1913],{"class":237},"# 查询\n",[231,1915,1916,1919,1921,1924,1927],{"class":233,"line":400},[231,1917,1918],{"class":610},"docs ",[231,1920,1833],{"class":303},[231,1922,1923],{"class":610}," vectorstore.similarity_search(",[231,1925,1926],{"class":248},"\"问题\"",[231,1928,1848],{"class":610},[231,1930,1932,1935,1937,1940,1943,1946,1949,1952,1955,1958],{"class":233,"line":1931},15,[231,1933,1934],{"class":610},"answer ",[231,1936,1833],{"class":303},[231,1938,1939],{"class":610}," llm(",[231,1941,1942],{"class":303},"f",[231,1944,1945],{"class":248},"\"根据以下内容回答：",[231,1947,1948],{"class":296},"{",[231,1950,1951],{"class":610},"docs",[231,1953,1954],{"class":296},"}\\n\\n",[231,1956,1957],{"class":248},"问题：...\"",[231,1959,1848],{"class":610},[71,1961,1963],{"id":1962},"案例-3离线翻译服务","案例 3：离线翻译服务",[221,1965,1967],{"className":223,"code":1966,"language":225,"meta":226,"style":226},"# 使用专门的翻译模型\nollama pull aya:8b\n\n# 创建翻译助手\nollama create translator -f - \u003C\u003CEOF\nFROM aya:8b\nSYSTEM \"你是专业翻译，将输入翻译为中文\"\nEOF\n\n# 使用\necho \"Hello, world!\" | ollama run translator\n",[228,1968,1969,1974,1983,1987,1992,2012,2017,2022,2026,2030,2035],{"__ignoreMap":226},[231,1970,1971],{"class":233,"line":234},[231,1972,1973],{"class":237},"# 使用专门的翻译模型\n",[231,1975,1976,1978,1980],{"class":233,"line":241},[231,1977,325],{"class":244},[231,1979,839],{"class":248},[231,1981,1982],{"class":248}," aya:8b\n",[231,1984,1985],{"class":233,"line":255},[231,1986,259],{"emptyLinePlaceholder":258},[231,1988,1989],{"class":233,"line":262},[231,1990,1991],{"class":237},"# 创建翻译助手\n",[231,1993,1994,1996,1998,2001,2003,2006,2009],{"class":233,"line":268},[231,1995,325],{"class":244},[231,1997,777],{"class":248},[231,1999,2000],{"class":248}," translator",[231,2002,783],{"class":296},[231,2004,2005],{"class":248}," -",[231,2007,2008],{"class":303}," \u003C\u003C",[231,2010,2011],{"class":248},"EOF\n",[231,2013,2014],{"class":233,"line":279},[231,2015,2016],{"class":248},"FROM aya:8b\n",[231,2018,2019],{"class":233,"line":284},[231,2020,2021],{"class":248},"SYSTEM \"你是专业翻译，将输入翻译为中文\"\n",[231,2023,2024],{"class":233,"line":290},[231,2025,2011],{"class":248},[231,2027,2028],{"class":233,"line":370},[231,2029,259],{"emptyLinePlaceholder":258},[231,2031,2032],{"class":233,"line":375},[231,2033,2034],{"class":237},"# 使用\n",[231,2036,2037,2040,2043,2045,2048,2050],{"class":233,"line":381},[231,2038,2039],{"class":296},"echo",[231,2041,2042],{"class":248}," \"Hello, world!\"",[231,2044,304],{"class":303},[231,2046,2047],{"class":244}," ollama",[231,2049,328],{"class":248},[231,2051,2052],{"class":248}," translator\n",[29,2054,2055],{"id":2055},"故障排除",[71,2057,2058],{"id":2058},"内存不足",[221,2060,2062],{"className":223,"code":2061,"language":225,"meta":226,"style":226},"# 减少上下文长度\nollama run qwen2.5:7b --ctx-size 2048\n\n# 使用更小的模型\nollama run qwen2.5:3b\n",[228,2063,2064,2069,2084,2088,2093],{"__ignoreMap":226},[231,2065,2066],{"class":233,"line":234},[231,2067,2068],{"class":237},"# 减少上下文长度\n",[231,2070,2071,2073,2075,2078,2081],{"class":233,"line":241},[231,2072,325],{"class":244},[231,2074,328],{"class":248},[231,2076,2077],{"class":248}," qwen2.5:7b",[231,2079,2080],{"class":296}," --ctx-size",[231,2082,2083],{"class":296}," 2048\n",[231,2085,2086],{"class":233,"line":255},[231,2087,259],{"emptyLinePlaceholder":258},[231,2089,2090],{"class":233,"line":262},[231,2091,2092],{"class":237},"# 使用更小的模型\n",[231,2094,2095,2097,2099],{"class":233,"line":268},[231,2096,325],{"class":244},[231,2098,328],{"class":248},[231,2100,2101],{"class":248}," qwen2.5:3b\n",[71,2103,2105],{"id":2104},"gpu-未被使用","GPU 未被使用",[221,2107,2109],{"className":223,"code":2108,"language":225,"meta":226,"style":226},"# 检查 CUDA\nnvidia-smi\n\n# 强制使用 GPU\nCUDA_VISIBLE_DEVICES=0 ollama serve\n",[228,2110,2111,2116,2121,2125,2130],{"__ignoreMap":226},[231,2112,2113],{"class":233,"line":234},[231,2114,2115],{"class":237},"# 检查 CUDA\n",[231,2117,2118],{"class":233,"line":241},[231,2119,2120],{"class":244},"nvidia-smi\n",[231,2122,2123],{"class":233,"line":255},[231,2124,259],{"emptyLinePlaceholder":258},[231,2126,2127],{"class":233,"line":262},[231,2128,2129],{"class":237},"# 强制使用 GPU\n",[231,2131,2132,2135,2137,2140,2142],{"class":233,"line":268},[231,2133,2134],{"class":610},"CUDA_VISIBLE_DEVICES",[231,2136,1833],{"class":303},[231,2138,2139],{"class":248},"0",[231,2141,2047],{"class":244},[231,2143,551],{"class":248},[71,2145,2146],{"id":2146},"推理速度慢",[221,2148,2150],{"className":223,"code":2149,"language":225,"meta":226,"style":226},"# 启用 Flash Attention\nvllm serve model --enable-flash-attention\n\n# 增加批处理\nvllm serve model --max-num-seqs 256\n",[228,2151,2152,2157,2168,2172,2177],{"__ignoreMap":226},[231,2153,2154],{"class":233,"line":234},[231,2155,2156],{"class":237},"# 启用 Flash Attention\n",[231,2158,2159,2161,2163,2165],{"class":233,"line":241},[231,2160,860],{"class":244},[231,2162,863],{"class":248},[231,2164,1023],{"class":248},[231,2166,2167],{"class":296}," --enable-flash-attention\n",[231,2169,2170],{"class":233,"line":255},[231,2171,259],{"emptyLinePlaceholder":258},[231,2173,2174],{"class":233,"line":262},[231,2175,2176],{"class":237},"# 增加批处理\n",[231,2178,2179,2181,2183,2185,2188],{"class":233,"line":268},[231,2180,860],{"class":244},[231,2182,863],{"class":248},[231,2184,1023],{"class":248},[231,2186,2187],{"class":296}," --max-num-seqs",[231,2189,2190],{"class":296}," 256\n",[29,2192,2193],{"id":2193},"模型推荐",[71,2195,2196],{"id":2196},"中文对话",[1108,2198,2199,2205,2211],{},[36,2200,2201,2204],{},[39,2202,2203],{},"Qwen2.5-7B","：阿里通义千问，中文能力强",[36,2206,2207,2210],{},[39,2208,2209],{},"GLM-4-9B","：智谱 AI，对话流畅",[36,2212,2213,2216],{},[39,2214,2215],{},"Yi-6B","：零一万物，性能均衡",[71,2218,475],{"id":475},[1108,2220,2221,2227,2233],{},[36,2222,2223,2226],{},[39,2224,2225],{},"DeepSeek-Coder-6.7B","：代码专家",[36,2228,2229,2232],{},[39,2230,2231],{},"CodeLlama-13B","：Meta 代码模型",[36,2234,2235,2238],{},[39,2236,2237],{},"StarCoder2-7B","：多语言支持",[71,2240,1630],{"id":1630},[1108,2242,2243,2249,2255],{},[36,2244,2245,2248],{},[39,2246,2247],{},"Phi-3-3.8B","：微软小模型，性能出色",[36,2250,2251,2254],{},[39,2252,2253],{},"Llama3.2-3B","：Meta 轻量版",[36,2256,2257,2260],{},[39,2258,2259],{},"Gemma-2B","：Google 小模型",[29,2262,2263],{"id":2263},"推荐部署顺序",[22,2265,2266],{},"建议按这个顺序推进：",[1108,2268,2269,2272,2275,2278,2281],{},[36,2270,2271],{},"先确认硬件和磁盘预算",[36,2273,2274],{},"先跑一个小模型",[36,2276,2277],{},"再决定是否升级到更大模型",[36,2279,2280],{},"再接 UI、API、RAG 或代理工具",[36,2282,2283],{},"最后再做并发、监控和长期服务化",[29,2285,2286],{"id":2286},"常见问题",[71,2288,2289],{"id":2289},"跑得动但不好用",[22,2291,2292],{},"很多时候不是“本地模型不行”，而是：",[33,2294,2295,2298,2301,2304],{},[36,2296,2297],{},"模型太小",[36,2299,2300],{},"量化过重",[36,2302,2303],{},"任务不适合本地小模型",[36,2305,2306],{},"提示词和工作流没有调整",[71,2308,2309],{"id":2309},"显存不够怎么办",[22,2311,2312],{},"先考虑：",[33,2314,2315,2318,2321,2324],{},[36,2316,2317],{},"换更小模型",[36,2319,2320],{},"用更高量化版本",[36,2322,2323],{},"优先 CPU \u002F 混合推理接受更慢速度",[36,2325,2326],{},"不要一开始就追 70B 级别",[71,2328,2330],{"id":2329},"本地部署是不是一定比云-api-省钱","本地部署是不是一定比云 API 省钱",[22,2332,2333],{},"不一定。如果你只是偶尔用、机器本身不强、还要花很多时间维护，云 API 反而更省心。",[29,2335,2336],{"id":2336},"风险提醒",[33,2338,2339,2342,2345],{},[36,2340,2341],{},"模型和素材会吃掉大量磁盘，目录管理要提前规划",[36,2343,2344],{},"本地服务若暴露到局域网或公网，要补鉴权和访问限制",[36,2346,2347],{},"先验证场景价值，再逐步追加硬件投入",[29,2349,2350],{"id":2350},"延伸阅读",[33,2352,2353,2359,2365],{},[36,2354,2355],{},[1081,2356,2358],{"href":2357},"\u002Fdocs\u002Fai-local-models","本地 AI 模型部署",[36,2360,2361],{},[1081,2362,2364],{"href":2363},"\u002Fdocs\u002Fai-tools","AI 工具合集",[36,2366,2367],{},[1081,2368,2370],{"href":2369},"\u002Fdocs\u002Fai-api-usage","AI API 接入指南",[29,2372,2373],{"id":2373},"参考链接",[33,2375,2376,2383,2390,2395,2402],{},[36,2377,2378],{},[1081,2379,2382],{"href":2380,"rel":2381},"https:\u002F\u002Follama.com\u002F",[1085],"Ollama 官网",[36,2384,2385],{},[1081,2386,2389],{"href":2387,"rel":2388},"https:\u002F\u002Fdocs.vllm.ai\u002F",[1085],"vLLM 文档",[36,2391,2392],{},[1081,2393,1607],{"href":1083,"rel":2394},[1085],[36,2396,2397],{},[1081,2398,2401],{"href":2399,"rel":2400},"https:\u002F\u002Fgithub.com\u002Fggerganov\u002Fllama.cpp",[1085],"llama.cpp GitHub",[36,2403,2404],{},[1081,2405,2408],{"href":2406,"rel":2407},"https:\u002F\u002Fhuggingface.co\u002Fmodels",[1085],"Hugging Face 模型库",[2410,2411,2412],"style",{},"html pre.shiki code .sJ8bj, html code.shiki .sJ8bj{--shiki-default:#6A737D;--shiki-dark:#6A737D}html pre.shiki code .sScJk, html code.shiki .sScJk{--shiki-default:#6F42C1;--shiki-dark:#B392F0}html pre.shiki code .sZZnC, html code.shiki .sZZnC{--shiki-default:#032F62;--shiki-dark:#9ECBFF}html pre.shiki code .sj4cs, html code.shiki .sj4cs{--shiki-default:#005CC5;--shiki-dark:#79B8FF}html pre.shiki code .szBVR, html code.shiki .szBVR{--shiki-default:#D73A49;--shiki-dark:#F97583}html .default .shiki span {color: var(--shiki-default);background: var(--shiki-default-bg);font-style: var(--shiki-default-font-style);font-weight: var(--shiki-default-font-weight);text-decoration: var(--shiki-default-text-decoration);}html .shiki span {color: var(--shiki-default);background: var(--shiki-default-bg);font-style: var(--shiki-default-font-style);font-weight: var(--shiki-default-font-weight);text-decoration: var(--shiki-default-text-decoration);}html .dark .shiki span {color: var(--shiki-dark);background: var(--shiki-dark-bg);font-style: var(--shiki-dark-font-style);font-weight: var(--shiki-dark-font-weight);text-decoration: var(--shiki-dark-text-decoration);}html.dark .shiki span {color: var(--shiki-dark);background: var(--shiki-dark-bg);font-style: var(--shiki-dark-font-style);font-weight: var(--shiki-dark-font-weight);text-decoration: var(--shiki-dark-text-decoration);}html pre.shiki code .sVt8B, html code.shiki .sVt8B{--shiki-default:#24292E;--shiki-dark:#E1E4E8}html pre.shiki code .s4XuR, html code.shiki .s4XuR{--shiki-default:#E36209;--shiki-dark:#FFAB70}",{"title":226,"searchDepth":241,"depth":241,"links":2414},[2415,2416,2420,2425,2433,2439,2445,2451,2455,2458,2463,2468,2473,2474,2479,2480,2481],{"id":31,"depth":241,"text":31},{"id":69,"depth":241,"text":69,"children":2417},[2418,2419],{"id":73,"depth":255,"text":73},{"id":108,"depth":255,"text":108},{"id":115,"depth":241,"text":115,"children":2421},[2422,2423,2424],{"id":133,"depth":255,"text":134},{"id":163,"depth":255,"text":164},{"id":189,"depth":255,"text":190},{"id":215,"depth":241,"text":216,"children":2426},[2427,2428,2429,2430,2431,2432],{"id":219,"depth":255,"text":219},{"id":310,"depth":255,"text":310},{"id":410,"depth":255,"text":410},{"id":533,"depth":255,"text":534},{"id":591,"depth":255,"text":592},{"id":751,"depth":255,"text":751},{"id":798,"depth":241,"text":799,"children":2434},[2435,2436,2437,2438],{"id":802,"depth":255,"text":219},{"id":845,"depth":255,"text":845},{"id":940,"depth":255,"text":941},{"id":1004,"depth":255,"text":1004},{"id":1072,"depth":241,"text":1073,"children":2440},[2441,2442,2443,2444],{"id":1076,"depth":255,"text":219},{"id":1089,"depth":255,"text":1089},{"id":1106,"depth":255,"text":1106},{"id":1124,"depth":255,"text":1125},{"id":1191,"depth":241,"text":1192,"children":2446},[2447,2448,2449,2450],{"id":1195,"depth":255,"text":1195},{"id":1265,"depth":255,"text":1265},{"id":1299,"depth":255,"text":1299},{"id":1363,"depth":255,"text":1363},{"id":1414,"depth":241,"text":1414,"children":2452},[2453,2454],{"id":1417,"depth":255,"text":1417},{"id":1527,"depth":255,"text":1527},{"id":1550,"depth":241,"text":1550,"children":2456},[2457],{"id":1553,"depth":255,"text":1554},{"id":1636,"depth":241,"text":1636,"children":2459},[2460,2461,2462],{"id":1639,"depth":255,"text":1640},{"id":1755,"depth":255,"text":1756},{"id":1962,"depth":255,"text":1963},{"id":2055,"depth":241,"text":2055,"children":2464},[2465,2466,2467],{"id":2058,"depth":255,"text":2058},{"id":2104,"depth":255,"text":2105},{"id":2146,"depth":255,"text":2146},{"id":2193,"depth":241,"text":2193,"children":2469},[2470,2471,2472],{"id":2196,"depth":255,"text":2196},{"id":475,"depth":255,"text":475},{"id":1630,"depth":255,"text":1630},{"id":2263,"depth":241,"text":2263},{"id":2286,"depth":241,"text":2286,"children":2475},[2476,2477,2478],{"id":2289,"depth":255,"text":2289},{"id":2309,"depth":255,"text":2309},{"id":2329,"depth":255,"text":2330},{"id":2336,"depth":241,"text":2336},{"id":2350,"depth":241,"text":2350},{"id":2373,"depth":241,"text":2373},{"path":2357,"title":2358,"description":2483,"docType":8,"resourceKind":9,"categoryId":10,"categoryLabel":11,"updatedAt":12,"publishedAt":12,"icon":13},"Ollama、LM Studio、vLLM 本地大模型运行与 API 调用",{"path":2485,"title":2486,"description":2487,"docType":8,"resourceKind":9,"categoryId":2488,"categoryLabel":2489,"updatedAt":12,"publishedAt":12,"icon":2490},"\u002Fdocs\u002Ftesting-guide","前端测试指南","Vitest 单元测试、Playwright E2E 测试、测试策略与最佳实践","programming-languages","编程语言","i-carbon-application",[2492,2493,2494],"希望把零散经验整理成长期可复用工作流的人","正在使用 AI 工具、Agent 或自动化工作流的人","希望阅读时顺手建立自己的操作清单或收藏体系的人",[2496,2497,2498],"先浏览标题、摘要和目录，带着问题阅读会更高效","确认模型供应商、API Key、CLI 工具链与本地资源是否已准备好","如果页面里提到相关文档，尽量一起打开对照，效果通常更完整",[2500,2505,2506,2510],{"path":2501,"title":2502,"description":2503,"docType":8,"resourceKind":9,"categoryId":10,"categoryLabel":11,"updatedAt":2504,"publishedAt":2504,"icon":13},"\u002Fdocs\u002Fskills-guide","AI Agent Skills 指南","理解 skills 的作用、目录结构、编写方式，以及它与 MCP 的关系","2026-03-08",{"path":2357,"title":2358,"description":2483,"docType":8,"resourceKind":9,"categoryId":10,"categoryLabel":11,"updatedAt":12,"publishedAt":12,"icon":13},{"path":2507,"title":2508,"description":2509,"docType":8,"resourceKind":9,"categoryId":10,"categoryLabel":11,"updatedAt":12,"publishedAt":12,"icon":13},"\u002Fdocs\u002Fai-coding-rules","AI 编程助手规则配置","Cursor Rules、Claude Projects、Kiro Steering 等 AI 编程助手的规则与上下文配置",{"path":2511,"title":2512,"description":2513,"docType":8,"resourceKind":9,"categoryId":10,"categoryLabel":11,"updatedAt":12,"publishedAt":12,"icon":13},"\u002Fdocs\u002Fai-agent-security","AI 代理安全配置指南","OpenClaw、nanobot 等 AI 代理的安全配置最佳实践",1776215713412]