【个人开发】deepspeed+Llama-factory 本地数据多卡Lora微调【完整教程】
1.背景 上一篇文章写到,【个人开发】macbook m1 Lora微调qwen大模型 该微调方式,同样适用于GPU,只不过在train.py脚本中,针对device,调整为cuda即可。 如果数据量过大的话,单卡微调会存在瓶颈,因此考虑多...
1.背景 上一篇文章写到,【个人开发】macbook m1 Lora微调qwen大模型 该微调方式,同样适用于GPU,只不过在train.py脚本中,针对device,调整为cuda即可。 如果数据量过大的话,单卡微调会存在瓶颈,因此考虑多...

前言 之前分享的几篇内容对新手不太友好,看到小伙伴们在留言区的反馈,制作过程中会遇到各种问题: 工作流:各种报错,不知道什么意思; 代码:编程小白,完全不懂代码,看代码像看天书,也不会写代码,很难通过代码来拓展延伸做更多其他尝试; 其他:也...

1.背景 对于国内小公司,怎样通过Ai 将内部流程、产品重新做一次,从而提高人效、给客户带来价值,这是老板们在考虑的问题 ? 当前市面上的你大模型例如:通义千问、文心一言、kimi、智谱清言、盘古 等,底层能力都非常强大(千亿级参数),但各...

Ollama是一个由Facebook AI Research开发的开源、轻量级且高效的大型语言模型(LLM)框架。它旨在使研究人员和开发人员能够更轻松地在自己的硬件上部署和运行LLM,而无需专门的云计算资源。 Ollama ...

上一篇博客 【AI 大模型】RAG 检索增强生成 ⑤ ( 向量数据库 | 向量数据库 索引结构和搜索算法 | 常见 向量数据库 对比 | 安装并使用 向量数据库 chromadb 案例 ) 中 , 简单介绍了 向量数据库 概念 , 以及对常...

在大语言模型(LLM)不断涌现的时代,如何评估这些国产大模型的逻辑推理能力,尤其是在处理基础计数问题上的表现,成为了一个备受关注的话题。随着越来越多的国产大模型进入市场,比较它们在不同任务中的表现尤为重要。本文聚焦于计数这一基础能力,对通义...
1. 详细步骤 1.1 安装 cuda 等 nvidia 依赖(非CUDA环境运行可跳过) # 以 CUDA Toolkit 12.4: Ubuntu-22.04/24.04(x86_64) 为例,注意区分 WSL 和 Ubuntu,详见 ...

国内AI大模型 通义(阿里) 阿里AI依托阿里领先的云基础设施、大数据和AI工程能力、场景算法技术和多年行业实践,一站式地为企业和开发者提供云原生的AI能力体系。帮助提升AI应用开发效率,促进AI在产业中规模化落地,激发业务价值。 通义版本...

大家好!今天我来分享一篇超级详细的教程,教你如何在本地部署 DeepSeek-R1 大模型,让你的电脑也能成为一个强大的 AI 工作站!这篇文章会从零开始,手把手带你完成所有步骤,适合小白操作。废话不多说,咱们直接开始吧! 目录 一、准备工...

一、大模型(LLM)简介 大模型(LLM)狭义上指的是基于深度学习算法训练的自然语言处理(NLP)模型,广泛应用于自然语言理解和生成等领域;广义上还包括机器视觉(CV)大模型、多模态大模型和科学计算大模型等。近年来,随着百模大战的开启,各类...