first commit

2025-08-08 17:20:00 +08:00 · 2025-08-08 17:20:00 +08:00 · d0ad05f4fb
commit d0ad05f4fb
7 changed files with 121 additions and 0 deletions
--- a/README.txt
+++ b/README.txt
@ -0,0 +1,8 @@
 mamba env create -f hf-train-cu118.yaml --strict-channel-priority
 mamba activate hf-train-cu118
 pip install --upgrade pip
 pip install --no-deps -r requirements-hf.txt --constraint constraints-cu118.txt
 # 需要 deepspeed 时再装：
 DS_BUILD_OPS=0 pip install "deepspeed==0.14.*"  # 先不编译 CUDA 内核
--- a/check_core_cuda.sh
+++ b/check_core_cuda.sh
@ -0,0 +1,10 @@
 python - <<'PY'
 import torch
 print("PyTorch 版本:", torch.__version__)
 print("CUDA runtime 版本:", torch.version.cuda)
 print("GPU 可用:", torch.cuda.is_available())
 if torch.cuda.is_available():
    print("GPU 数量:", torch.cuda.device_count())
    for i in range(torch.cuda.device_count()):
        print(f"  GPU {i}:", torch.cuda.get_device_name(i))
 PY
--- a/check_hf.sh
+++ b/check_hf.sh
@ -0,0 +1,11 @@
 python - <<'PY'
 import transformers, accelerate, datasets, safetensors, sentencepiece, peft, bitsandbytes
 print("Transformers:", transformers.__version__)
 print("Accelerate:", accelerate.__version__)
 print("Datasets:", datasets.__version__)
 print("Safetensors:", safetensors.__version__)
 print("SentencePiece:", sentencepiece.__version__)
 print("PEFT:", peft.__version__)
 print("BitsAndBytes:", bitsandbytes.__version__)
 PY
--- a/check_train.sh
+++ b/check_train.sh
@ -0,0 +1,30 @@
 python - <<'PY'
 from datasets import load_dataset
 from transformers import AutoTokenizer, AutoModelForCausalLM, Trainer, TrainingArguments, DataCollatorForLanguageModeling
 import torch
 model_id = "sshleifer/tiny-gpt2"  # 极小模型
 tok = AutoTokenizer.from_pretrained(model_id)
 tok.pad_token = tok.eos_token
 ds = load_dataset("wikitext", "wikitext-2-raw-v1", split="train[:1%]")
 def tok_fn(ex): return tok(ex["text"], truncation=True, padding="max_length", max_length=64)
 ds = ds.map(tok_fn, batched=True, remove_columns=["text"])
 mdl = AutoModelForCausalLM.from_pretrained(model_id)
 collator = DataCollatorForLanguageModeling(tok, mlm=False)
 args = TrainingArguments(
    output_dir="out-mini",
    per_device_train_batch_size=2,
    num_train_epochs=1,
    fp16=torch.cuda.is_available(),
    logging_steps=2,
    save_steps=10,
    report_to="none",
 )
 trainer = Trainer(model=mdl, args=args, train_dataset=ds, data_collator=collator)
 trainer.train()
 print("✅ 训练链路 OK")
 PY
--- a/constraints-cu118.txt
+++ b/constraints-cu118.txt
@ -0,0 +1,3 @@
 torch==2.1.2
 torchvision==0.16.2
 torchaudio==2.1.2
--- a/hf-train-cu118.yaml
+++ b/hf-train-cu118.yaml
@ -0,0 +1,44 @@
 name: hf-train-cu118
 channels:
  - pytorch
  - nvidia
  - conda-forge
 dependencies:
  - python=3.10
  - pip
  # ---- Torch 栈：固定 2.1.2 + cu118 ----
  - pytorch=2.1.2
  - torchvision=0.16.2
  - torchaudio=2.1.2
  - pytorch-cuda=11.8
  # ---- 避坑：Numpy 钉在 1.26.* ----
  - numpy=1.26.*
  # ---- 常用科学/系统库 ----
  - pandas
  - scipy
  - pyarrow
  - uvicorn
  - git
  # ---- HF 主栈 + 其运行时依赖（全部走 conda，不让 pip 动依赖）----
  - transformers>=4.40
  - accelerate>=0.30
  - datasets>=2.18
  - evaluate>=0.4
  - safetensors>=0.4
  - sentencepiece>=0.1.99
  - tokenizers=0.19.*
  - huggingface_hub>=0.23
  - tqdm>=4.66
  - scikit-learn>=1.4
  - tensorboard>=2.16
  - packaging
  - regex
  - pyyaml
  - requests
  - fsspec
  - dill
  - multiprocess
  - xxhash
  - aiohttp
  - psutil
--- a/requirements-hf.txt
+++ b/requirements-hf.txt
@ -0,0 +1,15 @@
 # requirements-hf.txt  （HF 生态）
 transformers>=4.40,<5.0
 accelerate>=0.30
 datasets>=2.18
 evaluate>=0.4
 safetensors>=0.4
 sentencepiece>=0.1.99
 tokenizers>=0.19,<0.21
 huggingface_hub>=0.23
 tqdm>=4.66
 peft>=0.11
 bitsandbytes>=0.43
 tensorboard>=2.16
 scikit-learn>=1.4
 # deepspeed 单独装，别放进来