Artikelbild für den Artikel: CODE INTERPRETER REASONING: Ein neuer Ansatz zur Verbesserung mathematischer Fähigkeiten in KI-Modellen

CODE INTERPRETER REASONING: Ein neuer Ansatz zur Verbesserung mathematischer Fähigkeiten in KI-Modellen

CoRT ist ein neuartiges Post-Training-Framework, das entwickelt wurde, um Large Reasoning Models (LRMs) zu lehren, wie sie effektiv mit Code-Interpretern (CIs) interagieren können. Durch strategisches Hint-Engineering wird es diesen Modellen ermöglicht, mathematische Probleme besser zu lösen und externe Berechnungen effizient zu delegieren.

Einführung in CoRT

Die Integration von externen Berechnungstools in die internen Denkprozesse von LRMs stellt eine der größten Herausforderungen in der KI-Entwicklung dar. CoRT adressiert dieses Problem durch die Kombination von Hint-Engineering und einer vollständigen Trainingspipeline, die verschiedene Trainingsmethoden wie Supervised Fine-Tuning (SFT), Reinforcement Fine-Tuning (RFT) und Reinforcement Learning (RL) umfasst.

Schlüsselmerkmale von CoRT

  • Hint-Engineering: Strategische Platzierung von Hinweisen, um die Interaktion zwischen LRM und CI zu optimieren.
  • Hohe Stichprobeneffizienz: Erhebliche Verbesserungen mit nur 30 manuell annotierten, hochwertigen Beispielen.
  • Token-Effizienz: Reduzierung des Tokenverbrauchs um 30–50% bei gleichbleibender Leistung.
  • Vollständige Trainingspipeline: Unterstützung von SFT, RFT und RL-Trainingsphasen.

Installation und Nutzung

Um CoRT zu installieren, wird empfohlen, Python 3.10 zu verwenden. Die Installation kann über die Anweisungen auf GitHub erfolgen. Es ist wichtig, die Abhängigkeit von der vLLM-Version 0.6.3.post1 zu beachten.

Inference mit CoRT

Um Inferenz mit den Modellen durchzuführen, kann der folgende Befehl verwendet werden:

TOKENIZERS_PARALLELISM=false VLLM_USE_V1=1 python -m infer.inference_vllm_dp_mj \
 --input_file <path_to_input_file_in_jsonl> \
 --start 0 \
 --end 0 \
 --output_dir <path_to_output_dir> \
 --model_name_or_path <local_path_to_our_1.5b_model> \
 --engine vllm \
 --temperature 0.6 \
 --top_p 0.95 \
 --n_sampling 16 \
 --stop_tokens_mode normal_code_block_end \
 --max_tokens_per_call 32768 \
 --max_model_len 32768 \
 --max_func_call 15 \
 --func_call_mode jupyter \
 --data_parallel_size 1 \
 --tensor_parallel_size 1

Evaluation der Modelle

Die Leistung der beiden RL-Modelle (1.5B) kann durch die Ausführung des folgenden Befehls evaluiert werden:

cd CORT
sh evaluation/eval_dp_8_tp_1_n_16_maxml_32k_maxfc_15_maxlpc_32k.sh <model_to_eval>

Open-Sourced Modelle

CoRT hat zwei 1.5B RL-Modelle veröffentlicht, die mit dem CoRT-Framework trainiert wurden:

  • PROMPT-HINT-1.5B-RL: Verfügbar auf ModelScope und Hugging Face, mit einer durchschnittlichen Genauigkeit von 58.3%.
  • HINT-ENGINEERING-1.5B-RL: Ebenfalls verfügbar auf ModelScope und Hugging Face, mit einer durchschnittlichen Genauigkeit von 56.4% und überlegener Token-Effizienz.

Fazit

CoRT stellt einen bedeutenden Fortschritt in der Integration von Code-Interpretern in die Denkprozesse von KI-Modellen dar. Durch die Kombination von Hint-Engineering und einer effektiven Trainingspipeline wird es möglich, mathematische Probleme effizienter zu lösen und die Leistung von LRMs erheblich zu steigern.

Quellenliste:

Dieser Artikel wurde mithilfe von KI verfasst und basiert auf automatisch gesammelten Informationen.
0 Kommentare

Hinterlasse einen Kommentar

An der Diskussion beteiligen?
Hinterlasse uns deinen Kommentar!

Schreibe einen Kommentar