CODE INTERPRETER REASONING: Ein neuer Ansatz zur Verbesserung mathematischer Fähigkeiten in KI-Modellen
CoRT ist ein neuartiges Post-Training-Framework, das entwickelt wurde, um Large Reasoning Models (LRMs) zu lehren, wie sie effektiv mit Code-Interpretern (CIs) interagieren können. Durch strategisches Hint-Engineering wird es diesen Modellen ermöglicht, mathematische Probleme besser zu lösen und externe Berechnungen effizient zu delegieren.
Einführung in CoRT
Die Integration von externen Berechnungstools in die internen Denkprozesse von LRMs stellt eine der größten Herausforderungen in der KI-Entwicklung dar. CoRT adressiert dieses Problem durch die Kombination von Hint-Engineering und einer vollständigen Trainingspipeline, die verschiedene Trainingsmethoden wie Supervised Fine-Tuning (SFT), Reinforcement Fine-Tuning (RFT) und Reinforcement Learning (RL) umfasst.
Schlüsselmerkmale von CoRT
- Hint-Engineering: Strategische Platzierung von Hinweisen, um die Interaktion zwischen LRM und CI zu optimieren.
- Hohe Stichprobeneffizienz: Erhebliche Verbesserungen mit nur 30 manuell annotierten, hochwertigen Beispielen.
- Token-Effizienz: Reduzierung des Tokenverbrauchs um 30–50% bei gleichbleibender Leistung.
- Vollständige Trainingspipeline: Unterstützung von SFT, RFT und RL-Trainingsphasen.
Installation und Nutzung
Um CoRT zu installieren, wird empfohlen, Python 3.10 zu verwenden. Die Installation kann über die Anweisungen auf GitHub erfolgen. Es ist wichtig, die Abhängigkeit von der vLLM-Version 0.6.3.post1 zu beachten.
Inference mit CoRT
Um Inferenz mit den Modellen durchzuführen, kann der folgende Befehl verwendet werden:
TOKENIZERS_PARALLELISM=false VLLM_USE_V1=1 python -m infer.inference_vllm_dp_mj \
--input_file <path_to_input_file_in_jsonl> \
--start 0 \
--end 0 \
--output_dir <path_to_output_dir> \
--model_name_or_path <local_path_to_our_1.5b_model> \
--engine vllm \
--temperature 0.6 \
--top_p 0.95 \
--n_sampling 16 \
--stop_tokens_mode normal_code_block_end \
--max_tokens_per_call 32768 \
--max_model_len 32768 \
--max_func_call 15 \
--func_call_mode jupyter \
--data_parallel_size 1 \
--tensor_parallel_size 1
Evaluation der Modelle
Die Leistung der beiden RL-Modelle (1.5B) kann durch die Ausführung des folgenden Befehls evaluiert werden:
cd CORT
sh evaluation/eval_dp_8_tp_1_n_16_maxml_32k_maxfc_15_maxlpc_32k.sh <model_to_eval>
Open-Sourced Modelle
CoRT hat zwei 1.5B RL-Modelle veröffentlicht, die mit dem CoRT-Framework trainiert wurden:
- PROMPT-HINT-1.5B-RL: Verfügbar auf ModelScope und Hugging Face, mit einer durchschnittlichen Genauigkeit von 58.3%.
- HINT-ENGINEERING-1.5B-RL: Ebenfalls verfügbar auf ModelScope und Hugging Face, mit einer durchschnittlichen Genauigkeit von 56.4% und überlegener Token-Effizienz.
Fazit
CoRT stellt einen bedeutenden Fortschritt in der Integration von Code-Interpretern in die Denkprozesse von KI-Modellen dar. Durch die Kombination von Hint-Engineering und einer effektiven Trainingspipeline wird es möglich, mathematische Probleme effizienter zu lösen und die Leistung von LRMs erheblich zu steigern.
Quellenliste:
- Quelle: CoRT: Code-integrated Reasoning within Thinking
- CoRT auf GitHub
- CoRT-Prompt-Hint-1.5B-RL auf Hugging Face
- CoRT-Hint-Engineering-1.5B-RL auf Hugging Face
Hinterlasse einen Kommentar
An der Diskussion beteiligen?Hinterlasse uns deinen Kommentar!