GitHub - khulnasoft/eval: Code for the paper "Evaluating Large Language Models Trained on Code"

To generate the completions (after pip installing the requirements), run:

mkdir results
python run.py

Then to evaluate the completion results, run

pip3 install -e .
evaluate_functional_correctness results/name_of_results_file

Name		Name	Last commit message	Last commit date
Latest commit History 6 Commits
claude		claude
data		data
gpt4		gpt4
gpt_3_5		gpt_3_5
human_eval		human_eval
.gitignore		.gitignore
LICENSE		LICENSE
README.md		README.md
azure.py		azure.py
claude.py		claude.py
prompt_utils.py		prompt_utils.py
prompts.py		prompts.py
requirements.txt		requirements.txt
run.py		run.py
setup.py		setup.py

Provide feedback