bigcode-project
diff --git a/‎bigcode_eval/generation.py‎
Lines changed: 5 additions & 1 deletion b/‎bigcode_eval/generation.py‎
Lines changed: 5 additions & 1 deletion
diff --git a/‎bigcode_eval/tasks/custom_metrics/beyond_eval.py‎
Lines changed: 3 additions & 3 deletions b/‎bigcode_eval/tasks/custom_metrics/beyond_eval.py‎
Lines changed: 3 additions & 3 deletions
diff --git a/‎deepseek-coder-1.3b-base-SFT-mercury-result.json‎
Lines changed: 93 additions & 0 deletions b/‎deepseek-coder-1.3b-base-SFT-mercury-result.json‎
Lines changed: 93 additions & 0 deletions
diff --git a/‎deepseek-coder-1.3b-base-mercury-result.json‎
Lines changed: 93 additions & 0 deletions b/‎deepseek-coder-1.3b-base-mercury-result.json‎
Lines changed: 93 additions & 0 deletions
@@ -121,10 +121,14 @@ def parallel_generations(
         has_encoder=args.modeltype == "seq2seq",
         instruction_tokens=instruction_tokens,
     )
+    print("TokenizedDataset Finished.")
 
+    print("DataLoader Loading...")
     # do not confuse args.batch_size, which is actually the num_return_sequences
     ds_loader = DataLoader(ds_tokenized, batch_size=1)
+    print("DataLoader Loaded.")
 
+    print("Accelerator preparing...")
     is_loaded_in_8bit = getattr(model, "is_loaded_in_8bit", False)
     is_loaded_in_4bit = getattr(model, "is_loaded_in_4bit", False)
     if args.max_memory_per_gpu is not None:
@@ -138,7 +142,7 @@ def parallel_generations(
         # model.to() is not supported for 8bit and 4bit models
         model, ds_loader = accelerator.prepare(model, ds_loader)
 
-    print("complete_code...")
+    print("Complete_code...")
     generations = complete_code(
         task,
         accelerator,
 
@@ -329,9 +329,9 @@ def compute_beyond_eval(generations_list, reference_list, timeout=10):
     }
 
     errors = {
-        "Easy": dict(failed_load=0, failed_eval=0, failed_cases=0, failed_timeout=0, failed_error=0, passed=0),
-        "Medium": dict(failed_load=0, failed_eval=0, failed_cases=0, failed_timeout=0, failed_error=0, passed=0),
-        "Hard": dict(failed_load=0, failed_eval=0, failed_cases=0, failed_timeout=0, failed_error=0, passed=0),
+        "Easy": {"failed@load": 0,"failed@eval": 0,'failed@cases': 0,"failed@timeout": 0,"failed@error": 0,"passed":0},
+        "Medium": {"failed@load": 0,"failed@eval": 0,"failed@cases": 0,"failed@timeout": 0,"failed@error": 0,"passed":0},
+        "Hard": {"failed@load": 0,"failed@eval": 0,"failed@cases": 0,"failed@timeout": 0,"failed@error": 0,"passed":0},
     }
 
     for generations, instance in tqdm(zip(generations_list, reference_list), total=len(generations_list), desc='compute_beyond_eval'):
 
@@ -0,0 +1,93 @@
+{
+  "mercury": {
+    "Easy_pass@1": 0.5886363636363636,
+    "Easy_pass@3": 0.6772727272727272,
+    "Easy_pass@5": 0.6931818181818182,
+    "Easy_beyond@1": 0.4266841736035482,
+    "Easy_beyond@3": 0.42610832793092135,
+    "Easy_beyond@5": 0.425783531255473,
+    "Medium_pass@1": 0.5358024691358024,
+    "Medium_pass@3": 0.6641975308641975,
+    "Medium_pass@5": 0.691358024691358,
+    "Medium_beyond@1": 0.40880182186815306,
+    "Medium_beyond@3": 0.3870873940702929,
+    "Medium_beyond@5": 0.38123465036206794,
+    "Hard_pass@1": 0.25287356321839083,
+    "Hard_pass@3": 0.3620689655172414,
+    "Hard_pass@5": 0.40229885057471265,
+    "Hard_beyond@1": 0.2000108284605912,
+    "Hard_beyond@3": 0.17081908449838798,
+    "Hard_beyond@5": 0.18665931819632417,
+    "Average_pass@1": 0.45781249999999996,
+    "Average_pass@3": 0.566015625,
+    "Average_pass@5": 0.59375,
+    "Average_beyond@1": 0.34399256611134416,
+    "Average_beyond@3": 0.32700340675380685,
+    "Average_beyond@5": 0.3304231176284739,
+    "Easy": {
+      "failed@load": 106,
+      "failed@eval": 16,
+      "failed@cases": 59,
+      "failed@timeout": 0,
+      "failed@error": 0,
+      "passed": 259
+    },
+    "Medium": {
+      "failed@load": 104,
+      "failed@eval": 8,
+      "failed@cases": 76,
+      "failed@timeout": 0,
+      "failed@error": 0,
+      "passed": 217
+    },
+    "Hard": {
+      "failed@load": 37,
+      "failed@eval": 63,
+      "failed@cases": 225,
+      "failed@timeout": 0,
+      "failed@error": 0,
+      "passed": 110
+    }
+  },
+  "config": {
+    "prefix": "",
+    "do_sample": true,
+    "temperature": 0.2,
+    "top_k": 0,
+    "top_p": 0.95,
+    "n_samples": 5,
+    "eos": "<|endoftext|>",
+    "seed": 0,
+    "model": "/home/mingzhe/Projects/Mercury/checkpoints/deepseek-ai/deepseek-coder-1.3b-base-sft-final_checkpoint",
+    "modeltype": "causal",
+    "peft_model": null,
+    "revision": null,
+    "use_auth_token": false,
+    "trust_remote_code": false,
+    "tasks": "mercury",
+    "instruction_tokens": null,
+    "batch_size": 5,
+    "max_length_generation": 2048,
+    "precision": "fp32",
+    "load_in_8bit": false,
+    "load_in_4bit": true,
+    "left_padding": false,
+    "limit": null,
+    "limit_start": 0,
+    "save_every_k_tasks": -1,
+    "postprocess": true,
+    "allow_code_execution": true,
+    "generation_only": false,
+    "load_generations_path": null,
+    "load_data_path": null,
+    "metric_output_path": "deepseek-coder-1.3b-base-SFT-mercury-result.json",
+    "save_generations": true,
+    "load_generations_intermediate_paths": null,
+    "save_generations_path": "generations.json",
+    "save_references": false,
+    "save_references_path": "references.json",
+    "prompt": "prompt",
+    "max_memory_per_gpu": null,
+    "check_references": false
+  }
+}
@@ -0,0 +1,93 @@
+{
+  "mercury": {
+    "Easy_pass@1": 0.6090909090909091,
+    "Easy_pass@3": 0.7227272727272728,
+    "Easy_pass@5": 0.7613636363636364,
+    "Easy_beyond@1": 0.39631002329427506,
+    "Easy_beyond@3": 0.4231957886134728,
+    "Easy_beyond@5": 0.42617706833178476,
+    "Medium_pass@1": 0.5333333333333333,
+    "Medium_pass@3": 0.7222222222222222,
+    "Medium_pass@5": 0.7901234567901234,
+    "Medium_beyond@1": 0.40183295548897685,
+    "Medium_beyond@3": 0.39689597812757504,
+    "Medium_beyond@5": 0.38881432300601,
+    "Hard_pass@1": 0.23448275862068965,
+    "Hard_pass@3": 0.3264367816091954,
+    "Hard_pass@5": 0.3563218390804598,
+    "Hard_beyond@1": 0.17817100930156568,
+    "Hard_beyond@3": 0.18359816292882367,
+    "Hard_beyond@5": 0.18548098359439458,
+    "Average_pass@1": 0.4578125,
+    "Average_pass@3": 0.587890625,
+    "Average_pass@5": 0.6328125,
+    "Average_beyond@1": 0.32392433302242013,
+    "Average_beyond@3": 0.3334486085981518,
+    "Average_beyond@5": 0.33255620214607884,
+    "Easy": {
+      "failed@load": 81,
+      "failed@eval": 17,
+      "failed@cases": 74,
+      "failed@timeout": 0,
+      "failed@error": 0,
+      "passed": 268
+    },
+    "Medium": {
+      "failed@load": 85,
+      "failed@eval": 31,
+      "failed@cases": 73,
+      "failed@timeout": 0,
+      "failed@error": 0,
+      "passed": 216
+    },
+    "Hard": {
+      "failed@load": 55,
+      "failed@eval": 98,
+      "failed@cases": 180,
+      "failed@timeout": 0,
+      "failed@error": 0,
+      "passed": 102
+    }
+  },
+  "config": {
+    "prefix": "",
+    "do_sample": true,
+    "temperature": 0.2,
+    "top_k": 0,
+    "top_p": 0.95,
+    "n_samples": 5,
+    "eos": "<|endoftext|>",
+    "seed": 0,
+    "model": "deepseek-ai/deepseek-coder-1.3b-base",
+    "modeltype": "causal",
+    "peft_model": null,
+    "revision": null,
+    "use_auth_token": false,
+    "trust_remote_code": false,
+    "tasks": "mercury",
+    "instruction_tokens": null,
+    "batch_size": 12,
+    "max_length_generation": 2048,
+    "precision": "fp32",
+    "load_in_8bit": false,
+    "load_in_4bit": true,
+    "left_padding": false,
+    "limit": null,
+    "limit_start": 0,
+    "save_every_k_tasks": -1,
+    "postprocess": true,
+    "allow_code_execution": true,
+    "generation_only": false,
+    "load_generations_path": null,
+    "load_data_path": null,
+    "metric_output_path": "deepseek-coder-1.3b-base-mercury-result.json",
+    "save_generations": true,
+    "load_generations_intermediate_paths": null,
+    "save_generations_path": "generations.json",
+    "save_references": false,
+    "save_references_path": "references.json",
+    "prompt": "prompt",
+    "max_memory_per_gpu": null,
+    "check_references": false
+  }
+}
Original file line number	Diff line number	Diff line change
`@@ -329,9 +329,9 @@ def compute_beyond_eval(generations_list, reference_list, timeout=10):`
`329`	`329`	`}`
`330`	`330`
`331`	`331`	`errors = {`
`332`		`- "Easy": dict(failed_load=0, failed_eval=0, failed_cases=0, failed_timeout=0, failed_error=0, passed=0),`
`333`		`- "Medium": dict(failed_load=0, failed_eval=0, failed_cases=0, failed_timeout=0, failed_error=0, passed=0),`
`334`		`- "Hard": dict(failed_load=0, failed_eval=0, failed_cases=0, failed_timeout=0, failed_error=0, passed=0),`
	`332`	`+ "Easy": {"failed@load": 0,"failed@eval": 0,'failed@cases': 0,"failed@timeout": 0,"failed@error": 0,"passed":0},`
	`333`	`+ "Medium": {"failed@load": 0,"failed@eval": 0,"failed@cases": 0,"failed@timeout": 0,"failed@error": 0,"passed":0},`
	`334`	`+ "Hard": {"failed@load": 0,"failed@eval": 0,"failed@cases": 0,"failed@timeout": 0,"failed@error": 0,"passed":0},`
`335`	`335`	`}`
`336`	`336`
`337`	`337`	`for generations, instance in tqdm(zip(generations_list, reference_list), total=len(generations_list), desc='compute_beyond_eval'):`