fix e2b

terryyz · terryyz · commit 5beceb576a9a · 2025-02-13T20:03:28.000+08:00
diff --git a/bigcodebench/evaluate.py b/bigcodebench/evaluate.py
@@ -189,6 +189,10 @@ def evaluate(
         
         # run the evaluation
         print(f"Command run in sandbox {e2b_endpoint}")
+        if not isinstance(pass_k, str):
+            pass_k = ",".join(map(str, pass_k))
+        if not isinstance(selective_evaluate, str):
+            selective_evaluate = ",".join(map(str, selective_evaluate))
         sandbox.commands.run("bigcodebench.evaluate  --execution 'local' "
                         f"--split {split} --subset {subset} --samples {samples} "
                         f"--pass_k {pass_k} --save_pass_rate {save_pass_rate} --calibrated {calibrated} "
@@ -206,10 +210,7 @@ def evaluate(
         
         pass_at_k = dict()
 
-        if isinstance(pass_k, str):
-            passk = [int(k) for k in pass_k.split(",")]
-        else:
-            passk = pass_k
+        passk = [int(k) for k in pass_k.split(",")]
         
         if parallel < 1:
             n_workers = max(1, multiprocessing.cpu_count() // 2)
@@ -224,7 +225,10 @@ def evaluate(
         
         # Add selective evaluation logic
         if selective_evaluate:
-            selected_ids = set(selective_evaluate.split(","))
+            if isinstance(selective_evaluate, str):
+                selected_ids = set(selective_evaluate.split(","))
+            else:
+                selected_ids = set(selective_evaluate)
             problems = {k: v for k, v in problems.items() if k in selected_ids}
             if not problems:
                 raise ValueError(f"None of the provided task IDs {selected_ids} were found in the dataset")