GoogleCloudPlatform
diff --git a/‎src/bigquery_agent_analytics/__init__.py‎
Lines changed: 24 additions & 18 deletions b/‎src/bigquery_agent_analytics/__init__.py‎
Lines changed: 24 additions & 18 deletions
diff --git a/‎src/bigquery_agent_analytics/aggregate_grader.py‎
Lines changed: 13 additions & 10 deletions b/‎src/bigquery_agent_analytics/aggregate_grader.py‎
Lines changed: 13 additions & 10 deletions
diff --git a/‎src/bigquery_agent_analytics/client.py‎
Lines changed: 84 additions & 17 deletions b/‎src/bigquery_agent_analytics/client.py‎
Lines changed: 84 additions & 17 deletions
@@ -65,11 +65,11 @@
 # --- SDK Client & Core ---
 try:
   from .client import Client
-  from .evaluators import CodeEvaluator
-  from .evaluators import EvaluationReport
+  from .system_evaluator import CodeEvaluator
+  from .system_evaluator import EvaluationReport
   from .evaluators import LLMAsJudge
-  from .evaluators import SessionScore
-  from .evaluators import SystemEvaluator
+  from .system_evaluator import SessionScore
+  from .system_evaluator import SystemEvaluator
   from .feedback import AnalysisConfig
   from .feedback import DriftReport
   from .feedback import QuestionDistribution
@@ -120,14 +120,16 @@
 
 # Trace Evaluator
 try:
-  from .trace_evaluator import BigQueryTraceEvaluator
-  from .trace_evaluator import EvaluationResult
-  from .trace_evaluator import TraceReplayRunner
-  from .trace_evaluator import TrajectoryMetrics
+  from .performance_evaluator import BigQueryTraceEvaluator
+  from .performance_evaluator import EvaluationResult
+  from .performance_evaluator import PerformanceEvaluator
+  from .performance_evaluator import TraceReplayRunner
+  from .performance_evaluator import TrajectoryMetrics
 
   __all__.extend(
       [
           "BigQueryTraceEvaluator",
+          "PerformanceEvaluator",
           "EvaluationResult",
           "TraceReplayRunner",
           "TrajectoryMetrics",
@@ -190,13 +192,15 @@
 
 # Multi-Trial
 try:
-  from .multi_trial import MultiTrialReport
-  from .multi_trial import TrialResult
-  from .multi_trial import TrialRunner
+  from .multi_trial_performance_evaluator import MultiTrialReport
+  from .multi_trial_performance_evaluator import TrialResult
+  from .multi_trial_performance_evaluator import MultiTrialPerformanceEvaluator
+  from .multi_trial_performance_evaluator import TrialRunner
 
   __all__.extend(
       [
           "TrialRunner",
+          "MultiTrialPerformanceEvaluator",
           "TrialResult",
           "MultiTrialReport",
       ]
@@ -210,18 +214,20 @@
 
 # Grader Pipeline
 try:
-  from .grader_pipeline import AggregateVerdict
-  from .grader_pipeline import BinaryStrategy
-  from .grader_pipeline import GraderPipeline
-  from .grader_pipeline import GraderResult
-  from .grader_pipeline import MajorityStrategy
-  from .grader_pipeline import ScoringStrategy
-  from .grader_pipeline import WeightedStrategy
+  from .aggregate_grader import AggregateVerdict
+  from .aggregate_grader import BinaryStrategy
+  from .aggregate_grader import AggregateGrader
+  from .aggregate_grader import GraderPipeline
+  from .aggregate_grader import GraderResult
+  from .aggregate_grader import MajorityStrategy
+  from .aggregate_grader import ScoringStrategy
+  from .aggregate_grader import WeightedStrategy
 
   __all__.extend(
       [
           "AggregateVerdict",
           "BinaryStrategy",
+          "AggregateGrader",
           "GraderPipeline",
           "GraderResult",
           "MajorityStrategy",
 
@@ -20,12 +20,11 @@
 
 Example usage::
 
-    from bigquery_agent_analytics import (
-        SystemEvaluator, GraderPipeline, LLMAsJudge, WeightedStrategy,
-    )
+    from bigquery_agent_analytics import SystemEvaluator, AggregateGrader, LLMAsJudge
+    from bigquery_agent_analytics.aggregate_grader import WeightedStrategy
 
     pipeline = (
-        GraderPipeline(WeightedStrategy(
+        AggregateGrader(WeightedStrategy(
             weights={"latency": 0.3, "correctness": 0.7},
         ))
         .add_code_grader(SystemEvaluator.latency(), weight=0.3)
@@ -247,7 +246,7 @@ def __init__(
     self.is_async = is_async
 
 
-class GraderPipeline:
+class AggregateGrader:
   """Composes multiple graders into a single evaluation pipeline.
 
   Supports ``SystemEvaluator``, ``LLMAsJudge``, and arbitrary custom
@@ -256,7 +255,7 @@ class GraderPipeline:
   Example::
 
       pipeline = (
-          GraderPipeline(WeightedStrategy(threshold=0.6))
+          AggregateGrader(WeightedStrategy(threshold=0.6))
           .add_code_grader(SystemEvaluator.latency())
           .add_llm_grader(LLMAsJudge.correctness())
       )
@@ -268,7 +267,7 @@ class GraderPipeline:
   """
 
   def __init__(self, strategy: ScoringStrategy) -> None:
-    """Initializes the pipeline with a scoring strategy.
+    """Initializes the grader pipeline with a scoring strategy.
 
     Args:
         strategy: The strategy used to aggregate grader results.
@@ -280,7 +279,7 @@ def add_code_grader(
       self,
       evaluator: SystemEvaluator,
       weight: float = 1.0,
-  ) -> GraderPipeline:
+  ) -> AggregateGrader:
     """Adds a SystemEvaluator grader to the pipeline.
 
     Args:
@@ -304,7 +303,7 @@ def add_llm_grader(
       self,
       judge: LLMAsJudge,
       weight: float = 1.0,
-  ) -> GraderPipeline:
+  ) -> AggregateGrader:
     """Adds an LLMAsJudge grader to the pipeline.
 
     Args:
@@ -329,7 +328,7 @@ def add_custom_grader(
       name: str,
       fn: Callable[[dict[str, Any]], GraderResult],
       weight: float = 1.0,
-  ) -> GraderPipeline:
+  ) -> AggregateGrader:
     """Adds a custom grader function to the pipeline.
 
     The function receives a dict with ``session_summary``,
@@ -428,3 +427,7 @@ async def _run_grader(
         "final_response": final_response,
     }
     return evaluator(context)
+
+
+# Keep aliases for backward compatibility
+GraderPipeline = AggregateGrader
@@ -71,17 +71,18 @@
 from .categorical_evaluator import flatten_results_to_rows
 from .categorical_evaluator import parse_categorical_row
 from .categorical_evaluator import parse_classify_row
-from .evaluators import _parse_json_from_text
-from .evaluators import AI_GENERATE_JUDGE_BATCH_QUERY
-from .evaluators import CodeEvaluator, SystemEvaluator
-from .evaluators import DEFAULT_ENDPOINT
-from .evaluators import EvaluationReport
-from .evaluators import LLM_JUDGE_BATCH_QUERY
-from .evaluators import LLMAsJudge
-from .evaluators import render_ai_generate_judge_query
-from .evaluators import SESSION_SUMMARY_QUERY
-from .evaluators import SessionScore
-from .evaluators import split_judge_prompt_template
+from .system_evaluator import _parse_json_from_text
+from .system_evaluator import AI_GENERATE_JUDGE_BATCH_QUERY
+from .system_evaluator import CodeEvaluator, SystemEvaluator
+from .system_evaluator import DEFAULT_ENDPOINT
+from .system_evaluator import EvaluationReport
+from .system_evaluator import LLM_JUDGE_BATCH_QUERY
+from .system_evaluator import LLMAsJudge
+from .system_evaluator import render_ai_generate_judge_query
+from .system_evaluator import SESSION_SUMMARY_QUERY
+from .system_evaluator import SessionScore
+from .system_evaluator import split_judge_prompt_template
+from .performance_evaluator import PerformanceEvaluator, EvalStatus
 from .feedback import AnalysisConfig
 from .feedback import compute_drift
 from .feedback import compute_question_distribution
@@ -907,17 +908,13 @@ def evaluate(
           where,
           params,
       )
-    elif isinstance(evaluator, LLMAsJudge):
-      report = self._evaluate_llm_judge(
+    elif isinstance(evaluator, PerformanceEvaluator):
+      return self._evaluate_performance(
           evaluator,
           table,
           where,
           params,
-          filt,
       )
-      if strict:
-        report = _apply_strict_mode(report)
-      return report
     else:
       raise TypeError(f"Unsupported evaluator type: {type(evaluator)}")
 
@@ -954,6 +951,76 @@ def _evaluate_code(
         session_scores=session_scores,
     )
 
+  def _evaluate_performance(
+      self,
+      evaluator: PerformanceEvaluator,
+      table: str,
+      where: str,
+      params: list,
+  ) -> EvaluationReport:
+    """Runs performance evaluation using the folded PerformanceEvaluator."""
+    import asyncio
+    query = SESSION_SUMMARY_QUERY.format(
+        project=self.project_id,
+        dataset=self.dataset_id,
+        table=table,
+        where=where,
+    )
+    job_config = with_sdk_labels(
+        bigquery.QueryJobConfig(query_parameters=params),
+        feature="eval-performance",
+    )
+    results = list(self.bq_client.query(query, job_config=job_config).result())
+    session_ids = [row.get("session_id") for row in results if row.get("session_id")]
+
+    try:
+      loop = asyncio.get_running_loop()
+    except RuntimeError:
+      try:
+        loop = asyncio.get_event_loop()
+      except RuntimeError:
+        loop = asyncio.new_event_loop()
+        asyncio.set_event_loop(loop)
+
+    async def evaluate_all():
+      tasks = []
+      for sid in session_ids:
+        tasks.append(evaluator.evaluate_session(
+            session_id=sid,
+            use_llm_judge=True,
+        ))
+      return await asyncio.gather(*tasks)
+
+    if loop.is_running():
+      import nest_asyncio
+      nest_asyncio.apply()
+
+    eval_results = loop.run_until_complete(evaluate_all())
+
+    session_scores = []
+    passed_count = 0
+    for er in eval_results:
+      score = SessionScore(
+          session_id=er.session_id,
+          scores=er.scores,
+          passed=(er.eval_status == EvalStatus.PASSED),
+          llm_feedback=er.llm_judge_feedback,
+      )
+      session_scores.append(score)
+      if score.passed:
+        passed_count += 1
+
+    report = EvaluationReport(
+        dataset=f"{self._table_ref} WHERE {where}",
+        evaluator_name=evaluator.name,
+        total_sessions=len(session_scores),
+        passed_sessions=passed_count,
+        failed_sessions=len(session_scores) - passed_count,
+    )
+    report.session_scores = session_scores
+    report.details = {"execution_mode": "performance_evaluator"}
+    return report
+
   @staticmethod
   def _is_legacy_model_ref(ref: str) -> bool:
     """Returns True when *ref* looks like a BQ ML model reference.