fix: paginate PR files and reviews API calls to fetch complete data

dkargatzis · dkargatzis · commit b74bd5a2b41f · 2026-03-01T14:15:19.000+02:00
get_pull_request_files() and get_pull_request_reviews() were not
passing per_page or handling pagination. GitHub defaults to 30
items per page, so PRs with 31+ files would silently receive an
incomplete file list -- causing MaxPrLocCondition (and every other
condition reading changed_files) to undercount LOC and potentially
pass when it should fail.

- Set per_page=100 (GitHub max) and loop until all pages fetched
- Gracefully return partial results if a later page errors
- Add 6 tests covering multi-page, single-page, per_page param,
  reviews pagination, and error-on-page-2 scenarios
diff --git a/src/integrations/github/api.py b/src/integrations/github/api.py
@@ -471,7 +471,11 @@ async def get_check_runs(self, repo: str, sha: str, installation_id: int) -> lis
             return []
 
     async def get_pull_request_reviews(self, repo: str, pr_number: int, installation_id: int) -> list[dict[str, Any]]:
-        """Get reviews for a pull request."""
+        """Get reviews for a pull request.
+
+        Paginates through all pages to ensure the full review list is returned.
+        GitHub defaults to 30 reviews per page; max is 100.
+        """
         try:
             token = await self.get_installation_access_token(installation_id)
             if not token:
@@ -480,20 +484,34 @@ async def get_pull_request_reviews(self, repo: str, pr_number: int, installation
 
             headers = {"Authorization": f"Bearer {token}", "Accept": "application/vnd.github.v3+json"}
 
-            url = f"{config.github.api_base_url}/repos/{repo}/pulls/{pr_number}/reviews"
+            all_reviews: list[dict[str, Any]] = []
+            page = 1
+            per_page = 100
 
             session = await self._get_session()
-            async with session.get(url, headers=headers) as response:
-                if response.status == 200:
+            while True:
+                url = (
+                    f"{config.github.api_base_url}/repos/{repo}/pulls/{pr_number}"
+                    f"/reviews?per_page={per_page}&page={page}"
+                )
+                async with session.get(url, headers=headers) as response:
+                    if response.status != 200:
+                        error_text = await response.text()
+                        logger.error(
+                            f"Failed to get reviews for PR #{pr_number} in {repo}. "
+                            f"Status: {response.status}, Response: {error_text}"
+                        )
+                        break
                     result = await response.json()
-                    logger.info(f"Retrieved {len(result)} reviews for PR #{pr_number} in {repo}")
-                    return cast("list[dict[str, Any]]", result)
-                else:
-                    error_text = await response.text()
-                    logger.error(
-                        f"Failed to get reviews for PR #{pr_number} in {repo}. Status: {response.status}, Response: {error_text}"
-                    )
-                    return []
+                    if not result:
+                        break
+                    all_reviews.extend(result)
+                    if len(result) < per_page:
+                        break
+                    page += 1
+
+            logger.info(f"Retrieved {len(all_reviews)} reviews for PR #{pr_number} in {repo}")
+            return all_reviews
         except Exception as e:
             logger.error(f"Error getting reviews for PR #{pr_number} in {repo}: {e}")
             return []
@@ -555,7 +573,12 @@ async def get_pull_request_review_threads(
             return []
 
     async def get_pull_request_files(self, repo: str, pr_number: int, installation_id: int) -> list[dict[str, Any]]:
-        """Get files changed in a pull request."""
+        """Get files changed in a pull request.
+
+        Paginates through all pages to ensure the full file list is returned.
+        GitHub defaults to 30 files per page; max is 100. PRs with more than
+        3 000 files are truncated by the API regardless of pagination.
+        """
         try:
             token = await self.get_installation_access_token(installation_id)
             if not token:
@@ -564,20 +587,34 @@ async def get_pull_request_files(self, repo: str, pr_number: int, installation_i
 
             headers = {"Authorization": f"Bearer {token}", "Accept": "application/vnd.github.v3+json"}
 
-            url = f"{config.github.api_base_url}/repos/{repo}/pulls/{pr_number}/files"
+            all_files: list[dict[str, Any]] = []
+            page = 1
+            per_page = 100
 
             session = await self._get_session()
-            async with session.get(url, headers=headers) as response:
-                if response.status == 200:
+            while True:
+                url = (
+                    f"{config.github.api_base_url}/repos/{repo}/pulls/{pr_number}"
+                    f"/files?per_page={per_page}&page={page}"
+                )
+                async with session.get(url, headers=headers) as response:
+                    if response.status != 200:
+                        error_text = await response.text()
+                        logger.error(
+                            f"Failed to get files for PR #{pr_number} in {repo}. "
+                            f"Status: {response.status}, Response: {error_text}"
+                        )
+                        break
                     result = await response.json()
-                    logger.info(f"Retrieved {len(result)} files for PR #{pr_number} in {repo}")
-                    return cast("list[dict[str, Any]]", result)
-                else:
-                    error_text = await response.text()
-                    logger.error(
-                        f"Failed to get files for PR #{pr_number} in {repo}. Status: {response.status}, Response: {error_text}"
-                    )
-                    return []
+                    if not result:
+                        break
+                    all_files.extend(result)
+                    if len(result) < per_page:
+                        break
+                    page += 1
+
+            logger.info(f"Retrieved {len(all_files)} files for PR #{pr_number} in {repo}")
+            return all_files
         except Exception as e:
             logger.error(f"Error getting files for PR #{pr_number} in {repo}: {e}")
             return []
diff --git a/tests/unit/integrations/github/test_api.py b/tests/unit/integrations/github/test_api.py
@@ -222,3 +222,97 @@ async def test_list_pull_requests_success(github_client, mock_aiohttp_session):
     prs = await github_client.list_pull_requests("owner/repo", installation_id=123)
 
     assert prs == [{"number": 1}]
+
+
+@pytest.mark.asyncio
+async def test_get_pull_request_files_paginates(github_client, mock_aiohttp_session):
+    """Files endpoint should fetch all pages when results fill a page."""
+    mock_token_response = mock_aiohttp_session.create_mock_response(201, json_data={"token": "access_token"})
+    mock_aiohttp_session.post.return_value = mock_token_response
+
+    # Page 1: full page (100 items) triggers fetching page 2
+    page1 = [{"filename": f"file_{i}.py"} for i in range(100)]
+    page2 = [{"filename": f"file_{i}.py"} for i in range(100, 135)]
+
+    mock_resp_page1 = mock_aiohttp_session.create_mock_response(200, json_data=page1)
+    mock_resp_page2 = mock_aiohttp_session.create_mock_response(200, json_data=page2)
+
+    mock_aiohttp_session.get.side_effect = [mock_resp_page1, mock_resp_page2]
+
+    files = await github_client.get_pull_request_files("owner/repo", 1, installation_id=123)
+
+    assert len(files) == 135
+    assert files[0]["filename"] == "file_0.py"
+    assert files[-1]["filename"] == "file_134.py"
+    assert mock_aiohttp_session.get.call_count == 2
+
+
+@pytest.mark.asyncio
+async def test_get_pull_request_files_single_page(github_client, mock_aiohttp_session):
+    """Files endpoint should not paginate when results don't fill a page."""
+    mock_token_response = mock_aiohttp_session.create_mock_response(201, json_data={"token": "access_token"})
+    mock_aiohttp_session.post.return_value = mock_token_response
+
+    page1 = [{"filename": f"file_{i}.py"} for i in range(30)]
+    mock_resp = mock_aiohttp_session.create_mock_response(200, json_data=page1)
+    mock_aiohttp_session.get.return_value = mock_resp
+
+    files = await github_client.get_pull_request_files("owner/repo", 1, installation_id=123)
+
+    assert len(files) == 30
+    assert mock_aiohttp_session.get.call_count == 1
+
+
+@pytest.mark.asyncio
+async def test_get_pull_request_files_uses_per_page_100(github_client, mock_aiohttp_session):
+    """Files endpoint should request per_page=100."""
+    mock_token_response = mock_aiohttp_session.create_mock_response(201, json_data={"token": "access_token"})
+    mock_aiohttp_session.post.return_value = mock_token_response
+
+    mock_resp = mock_aiohttp_session.create_mock_response(200, json_data=[])
+    mock_aiohttp_session.get.return_value = mock_resp
+
+    await github_client.get_pull_request_files("owner/repo", 1, installation_id=123)
+
+    call_args = mock_aiohttp_session.get.call_args
+    url = call_args[0][0]
+    assert "per_page=100" in url
+    assert "page=1" in url
+
+
+@pytest.mark.asyncio
+async def test_get_pull_request_reviews_paginates(github_client, mock_aiohttp_session):
+    """Reviews endpoint should fetch all pages when results fill a page."""
+    mock_token_response = mock_aiohttp_session.create_mock_response(201, json_data={"token": "access_token"})
+    mock_aiohttp_session.post.return_value = mock_token_response
+
+    page1 = [{"id": i, "state": "APPROVED"} for i in range(100)]
+    page2 = [{"id": i, "state": "CHANGES_REQUESTED"} for i in range(100, 110)]
+
+    mock_resp_page1 = mock_aiohttp_session.create_mock_response(200, json_data=page1)
+    mock_resp_page2 = mock_aiohttp_session.create_mock_response(200, json_data=page2)
+
+    mock_aiohttp_session.get.side_effect = [mock_resp_page1, mock_resp_page2]
+
+    reviews = await github_client.get_pull_request_reviews("owner/repo", 1, installation_id=123)
+
+    assert len(reviews) == 110
+    assert mock_aiohttp_session.get.call_count == 2
+
+
+@pytest.mark.asyncio
+async def test_get_pull_request_files_error_on_page2(github_client, mock_aiohttp_session):
+    """Files endpoint should return partial results if a later page errors."""
+    mock_token_response = mock_aiohttp_session.create_mock_response(201, json_data={"token": "access_token"})
+    mock_aiohttp_session.post.return_value = mock_token_response
+
+    page1 = [{"filename": f"file_{i}.py"} for i in range(100)]
+    mock_resp_page1 = mock_aiohttp_session.create_mock_response(200, json_data=page1)
+    mock_resp_page2 = mock_aiohttp_session.create_mock_response(500, text_data="Internal Server Error")
+
+    mock_aiohttp_session.get.side_effect = [mock_resp_page1, mock_resp_page2]
+
+    files = await github_client.get_pull_request_files("owner/repo", 1, installation_id=123)
+
+    # Should return the first page's results even if page 2 fails
+    assert len(files) == 100