Merge a0dc566d39 into 041be54471

2025-04-18 22:55:21 -07:00 · 2025-04-18 22:55:21 -07:00 · 0ebadf7463
commit 0ebadf7463
parent 041be54471 a0dc566d39
4 changed files with 143 additions and 2 deletions
--- a/packages/markitdown/src/markitdown/converters/_xlsx_converter.py
+++ b/packages/markitdown/src/markitdown/converters/_xlsx_converter.py
@ -81,6 +81,10 @@ class XlsxConverter(DocumentConverter):
            )
        sheets = pd.read_excel(file_stream, sheet_name=None, engine="openpyxl")
        if kwargs.get("fill_merged_cells", False):
            md_content = self._parse_merged_cells(file_stream, sheets, **kwargs)
            return DocumentConverterResult(markdown=md_content.strip())
        md_content = ""
        for s in sheets:
            md_content += f"## {s}\n"
@ -94,6 +98,63 @@ class XlsxConverter(DocumentConverter):
        return DocumentConverterResult(markdown=md_content.strip())
    def _parse_merged_cells(
        self, file_stream: BinaryIO, sheets: dict[str, pd.DataFrame], **kwargs: Any
    ) -> str:
        """Use openpyxl to parse merged cells
        Args:
            file_stream: BinaryIO
        Returns:
            str
        """
        wb = openpyxl.load_workbook(file_stream)
        merged_cells_info = {}
        for sheet in wb.worksheets:
            merged_cells = {}
            for row in sheet.merged_cells.ranges:
                min_col, min_row, max_col, max_row = row.bounds
                common_value = sheet.cell(row=min_row, column=min_col).value
                for row in range(min_row, max_row + 1):
                    for col in range(min_col, max_col + 1):
                        merged_cells[(row, col)] = common_value
            # Merged header at first (sort by row)
            merged_cells = dict(
                sorted(merged_cells.items(), key=lambda x: (x[0][0], x[0][1]))
            )
            merged_cells_info[sheet.title] = merged_cells
        wb.close()
        md_content = ""
        for s in sheets:
            md_content += f"## {s}\n"
            df = sheets[s]
            for (row, col), value in merged_cells_info[s].items():
                if row == 1:
                    # Header row merged.
                    if col > len(df.columns):
                        # Insert new column
                        df.insert(col - 1, f"{value} {col-1}", "NaN")
                    elif str(df.columns[col - 1]).startswith("Unnamed"):
                        # Rename unnamed column
                        df.rename(
                            columns={df.columns[col - 1]: f"{value} {col-1}"},
                            inplace=True,
                        )
                else:
                    df.at[row - 2, df.columns[col - 1]] = value
            html_content = df.to_html(index=False)
            md_content += (
                self._html_converter.convert_string(
                    html_content, **kwargs
                ).markdown.strip()
                + "\n\n"
            )
        return md_content
 class XlsConverter(DocumentConverter):
    """
--- a/packages/markitdown/tests/_test_vectors.py
+++ b/packages/markitdown/tests/_test_vectors.py
@ -277,3 +277,22 @@ DATA_URI_TEST_VECTORS = [
        ],
    ),
 ]
 MERGED_CELLS_TEST_VECTORS = [
    FileTestVector(
        filename="test.xlsx",
        mimetype="application/vnd.openxmlformats-officedocument.spreadsheetml.sheet",
        charset=None,
        url=None,
        must_include=[
            "722.0 | NaN | NaN",
            "NaN | 42.000000 | NaN",
            "Merged Column | Merged Column 6 | Merged Column 2 | Merged Column 2 8",
            "## 09060124-b5e7-4717-9d07-3c046eb",
            "6ff4173b-42a5-4784-9b19-f49caff4d93d",
            "affc7dad-52dc-4b98-9b5d-51e65d8a8ad0",
        ],
        must_not_include=["Unnamed"],
    ),
 ]
--- a/packages/markitdown/tests/test_files/test.xlsx
+++ b/packages/markitdown/tests/test_files/test.xlsx
--- a/packages/markitdown/tests/test_module_vectors.py
+++ b/packages/markitdown/tests/test_module_vectors.py
@ -8,9 +8,17 @@ import base64
 from pathlib import Path
 if __name__ == "__main__":
-    from _test_vectors import GENERAL_TEST_VECTORS, DATA_URI_TEST_VECTORS
+    from _test_vectors import (
        GENERAL_TEST_VECTORS,
        DATA_URI_TEST_VECTORS,
        MERGED_CELLS_TEST_VECTORS,
    )
 else:
-    from ._test_vectors import GENERAL_TEST_VECTORS, DATA_URI_TEST_VECTORS
+    from ._test_vectors import (
        GENERAL_TEST_VECTORS,
        DATA_URI_TEST_VECTORS,
        MERGED_CELLS_TEST_VECTORS,
    )
 from markitdown import (
    MarkItDown,
@ -202,6 +210,45 @@ def test_convert_stream_keep_data_uris(test_vector):
            assert string not in result.markdown
@pytest.mark.parametrize("test_vector", MERGED_CELLS_TEST_VECTORS)
 def test_convert_xlsx(test_vector):
    """Test the conversion of an XLSX file."""
    markitdown = MarkItDown()
    result = markitdown.convert(
        os.path.join(TEST_FILES_DIR, test_vector.filename),
        fill_merged_cells=True,
        url=test_vector.url,
    )
    for string in test_vector.must_include:
        assert string in result.markdown
    for string in test_vector.must_not_include:
        assert string not in result.markdown
@pytest.mark.parametrize("test_vector", MERGED_CELLS_TEST_VECTORS)
 def test_convert_stream_xlsx(test_vector):
    """Test the conversion of an XLSX file."""
    markitdown = MarkItDown()
    stream_info = StreamInfo(
        extension=os.path.splitext(test_vector.filename)[1],
        mimetype=test_vector.mimetype,
        charset=test_vector.charset,
    )
    with open(os.path.join(TEST_FILES_DIR, test_vector.filename), "rb") as stream:
        result = markitdown.convert(
            stream, stream_info=stream_info, fill_merged_cells=True, url=test_vector.url
        )
        for string in test_vector.must_include:
            assert string in result.markdown
        for string in test_vector.must_not_include:
            assert string not in result.markdown
 if __name__ == "__main__":
    import sys
@ -237,3 +284,17 @@ if __name__ == "__main__":
            print("OK")
    print("All tests passed!")
    # XLSX parse merged cells tests
    for test_function in [
        test_convert_xlsx,
        test_convert_stream_xlsx,
    ]:
        for test_vector in MERGED_CELLS_TEST_VECTORS:
            print(
                f"Running {test_function.__name__} on {test_vector.filename}...", end=""
            )
            test_function(test_vector)
            print("OK")
    print("All tests passed!")