feat(csv): add CSV conversion support

- Introduce a new CsvConverter for converting CSV files into Markdown tables. - Register CsvConverter in MarkItDown’s converter initialization in _markitdown.py. - Update converters/__init__.py to export CsvConverter. - Add _csv_converter.py to implement CSV conversion using pandas and openpyxl. - Revise test vectors to expect the Markdown table format produced by CsvConverter. - Adjust test_cli_vectors header for proper encoding handling. This change enables CSV file support in MarkItDown while keeping existing features intact.
2025-04-08 21:04:32 +08:00 · 2025-04-08 21:04:32 +08:00 · a3cb24a536
commit a3cb24a536
parent 3fcd48cdfc
4 changed files with 84 additions and 4 deletions
--- a/packages/markitdown/src/markitdown/_markitdown.py
+++ b/packages/markitdown/src/markitdown/_markitdown.py
@ -32,6 +32,7 @@ from .converters import (
    BingSerpConverter,
    PdfConverter,
    DocxConverter,
    CsvConverter,
    XlsxConverter,
    XlsConverter,
    PptxConverter,
@ -185,6 +186,7 @@ class MarkItDown:
            self.register_converter(YouTubeConverter())
            self.register_converter(BingSerpConverter())
            self.register_converter(DocxConverter())
            self.register_converter(CsvConverter())
            self.register_converter(XlsxConverter())
            self.register_converter(XlsConverter())
            self.register_converter(PptxConverter())
--- a/packages/markitdown/src/markitdown/converters/init.py
+++ b/packages/markitdown/src/markitdown/converters/init.py
@ -12,6 +12,7 @@ from ._bing_serp_converter import BingSerpConverter
 from ._pdf_converter import PdfConverter
 from ._docx_converter import DocxConverter
 from ._xlsx_converter import XlsxConverter, XlsConverter
 from ._csv_converter import CsvConverter
 from ._pptx_converter import PptxConverter
 from ._image_converter import ImageConverter
 from ._audio_converter import AudioConverter
@ -33,6 +34,7 @@ __all__ = [
    "BingSerpConverter",
    "PdfConverter",
    "DocxConverter",
    "CsvConverter",
    "XlsxConverter",
    "XlsConverter",
    "PptxConverter",
--- a/packages/markitdown/src/markitdown/converters/_csv_converter.py
+++ b/packages/markitdown/src/markitdown/converters/_csv_converter.py
@ -0,0 +1,75 @@
 import sys
 from typing import BinaryIO, Any
 from ._html_converter import HtmlConverter
 from .._base_converter import DocumentConverter, DocumentConverterResult
 from .._stream_info import StreamInfo
 from .._exceptions import MissingDependencyException, MISSING_DEPENDENCY_MESSAGE
 # Try loading optional (but in this case, required) dependencies
 # Save reporting of any exceptions for later
 _dependency_exc_info = None
 try:
    import pandas as pd
 except ImportError:
    _dependency_exc_info = sys.exc_info()
 ACCEPTED_CSV_MIME_TYPE_PREFIXES = [
    "text/csv",
    "application/csv"
 ]
 ACCEPTED_CSV_FILE_EXTENSIONS = [".csv"]
 class CsvConverter(DocumentConverter):
    """
    Converts CSV files to Markdown.
    """
    def __init__(self):
        super().__init__()
        self._html_converter = HtmlConverter()
    def accepts(
        self,
        file_stream: BinaryIO,
        stream_info: StreamInfo,
        **kwargs: Any,  # Options to pass to the converter
    ) -> bool:
        mimetype = (stream_info.mimetype or "").lower()
        extension = (stream_info.extension or "").lower()
        if extension in ACCEPTED_CSV_FILE_EXTENSIONS:
            return True
        for prefix in ACCEPTED_CSV_MIME_TYPE_PREFIXES:
            if mimetype.startswith(prefix):
                return True
        return False
    def convert(
        self,
        file_stream: BinaryIO,
        stream_info: StreamInfo,
        **kwargs: Any,  # Options to pass to the converter
    ):
        # Check: the dependencies
        if _dependency_exc_info is not None:
            raise MissingDependencyException(
                MISSING_DEPENDENCY_MESSAGE.format(
                    converter=type(self).__name__,
                    extension=".csv",
                    feature="csv",
                )
            ) from _dependency_exc_info[
                1
            ].with_traceback(  # type: ignore[union-attr]
                _dependency_exc_info[2]
            )
        encoding = "utf-8" if stream_info.charset is None else stream_info.charset
        content = pd.read_csv(file_stream, encoding=encoding)
        md_content = self._html_converter.convert_string(
            content.to_html(index=False), **kwargs
        ).markdown.strip()
        return DocumentConverterResult(markdown=md_content)
--- a/packages/markitdown/tests/_test_vectors.py
+++ b/packages/markitdown/tests/_test_vectors.py
@ -144,10 +144,11 @@ GENERAL_TEST_VECTORS = [
        charset="cp932",
        url=None,
        must_include=[
-            "名前,年齢,住所",
+            "| 名前 | 年齢 | 住所 |",
-            "佐藤太郎,30,東京",
+            "| --- | --- | --- |",
-            "三木英子,25,大阪",
+            "| 佐藤太郎 | 30 | 東京 |",
-            "髙橋淳,35,名古屋",
+            "| 三木英子 | 25 | 大阪 |",
            "| 髙橋淳 | 35 | 名古屋 |",
        ],
        must_not_include=[],
    ),