Significant cleanup and refactor.

2025-02-09 20:42:58 -08:00 · 2025-02-09 20:42:58 -08:00 · b40291d747
commit b40291d747
parent a795a16ce0
17 changed files with 24 additions and 113 deletions
--- a/src/markitdown/_markitdown.py
+++ b/src/markitdown/_markitdown.py
@ -1,49 +1,19 @@
-# type: ignore
-import base64
-import binascii
 import copy
-import html
-import json
 import mimetypes
 import os
 import re
-import shutil
-import subprocess
-import sys
 import tempfile
-import traceback
-import zipfile
-import importlib
-import sys
-from importlib.metadata import entry_points
-from xml.dom import minidom
-from typing import Any, Dict, List, Optional, Union
+from typing import Any, List, Optional, Union
 from pathlib import Path
-from urllib.parse import parse_qs, quote, unquote, urlparse, urlunparse
-from warnings import warn, resetwarnings, catch_warnings
+from urllib.parse import urlparse
+from warnings import warn

-import mammoth
-import markdownify
-import olefile
-import pandas as pd
-import pdfminer
-import pdfminer.high_level
-import pptx

 # File-format detection
 import puremagic
 import requests
-from bs4 import BeautifulSoup
-from charset_normalizer import from_path

 # Azure imports
-from azure.ai.documentintelligence import DocumentIntelligenceClient
-from azure.ai.documentintelligence.models import (
-    AnalyzeDocumentRequest,
-    AnalyzeResult,
-    DocumentAnalysisFeature,
-)
-from azure.identity import DefaultAzureCredential

 from .converters import (
    DocumentConverter,
@ -67,11 +37,8 @@ from .converters import (
    ZipConverter,
    DocumentIntelligenceConverter,
 )
-from .converters._markdownify import _CustomMarkdownify

 from ._exceptions import (
-    MarkItDownException,
-    ConverterPrerequisiteException,
    FileConversionException,
    UnsupportedFormatException,
 )
@ -151,7 +118,6 @@ class MarkItDown:
        self.register_page_converter(HtmlConverter())
        self.register_page_converter(RssConverter())
        self.register_page_converter(WikipediaConverter())
-
        self.register_page_converter(YouTubeConverter())
        self.register_page_converter(BingSerpConverter())
        self.register_page_converter(DocxConverter())
@ -165,33 +131,17 @@ class MarkItDown:
        self.register_page_converter(PdfConverter())
        self.register_page_converter(OutlookMsgConverter())

-        #        print("Discovering plugins")
-        #        for entry_point in entry_points(group="markitdown.converters"):
-        #            args = {
-        #                "required1": "Override1",
-        #                "required2": "Override2",
-        #                "required3": "Override3"
-        #            }
-        #
-        #            #print(entry_point)
-        #            plugin = entry_point.load()
-        #            instance = plugin(**args)
-        #            print(instance)
-
-        #    try:
-        #        ConverterClass = entry_point.load()
-        #        self.register_page_converter(ConverterClass())
-        #        print(f"✔ Registered converter: {entry_point.name}")
-        #    except Exception as e:
-        #        print(f" Failed to load {entry_point.name}: {e}")
-        #        print("Done")
-
        # Register Document Intelligence converter at the top of the stack if endpoint is provided
        if docintel_endpoint is not None:
            self.register_page_converter(
                DocumentIntelligenceConverter(endpoint=docintel_endpoint)
            )

+        #        print("Discovering plugins")
+        #        for entry_point in entry_points(group="markitdown.converters"):
+        #            #print(entry_point)
+        #            plugin = entry_point.load()
+
    def convert(
        self, source: Union[str, requests.Response, Path], **kwargs: Any
    ) -> DocumentConverterResult:  # TODO: deal with kwargs
--- a/src/markitdown/converters/_bing_serp_converter.py
+++ b/src/markitdown/converters/_bing_serp_converter.py
@ -2,8 +2,8 @@
 import base64
 import re

-from typing import Any, Union
-from urllib.parse import parse_qs, quote, unquote, urlparse, urlunparse
+from typing import Union
+from urllib.parse import parse_qs, urlparse
 from bs4 import BeautifulSoup

 from ._base import DocumentConverter, DocumentConverterResult
--- a/src/markitdown/converters/_doc_intel_converter.py
+++ b/src/markitdown/converters/_doc_intel_converter.py
@ -11,12 +11,6 @@ from azure.identity import DefaultAzureCredential

 from ._base import DocumentConverter, DocumentConverterResult

-from .._exceptions import (
-    MarkItDownException,
-    ConverterPrerequisiteException,
-    FileConversionException,
-    UnsupportedFormatException,
-)

 # TODO: currently, there is a bug in the document intelligence SDK with importing the "ContentFormat" enum.
 # This constant is a temporary fix until the bug is resolved.
--- a/src/markitdown/converters/_docx_converter.py
+++ b/src/markitdown/converters/_docx_converter.py
@ -1,9 +1,8 @@
-from typing import Any, Dict, List, Optional, Union
+from typing import Union

 import mammoth

 from ._base import (
-    DocumentConverter,
    DocumentConverterResult,
 )

--- a/src/markitdown/converters/_html_converter.py
+++ b/src/markitdown/converters/_html_converter.py
@ -1,7 +1,4 @@
-import re
-
 from typing import Any, Union
-from urllib.parse import parse_qs, quote, unquote, urlparse, urlunparse
 from bs4 import BeautifulSoup

 from ._base import DocumentConverter, DocumentConverterResult
--- a/src/markitdown/converters/_image_converter.py
+++ b/src/markitdown/converters/_image_converter.py
@ -1,5 +1,5 @@
-from typing import Any, Dict, List, Optional, Union
-from ._base import DocumentConverter, DocumentConverterResult
+from typing import Union
+from ._base import DocumentConverterResult
 from ._media_converter import MediaConverter


--- a/src/markitdown/converters/_ipynb_converter.py
+++ b/src/markitdown/converters/_ipynb_converter.py
@ -1,5 +1,5 @@
 import json
-from typing import Any, Dict, List, Optional, Union
+from typing import Any, Union

 from ._base import (
    DocumentConverter,
--- a/src/markitdown/converters/_markdownify.py
+++ b/src/markitdown/converters/_markdownify.py
@ -1,8 +1,8 @@
 import re
 import markdownify

-from typing import Any, Union
-from urllib.parse import parse_qs, quote, unquote, urlparse, urlunparse
+from typing import Any
+from urllib.parse import quote, unquote, urlparse, urlunparse


 class _CustomMarkdownify(markdownify.MarkdownConverter):
--- a/src/markitdown/converters/_media_converter.py
+++ b/src/markitdown/converters/_media_converter.py
@ -1,10 +1,9 @@
-# type: ignore
 import subprocess
 import shutil
 import json
 from warnings import warn

-from ._base import DocumentConverter, DocumentConverterResult
+from ._base import DocumentConverter


 class MediaConverter(DocumentConverter):
--- a/src/markitdown/converters/_mp3_converter.py
+++ b/src/markitdown/converters/_mp3_converter.py
@ -1,8 +1,8 @@
 import tempfile
-from typing import Any, Dict, List, Optional, Union
-from ._base import DocumentConverter, DocumentConverterResult
+from typing import Union
+from ._base import DocumentConverterResult
 from ._wav_converter import WavConverter
-from warnings import warn, resetwarnings, catch_warnings
+from warnings import resetwarnings, catch_warnings

 # Optional Transcription support
 IS_AUDIO_TRANSCRIPTION_CAPABLE = False
--- a/src/markitdown/converters/_pdf_converter.py
+++ b/src/markitdown/converters/_pdf_converter.py
@ -1,4 +1,3 @@
-# type: ignore
 import pdfminer
 import pdfminer.high_level
 from typing import Union
--- a/src/markitdown/converters/_pptx_converter.py
+++ b/src/markitdown/converters/_pptx_converter.py
@ -1,4 +1,3 @@
-# type: ignore
 import base64
 import pptx
 import re
@ -6,7 +5,7 @@ import html

 from typing import Union

-from ._base import DocumentConverter, DocumentConverterResult
+from ._base import DocumentConverterResult, DocumentConverter
 from ._html_converter import HtmlConverter


--- a/src/markitdown/converters/_rss_converter.py
+++ b/src/markitdown/converters/_rss_converter.py
@ -1,6 +1,5 @@
-# type: ignore
 from xml.dom import minidom
-from typing import Any, Dict, List, Optional, Union
+from typing import Union
 from bs4 import BeautifulSoup

 from ._markdownify import _CustomMarkdownify
--- a/src/markitdown/converters/_wav_converter.py
+++ b/src/markitdown/converters/_wav_converter.py
@ -1,25 +1,15 @@
 from typing import Union
-from ._base import DocumentConverter, DocumentConverterResult
+from ._base import DocumentConverterResult
 from ._media_converter import MediaConverter
-from warnings import warn, resetwarnings, catch_warnings

 # Optional Transcription support
 IS_AUDIO_TRANSCRIPTION_CAPABLE = False
 try:
-    # Using warnings' catch_warnings to catch
-    # pydub's warning of ffmpeg or avconv missing
-    with catch_warnings(record=True) as w:
-        import pydub
-
-        if w:
-            raise ModuleNotFoundError
    import speech_recognition as sr

    IS_AUDIO_TRANSCRIPTION_CAPABLE = True
 except ModuleNotFoundError:
    pass
-finally:
-    resetwarnings()


 class WavConverter(MediaConverter):
--- a/src/markitdown/converters/_wikipedia_converter.py
+++ b/src/markitdown/converters/_wikipedia_converter.py
@ -1,7 +1,6 @@
 import re

 from typing import Any, Union
-from urllib.parse import parse_qs, quote, unquote, urlparse, urlunparse
 from bs4 import BeautifulSoup

 from ._base import DocumentConverter, DocumentConverterResult
--- a/src/markitdown/converters/_youtube_converter.py
+++ b/src/markitdown/converters/_youtube_converter.py
@ -1,18 +1,11 @@
 import re

 from typing import Any, Union, Dict, List
-from urllib.parse import parse_qs, quote, unquote, urlparse, urlunparse
+from urllib.parse import parse_qs, urlparse
 from bs4 import BeautifulSoup

 from ._base import DocumentConverter, DocumentConverterResult
-from ._markdownify import _CustomMarkdownify

-from .._exceptions import (
-    MarkItDownException,
-    ConverterPrerequisiteException,
-    FileConversionException,
-    UnsupportedFormatException,
-)

 # Optional YouTube transcription support
 try:
--- a/src/markitdown/converters/_zip_converter.py
+++ b/src/markitdown/converters/_zip_converter.py
@ -5,13 +5,6 @@ from typing import Any, Union

 from ._base import DocumentConverter, DocumentConverterResult

-from .._exceptions import (
-    MarkItDownException,
-    ConverterPrerequisiteException,
-    FileConversionException,
-    UnsupportedFormatException,
-)
-

 class ZipConverter(DocumentConverter):
    """Converts ZIP files to markdown by extracting and converting all contained files.