# -*- coding: iso-8859-1 -*- ''' '/* * PdfTablesToXmlCsvHtml.py * Convertir un fichier pdf de donn�s en xml, html et csv. * Ne fonctionne efficacement qu'avec des pdf qui ont des tables de donn�es correctes. * Le programme de correction ne devrait pas servir avec des bonnes tables de donn�es. */ ''' import sys sys.path.append( "modules" ) import pdfplumber from _by_CharSupConsoleWrite import by_CharSupConsoleWrite # // Ecrire les caract�res non ansi dans la console. from _by_dirbase import by_dirbase # // Renvoie le dossier par d�faut avec ou sans << \ >> � la fin. from _by_ferase import by_ferase # // D�truire un fichier. from _by_getfile import by_getfile # // S�lectionner un fichier � ouvrir. from _by_msgbox import by_msgbox # // Bo�te de dialogue avec options et valeur de retour. from _by_msgbox import MB_ICONERROR # // Une ic�ne de signe d'arr�t rouge appara�t dans la bo�te de message. from _by_msgbox import MB_ICONEXCLAMATION # // Une ic�ne de point d'exclamation jaune appara�t dans la bo�te de message. from _by_msgbox import MB_ICONQUESTION # // Une ic�ne bleue de point d'interrogation appara�t dans la bo�te de message. from _by_msgbox import MB_YESNO # // La bo�te de message contient deux boutons-poussoirs : Oui et Non. from _by_msgbox import MB_NO # // Non. from _by_ShellExecute import by_ShellExecute # // Effectue une op�ration sur un fichier sp�cifi�. from _by_StringPdfToAnsi import by_StringPdfToAnsi # // Remplacer des caract�res venant d'un fichier pdf qui cr�ent une erreur. from _by_StringToCsv import by_StringToCsv # // Transformation d'une cha�ne pour fichier.csv. from _by_StringToHtml import by_StringToHtml # // Transformation d'une cha�ne pour fichier.html. from _by_writeLine import by_writeLine # // Ecriture d'une ligne dans un fichier texte. #. // Param�tres. table_settings = { "vertical_strategy": "text", "horizontal_strategy": "text" } cFileXml = "_Result.xml" cFileCsv = "_Result.csv" cFileHtm = "_Result.html" cFileLog = "_Result.log" #. // Transformer les tables d'un fichier pdf de donn�es en csv, html et xml. def PdfTablesToXmlCsvHtml(): by_ferase( "_Result1.log" ) #. // Fichier de'�v�nements de by_writeLog1(). by_ferase( cFileXml ) by_ferase( cFileCsv ) by_ferase( cFileHtm ) by_ferase( cFileLog ) cCharset = "iso-8859-1" cFilePdf = by_getfile( "Fichiers PDF\0*.pdf", "S�lectionnez un fichier pdf" ) if len( cFilePdf ) == 0: by_msgbox( "Pas de fichier s�lectionn�", "Erreur", MB_ICONERROR ) return 1 #. endif cCorrect = "Oui" if by_msgbox( "Correction des caract�res sup�rieurs", "Correction", MB_YESNO + MB_ICONQUESTION ) == MB_NO: cCorrect = "Non" #. endif nError = 0 oDoc = pdfplumber.open( cFilePdf ) oPages = oDoc.pages oFileXml = open( cFileXml, "w" ) oFileCsv = open( cFileCsv, "w" ) oFileHtm = open( cFileHtm, "w" ) oFileLog = open( cFileLog, "w" ) by_writeLine( oFileLog, "Conversion d'un fichier pdf en xlm et csv.\n" ) by_writeLine( oFileLog, "Fichier source : " + cFilePdf ) by_writeLine( oFileLog, "Fichier xlm : " + by_dirbase() + cFileXml ) by_writeLine( oFileLog, "Fichier csv : " + by_dirbase() + cFileCsv ) by_writeLine( oFileLog, "Nombre page(s) : " + str( len( oPages ) ) + "\n" ) by_writeLine( oFileXml, '' ) by_writeLine( oFileXml, '' ) by_writeLine( oFileHtm, '' ) by_writeLine( oFileHtm, '' ) by_writeLine( oFileHtm, ' ' ) #. //by_writeLine( oFileHtm, ' ' ) by_writeLine( oFileHtm, ' ' ) by_writeLine( oFileHtm, ' ' ) by_writeLine( oFileHtm, ' ' ) by_writeLine( oFileHtm, ' ' ) by_writeLine( oFileHtm, ' ' ) by_writeLine( oFileHtm, ' ' ) print( "Nombre de pages : " + str( len( oPages ) ) ) i = 0 while True: oPage = oPages[ i ] print() by_writeLine( oFileLog, "Page num�ro : " + str( oPage.page_number ) ) print( "Page num�ro : " + str( oPage.page_number ) ) oTable = oPage.extract_table( table_settings ) if type( oTable ) is list: j = 0 while True: a = oTable[ j ] if len( a ) > 0: by_writeLine( oFileXml, ' ' ) by_writeLine( oFileHtm, ' ' ) #. endif k = 0 while True: cTag0 = "Column" + str( k + 1 ) cTag1 = " <" + cTag0 + ">" cTag2 = "" cString = a[ k ] if cCorrect == "Oui": cString = by_StringPdfToAnsi( cString ) by_CharSupConsoleWrite( cString ) #. endif try: by_writeLine( oFileXml, cTag1 + cString + cTag2 ) oFileCsv.write( by_StringToCsv( cString ) ) by_writeLine( oFileHtm, ' ' ) j = j + 1 if j == len( oTable ): break #. endif #. enddo else: print( "Pas de table dans cette page. ********" ) #. endif i = i + 1 if i == len( oPages ): break #. endif #. enddo oDoc.close() by_writeLine( oFileXml, '' ) by_writeLine( oFileHtm, '

' + by_StringToHtml( cString ) + '

' ) except Exception: nError = nError + 1 by_writeLine( oFileXml, cTag1 + "***Error" + cTag2 ) oFileCsv.write( "***Error" ) by_writeLine( oFileHtm, '

' + '***Error' + '

' ) #. endtry oFileCsv.write( ";" ) k = k + 1 if k == len( a ): oFileCsv.write( "\n" ) break #. endif #. enddo by_writeLine( oFileXml, ' ' ) by_writeLine( oFileHtm, '

' ) by_writeLine( oFileHtm, ' ' ) by_writeLine( oFileHtm, '' ) oFileXml.close() oFileCsv.close() oFileHtm.close() oFileLog.close() if nError > 0: by_msgbox( "Erreur(s) trouv�e(s) : " + str( nError ), "Erreur", MB_ICONEXCLAMATION ) else: by_msgbox( "Tansformations r�alis�es avec succ�s" ) #. endif by_ShellExecute( cFileXml ) return 0 PdfTablesToXmlCsvHtml() ''' Derni�re modification : 2022-02-03 '''