Montag, 3. Dezember 2012
06:50 Uhr
06:50 Uhr
Medien (bspw. Bilder) aus DOCX extrahieren
Ausgangslage
Aus einer bestehenden umfangreichen Dokumentation (bspw. aus Word oder Powerpoint) sollen die eingebundenen Bilder entnommen werden (um diese bspw. in einer anderen Präsentation einzubinden). Dieses soll jedoch nicht mühsam über die Zwischenablage erfolgen (per Copy&Paste) erfolgen.
Lösung
Sofern es sich um ein aktuelles Office Format handelt (DOCX, XLSX pder PPTX) kann diese Dateiendung in ZIP umbenannt werden und dann innerhalb dieser Datei (entweder direkt, oder nachdem diese entpackt worden ist) die eingebundenen Medien direkt entnommen werden.
Hintergrund
Seit Office 2007 bietet Microsoft Office das Office Open XML als Standarddateiformat (Dateiendungen DOCX, XLSX, PPTX). Hierbei handelt es sich um Containerdateien die ein Dokument im XML Format abspeichert und alle eingebundene Medien ebenfalls als separate Bestandteile umfasst.
Innerhalb des Dokumentenverzeichnis werden alle Dokumentenbestandteile gespeichert.
Bei XLSX handelt es sich hierbei um XL, bei DOCX um word und bei PPTX um ppt.
Innerhalb dieser Ordner befindet sich ein Unterordner media und aus diesen können alle eingebundene Medien (bspw. Bilder) entnommen werden. Hierbei werden eingefügte Bilder als PNG Dateien hinterlegt.
Hierbei ist jedoch zu beachten, dass die eingebundenen Bilder je Medienformat durchgehend nummeriert worden sind.
Dieses kann jedoch von Vorteil sein, da die Reihenfolge der Nummerierung der Dateinamen auch entsprechend des Auftretens der eingebundenen Bilder innerhalb des Dokumentes entsprechen.
Neben den eingebundenen Medien sind auch alle anderen Bestandteile des Dokumentes in verschiedene Ordnern abgelegt.
Weitere Informationen zum Aufbau der Formate sind bspw. im Wikipedia Artikel Office Open XML erläutert.
Weitere Informationen zum Umgang mit Open XML Formaten in früheren Office Versionen bietet Microsoft unter office.microsoft.com an unter anderen kann hier das Microsoft Office Compatibility Pack für Word-, Excel- und PowerPoint 2007-Dateiformate heruntergeladen werden, welches ein Öffnen der Dokumente in älteren Office Versionen ermöglicht. Alternativ kann auch OpenOffice oder LibreOffice dafür verwendet werden.
Hinweis: Aktuelle Buchempfehlungen besonders SAP Fachbücher sind unter Buchempfehlungen inklusive ausführlicher Rezenssionenzu finden. Mein Weiterbildungsangebot zu SAP Themen finden Sie auf unkelbach.expert.
Aus einer bestehenden umfangreichen Dokumentation (bspw. aus Word oder Powerpoint) sollen die eingebundenen Bilder entnommen werden (um diese bspw. in einer anderen Präsentation einzubinden). Dieses soll jedoch nicht mühsam über die Zwischenablage erfolgen (per Copy&Paste) erfolgen.
Lösung
Sofern es sich um ein aktuelles Office Format handelt (DOCX, XLSX pder PPTX) kann diese Dateiendung in ZIP umbenannt werden und dann innerhalb dieser Datei (entweder direkt, oder nachdem diese entpackt worden ist) die eingebundenen Medien direkt entnommen werden.
Hintergrund
Seit Office 2007 bietet Microsoft Office das Office Open XML als Standarddateiformat (Dateiendungen DOCX, XLSX, PPTX). Hierbei handelt es sich um Containerdateien die ein Dokument im XML Format abspeichert und alle eingebundene Medien ebenfalls als separate Bestandteile umfasst.
Innerhalb des Dokumentenverzeichnis werden alle Dokumentenbestandteile gespeichert.
Bei XLSX handelt es sich hierbei um XL, bei DOCX um word und bei PPTX um ppt.
Innerhalb dieser Ordner befindet sich ein Unterordner media und aus diesen können alle eingebundene Medien (bspw. Bilder) entnommen werden. Hierbei werden eingefügte Bilder als PNG Dateien hinterlegt.
Hierbei ist jedoch zu beachten, dass die eingebundenen Bilder je Medienformat durchgehend nummeriert worden sind.
Dieses kann jedoch von Vorteil sein, da die Reihenfolge der Nummerierung der Dateinamen auch entsprechend des Auftretens der eingebundenen Bilder innerhalb des Dokumentes entsprechen.
Neben den eingebundenen Medien sind auch alle anderen Bestandteile des Dokumentes in verschiedene Ordnern abgelegt.
Weitere Informationen zum Aufbau der Formate sind bspw. im Wikipedia Artikel Office Open XML erläutert.
Weitere Informationen zum Umgang mit Open XML Formaten in früheren Office Versionen bietet Microsoft unter office.microsoft.com an unter anderen kann hier das Microsoft Office Compatibility Pack für Word-, Excel- und PowerPoint 2007-Dateiformate heruntergeladen werden, welches ein Öffnen der Dokumente in älteren Office Versionen ermöglicht. Alternativ kann auch OpenOffice oder LibreOffice dafür verwendet werden.
ein Angebot von Espresso Tutorials
unkelbach.link/et.books/
unkelbach.link/et.reportpainter/
unkelbach.link/et.migrationscockpit/
Diesen Artikel zitieren:
Unkelbach, Andreas: »Medien (bspw. Bilder) aus DOCX extrahieren« in Andreas Unkelbach Blog (ISSN: 2701-6242) vom 3.12.2012, Online-Publikation: https://www.andreas-unkelbach.de/blog/?go=show&id=371 (Abgerufen am 5.12.2024)
Ein Kommentar - Permalink - Office
Artikel datenschutzfreundlich teilen
🌎 Facebook 🌎 Twitter 🌎 LinkedIn