私は、ユーザーが投稿したクエリに関して関連性の高いドキュメントを返すpythonでドキュメント検索エンジンを構築しています。私は、PowerPointファイルを含むドキュメントのコレクションを持っています。 PPTの場合、結果ページで最初のいくつかのスライドタイトルをユーザーに表示して、わかりやすい画像を表示したいと思います(Google検索のように)。python-pptxスライドタイトルからテキストを抽出する
from pptx import Presentation
prs = Presentation(filepath) # load the ppt
slide_titles = [] # container foe slide titles
for slide in prs.slides: # iterate over each slide
title_shape = slide.shapes[0] # consider the zeroth indexed shape as the title
if title_shape.has_text_frame: # is this shape has textframe attribute true then
# check if the slide title already exists in the slide_title container
if title_shape.text.strip(""" [email protected]#$%^&*)(_-+=}{][:;<,>.?"'/<,""")+ '. ' not in slide_titles:
slide_titles.append(title_shape.text.strip(""" [email protected]#$%^&*)(_-+=}{][:;<,>.?"'/<,""")+ '. ')