PythonでPowerPointのgrep検索をするGUIプログラムを作成してみた

前回、前々回に引き続きgrep検索をするプログラムの紹介です。今回はPowerPointのファイルをgrep検索するプログラムです。使い方およびGUI操作は前回、前々回と同様です。

使い方

検索対象がpptxファイルに変更されただけで、使い方は前々回と同様です。

必要モジュール

以下のモジュールをインストールする必要があります。

1	pip install python-pptx

ソースコード

from pptx import Presentation
import os
import re
import tkinter as tk
import tkinter.filedialog as fd
from tkinter import messagebox
import subprocess
from glob import glob

###############################################################################
#
# 検索結果を保持するデータクラス
#
###############################################################################
class ResultPptx():

def __init__(self):
        self.dir_name = ""
        self.filename = ""
        self.slide_no = -1
        self.sentence = ""

###############################################################################
#
# メインのGUIクラス
#
###############################################################################
class GUI_grep():

#-------------------------------------------------------------------------#
    # メインループ
    #-------------------------------------------------------------------------#
    def run(self):
        self.root.mainloop()

#-------------------------------------------------------------------------#
    # 初期化
    #-------------------------------------------------------------------------#
    def __init__(self):

self.dirpath = ""

self.root = tk.Tk()
        self.root.title(u"grep検索")

self.frame1 = tk.Frame()
        self.frame1.pack()

self.kw_entry = tk.Entry(self.frame1, width=100)
        self.kw_entry.pack(fill='x', padx=10, side='left')

self.button_grep = tk.Button(self.frame1, text="find", width=10, command=self.process_files)
        self.button_grep.pack(fill='x', padx=10, side='left')

self.frame2 = tk.Frame()
        self.frame2.pack(anchor=tk.E, padx=20)

self.b_chk1 = tk.BooleanVar(value=True)
        self.chk_btn1 = tk.Checkbutton(self.frame2, variable=self.b_chk1, text='recursive')
        self.chk_btn1.pack()

self.frame3 = tk.Frame()
        self.frame3.pack()

self.dir_entry = tk.Entry(self.frame3, width=100)
        self.dir_entry.configure(state='readonly')
        self.dir_entry.pack(fill='x', padx=10, side='left')

self.button_mov = tk.Button(self.frame3, text="folder...", width=10, command=self.set_directory)
        self.button_mov.pack(fill='x', padx=10, side='left')

self.frame4 = tk.Frame()
        self.frame4.pack()

self.text = tk.Text(self.frame4, width=100, height=30, wrap=tk.NONE)
        self.text.bind("<Double-1>", self.open_file)

self.yscroll = tk.Scrollbar(self.frame4, orient=tk.VERTICAL, command=self.text.yview)
        self.yscroll.pack(side=tk.RIGHT, fill="y")

self.xscroll = tk.Scrollbar(self.frame4, orient=tk.HORIZONTAL, command=self.text.xview)
        self.xscroll.pack(side=tk.BOTTOM, fill="x")

self.text["yscrollcommand"] = self.yscroll.set
        self.text["xscrollcommand"] = self.xscroll.set

self.text.pack(side='top')

#-------------------------------------------------------------------------#
    # 検索結果をダブルクリックして、ファイルを開く処理
    #-------------------------------------------------------------------------#
    def open_file(self, event):
        pos = self.text.index('insert')
        try:
            res = self.all_results[int(pos.split('.')[0])-1]
            #prog_path = r"C:\Program Files\Microsoft Office\Office16\POWERPNT.EXE"
            prog_path = r"C:\Program Files\Microsoft Office\root\Office16\POWERPNT.EXE"
            file_path = os.path.join(res.dir_name, res.filename)
            file_path = file_path.replace('/', '\\')
            command = f'"{prog_path}" "{file_path}"'
            subprocess.Popen(command, shell=False)
        except Exception as e:
            print(e)
            pass

#-------------------------------------------------------------------------#
    # プログラムの終了処理
    #-------------------------------------------------------------------------#
    def exit_program(self):
        
        self.root.quit()
        exit()

#-------------------------------------------------------------------------#
    # ディレクトリ選択ダイアログ
    #-------------------------------------------------------------------------#
    def ask_input_directory(self):
        rt = tk.Tk()
        rt.withdraw()
        dir_name = fd.askdirectory(initialdir=os.getcwd(), title='フォルダの選択', mustexist=True)
        rt.destroy()
        return dir_name

#-------------------------------------------------------------------------#
    # ディレクトリを設定する
    #-------------------------------------------------------------------------#
    def set_directory(self):

self.dirpath = self.ask_input_directory()
        # キャンセルされた場合
        if self.dirpath == '':
            return

self.dir_entry.configure(state='normal')
        self.dir_entry.delete(0, tk.END)
        self.dir_entry.insert(tk.END, self.dirpath)
        self.dir_entry.configure(state='readonly')

#-------------------------------------------------------------------------#
    # Grep検索する
    #-------------------------------------------------------------------------#
    def process_files(self):

# ディレクトリが設定されていない場合
        if self.dir_entry.get() == '':
            self.set_directory()

if self.dirpath == '':
            self.dirpath == self.dir_entry.get()

if self.dirpath == '':
            return

# キーワード
        keyword = self.kw_entry.get()

# 検索結果をクリアする
        self.text.delete("1.0", "end")

if self.b_chk1.get() == True:
            all_files = glob(self.dirpath + "/**/*.pptx", recursive=True)
        else:
            all_files = glob(self.dirpath + "/*.pptx")

self.all_results = []
        for file in all_files:
            dir_name = os.path.dirname(file)
            filename = os.path.basename(file)

pptx = Presentation(file)
            for i, slide in enumerate(pptx.slides):
                # シェイプの検索
                for shape in slide.shapes:
                    # 文字を含まないシェイプは飛ばす
                    if not shape.has_text_frame:
                        continue
                    for par in shape.text_frame.paragraphs:
                        for run in par.runs:
                            try:
                                m = re.search(keyword, run.text)
                                if m:
                                    res = ResultPptx()
                                    res.dir_name = dir_name
                                    res.filename = filename
                                    res.slide_no = i + 1
                                    res.sentence = run.text
                                    self.all_results.append(res)
                            except Exception as e:
                                print(e)
                                pass
                # ノートの検索
                try:
                    text = slide.notes_slide.notes_text_frame.text
                    text = text.replace('\n', '')
                    m = re.search(keyword, text)
                    if m:
                        res = ResultPptx()
                        res.dir_name = dir_name
                        res.filename = filename
                        res.slide_no = i + 1
                        res.sentence = text
                        self.all_results.append(res)
                except Exception as e:
                    print(e)
                    pass

# 結果の表示
        for i, res in enumerate(self.all_results):
            if i == len(self.all_results)-1:
                self.text.insert(tk.END, f"{res.filename} ({res.slide_no}): {res.sentence}")
            else:
                self.text.insert(tk.END, f"{res.filename} ({res.slide_no}): {res.sentence}\n")

messagebox.showinfo("終了", "検索が終わりました。")

###############################################################################
#
#   以下、メイン処理
#
###############################################################################
if __name__ == "__main__":
    app = GUI_grep()
    app.run()

100

101

102

103

104

105

106

107

108

109

110

111

112

113

114

115

116

117

118

119

120

121

122

123

124

125

126

127

128

129

130

131

132

133

134

135

136

137

138

139

140

141

142

143

144

145

146

147

148

149

150

151

152

153

154

155

156

157

158

159

160

161

162

163

164

165

166

167

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

209

210

211

212

213

214

215

216

217

218

219

220

221

222

223

224

225

226

227

228

229

from pptx import Presentation

import os

import re

import tkinter as tk

import tkinter.filedialog as fd

from tkinter import messagebox

import subprocess

from glob import glob

###############################################################################

# 検索結果を保持するデータクラス

###############################################################################

class ResultPptx():

def __init__(self):

self.dir_name = ""

self.filename = ""

self.slide_no = -1

self.sentence = ""

###############################################################################

# メインのGUIクラス

###############################################################################

class GUI_grep():

#-------------------------------------------------------------------------#

# メインループ

#-------------------------------------------------------------------------#

def run(self):

self.root.mainloop()

#-------------------------------------------------------------------------#

# 初期化

#-------------------------------------------------------------------------#

def __init__(self):

self.dirpath = ""

self.root = tk.Tk()

self.root.title(u"grep検索")

self.frame1 = tk.Frame()

self.frame1.pack()

self.kw_entry = tk.Entry(self.frame1, width=100)

self.kw_entry.pack(fill='x', padx=10, side='left')

self.button_grep = tk.Button(self.frame1, text="find", width=10, command=self.process_files)

self.button_grep.pack(fill='x', padx=10, side='left')

self.frame2 = tk.Frame()

self.frame2.pack(anchor=tk.E, padx=20)

self.b_chk1 = tk.BooleanVar(value=True)

self.chk_btn1 = tk.Checkbutton(self.frame2, variable=self.b_chk1, text='recursive')

self.chk_btn1.pack()

self.frame3 = tk.Frame()

self.frame3.pack()

self.dir_entry = tk.Entry(self.frame3, width=100)

self.dir_entry.configure(state='readonly')

self.dir_entry.pack(fill='x', padx=10, side='left')

self.button_mov = tk.Button(self.frame3, text="folder...", width=10, command=self.set_directory)

self.button_mov.pack(fill='x', padx=10, side='left')

self.frame4 = tk.Frame()

self.frame4.pack()

self.text = tk.Text(self.frame4, width=100, height=30, wrap=tk.NONE)

self.text.bind("<Double-1>", self.open_file)

self.yscroll = tk.Scrollbar(self.frame4, orient=tk.VERTICAL, command=self.text.yview)

self.yscroll.pack(side=tk.RIGHT, fill="y")

self.xscroll = tk.Scrollbar(self.frame4, orient=tk.HORIZONTAL, command=self.text.xview)

self.xscroll.pack(side=tk.BOTTOM, fill="x")

self.text["yscrollcommand"] = self.yscroll.set

self.text["xscrollcommand"] = self.xscroll.set

self.text.pack(side='top')

#-------------------------------------------------------------------------#

# 検索結果をダブルクリックして、ファイルを開く処理

#-------------------------------------------------------------------------#

def open_file(self, event):

pos = self.text.index('insert')

try:

res = self.all_results[int(pos.split('.')[0])-1]

#prog_path = r"C:\Program Files\Microsoft Office\Office16\POWERPNT.EXE"

prog_path = r"C:\Program Files\Microsoft Office\root\Office16\POWERPNT.EXE"

file_path = os.path.join(res.dir_name, res.filename)

file_path = file_path.replace('/', '\\')

command = f'"{prog_path}" "{file_path}"'

subprocess.Popen(command, shell=False)

except Exception as e:

print(e)

pass

#-------------------------------------------------------------------------#

# プログラムの終了処理

#-------------------------------------------------------------------------#

def exit_program(self):

self.root.quit()

exit()

#-------------------------------------------------------------------------#

# ディレクトリ選択ダイアログ

#-------------------------------------------------------------------------#

def ask_input_directory(self):

rt = tk.Tk()

rt.withdraw()

dir_name = fd.askdirectory(initialdir=os.getcwd(), title='フォルダの選択', mustexist=True)

rt.destroy()

return dir_name

#-------------------------------------------------------------------------#

# ディレクトリを設定する

#-------------------------------------------------------------------------#

def set_directory(self):

self.dirpath = self.ask_input_directory()

# キャンセルされた場合

if self.dirpath == '':

return

self.dir_entry.configure(state='normal')

self.dir_entry.delete(0, tk.END)

self.dir_entry.insert(tk.END, self.dirpath)

self.dir_entry.configure(state='readonly')

#-------------------------------------------------------------------------#

# Grep検索する

#-------------------------------------------------------------------------#

def process_files(self):

# ディレクトリが設定されていない場合

if self.dir_entry.get() == '':

self.set_directory()

if self.dirpath == '':

self.dirpath == self.dir_entry.get()

if self.dirpath == '':

return

# キーワード

keyword = self.kw_entry.get()

# 検索結果をクリアする

self.text.delete("1.0", "end")

if self.b_chk1.get() == True:

all_files = glob(self.dirpath + "/**/*.pptx", recursive=True)

else:

all_files = glob(self.dirpath + "/*.pptx")

self.all_results = []

for file in all_files:

dir_name = os.path.dirname(file)

filename = os.path.basename(file)

pptx = Presentation(file)

for i, slide in enumerate(pptx.slides):

# シェイプの検索

for shape in slide.shapes:

# 文字を含まないシェイプは飛ばす

if not shape.has_text_frame:

continue

for par in shape.text_frame.paragraphs:

for run in par.runs:

try:

m = re.search(keyword, run.text)

if m:

res = ResultPptx()

res.dir_name = dir_name

res.filename = filename

res.slide_no = i + 1

res.sentence = run.text

self.all_results.append(res)

except Exception as e:

print(e)

pass

# ノートの検索

try:

text = slide.notes_slide.notes_text_frame.text

text = text.replace('\n', '')

m = re.search(keyword, text)

if m:

res = ResultPptx()

res.dir_name = dir_name

res.filename = filename

res.slide_no = i + 1

res.sentence = text

self.all_results.append(res)

except Exception as e:

print(e)

pass

# 結果の表示

for i, res in enumerate(self.all_results):

if i == len(self.all_results)-1:

self.text.insert(tk.END, f"{res.filename} ({res.slide_no}): {res.sentence}")

else:

self.text.insert(tk.END, f"{res.filename} ({res.slide_no}): {res.sentence}\n")

messagebox.showinfo("終了", "検索が終わりました。")

###############################################################################

# 以下、メイン処理

###############################################################################

if __name__ == "__main__":

app = GUI_grep()

app.run()

プログラムの簡単な説明

前回と違う部分だけ説明していきます。

class ResultPptx():

def __init__(self):

self.dir_name = ""

self.filename = ""

self.slide_no = -1

self.sentence = ""

15～21行目：WordおよびPDFでは検索ワードが見つかった行数を結果に格納していましたが、今回はスライド番号を格納するため、前回とは違う結果クラス（ResultPptx）を作成しています。

100

101

102

103

104

105

106

107

def open_file(self, event):

pos = self.text.index('insert')

try:

res = self.all_results[int(pos.split('.')[0])-1]

#prog_path = r"C:\Program Files\Microsoft Office\Office16\POWERPNT.EXE"

prog_path = r"C:\Program Files\Microsoft Office\root\Office16\POWERPNT.EXE"

file_path = os.path.join(res.dir_name, res.filename)

file_path = file_path.replace('/', '\\')

command = f'"{prog_path}" "{file_path}"'

subprocess.Popen(command, shell=False)

except Exception as e:

print(e)

pass

95～107行目：検索結果をダブルクリックしたときにファイルを開く処理です。PowerPointのパスは環境によって違うと思いますので、書き換えが必要です。私の場合、あるPCでは「C:\Program Files\Microsoft Office\Office16\POWERPNT.EXE」、別のPCでは「C:\Program Files\Microsoft Office\root\Office16\POWERPNT.EXE」でした。

163

164

165

166

if self.b_chk1.get() == True:

all_files = glob(self.dirpath + "/**/*.pptx", recursive=True)

else:

all_files = glob(self.dirpath + "/*.pptx")

163～166行目：当然ながらglobで検索するファイルの拡張子は”pptx”になります。

self.all_results = []
        for file in all_files:
            dir_name = os.path.dirname(file)
            filename = os.path.basename(file)

168

169

170

171

172

173

174

175

176

177

178

179

180

181

182

183

184

185

186

187

188

189

190

191

192

193

194

195

196

197

198

199

200

201

202

203

204

205

206

207

208

self.all_results = []

for file in all_files:

dir_name = os.path.dirname(file)

filename = os.path.basename(file)

pptx = Presentation(file)

for i, slide in enumerate(pptx.slides):

# シェイプの検索

for shape in slide.shapes:

# 文字を含まないシェイプは飛ばす

if not shape.has_text_frame:

continue

for par in shape.text_frame.paragraphs:

for run in par.runs:

try:

m = re.search(keyword, run.text)

if m:

res = ResultPptx()

res.dir_name = dir_name

res.filename = filename

res.slide_no = i + 1

res.sentence = run.text

self.all_results.append(res)

except Exception as e:

print(e)

pass

# ノートの検索

try:

text = slide.notes_slide.notes_text_frame.text

text = text.replace('\n', '')

m = re.search(keyword, text)

if m:

res = ResultPptx()

res.dir_name = dir_name

res.filename = filename

res.slide_no = i + 1

res.sentence = text

self.all_results.append(res)

except Exception as e:

print(e)

pass

168～208行目：メインの検索処理の部分です。各スライドには複数のオブジェクト（shapes）が含まれており、それを１つずつチェックしています。テキスト情報を持っているオブジェクトから文を取り出し、正規表現で検索ワードとマッチするかどうかを判定しています。また、ノートに含まれる文字も検索しています。

210

211

212

213

214

215

# 結果の表示

for i, res in enumerate(self.all_results):

if i == len(self.all_results)-1:

self.text.insert(tk.END, f"{res.filename} ({res.slide_no}): {res.sentence}")

else:

self.text.insert(tk.END, f"{res.filename} ({res.slide_no}): {res.sentence}\n")

210～215行目：検索結果を表示しています。最初に述べた通り、行数ではなくスライド番号を表示しています。

投稿タグ: プログラミング

MENU

PythonでPowerPointのgrep検索をするGUIプログラムを作成してみた

使い方

必要モジュール

ソースコード

プログラムの簡単な説明

関連記事

コメントを残すコメントをキャンセル

カテゴリー

アーカイブ

MENU

PythonでPowerPointのgrep検索をするGUIプログラムを作成してみた

使い方

必要モジュール

ソースコード

プログラムの簡単な説明

関連記事

コメントを残す コメントをキャンセル

カテゴリー

アーカイブ

タグ

コメントを残すコメントをキャンセル