こんばんは。Python14日目、とうとう2週間です!
Pythonに触り出したのがはるか遠くのことのようです…
数か月前からブランクを経て、今日。
サボりすぎましたが、今日も会社を辞めたいという強い心とともに頑張っていきます。
今日も引き続き「BeautifulSoup」を使っていきます。
本が用意してくれている練習用の情報量激少なWEBサイトからテキストデータを取ってきます。
プログラムの中に
html.parser
という記述があるけどこれは何なのだろう…
ということで調べてみたところ、どうやら読み取り形式のことらしいです。
省略可能で、何も書かなければデフォルトでhtml.parserになるらしい。
ほんとかな…
こう書きつつ正直全然わかってはいないのですが、完璧に理解しようとするよりは沢山触れて後々伏線回収ができたらいいかなくらいの気持ちで先に進んでみます。
一旦ここまでで「htmlのタグを探してそのひとかたまりを取ってくる」という練習が終わりました。
本のプログラムを書けないから(著作権侵害になりそうだし)きっと見る人は私が何をやっているのやら全く分からないのだろうなぁと思いつつ。
でもほぼ日記みたいなもんだからよいのです。
あと意外とブログはモチベーションになります。
さて、次は実際のWEBサイトを使ってスクレイピングです。
ワクワクする…
言われるがまま、下準備としてchromeのデベロッパーツールを表示しました。
なんだか非常にそれっぽい画面が登場。
Yahoo!JAPANのサイトを開いて、タグとそれに対応するWEBページがどこなのか見てみました。
だいぶ面白いです。
1つのWEBサイトがこんなに長~~いプログラムで構成されているとは全く想像していませんでした…
当然だけど人が作ってるんだなぁ…というしんみりほっこりした気持ちです。
うっかり消したらどうなるんだろう。笑
ニュースのタイトル一覧を持ってきましょう!というお題だったのですが、探すべきタグがどれなのか分からず…
多分本が古いから今のYahoo!JAPANと違うんでしょう…
何回やってもエラーになり、topicの値もNoneになるので、仕方なく適当なタグを入れていったん表示させてみました。
すっごいことになってしまいました。
でも検索はできていそうなので、今度こそトピックスを持ってこれるように書き換えます。
いけ!!!!!
大成功です!!!スゴイ!!
ちなみにもとのYahoo!JAPANのページはこんな感じ。
タグのクラスの名前があまりにも無作為すぎてかなり不安になりましたが、間違っていなかったようです。
Yahoo!JAPANからニュースを持ってくる練習ができたので今日はここまでにします。
月曜日から頑張りました。
今日も今日とて仕事辞めたい。
おやすみなさい。
追伸
仕事で病んじゃってる人見ると握手したくなる