記録

Anglesharpというライブラリの話。

久しぶりに技術的なお話の記事を書きます。AnglesharpというのはC#などでスクレイピングするときにスクレイピングを補助してくれるライブラリで結構人気のあるライブラリなるようです。スクレイピングするコードは下記のようになります。この書き方が至ってシンプルで書きやすいのではないかなと思っています。

http://anglesharp.github.io/

var Url = $"https://zip358.com/";
var querySelector = $"#index_post_list > li.clearfix.num1.type1 > div > h3";
var document = BrowsingContext.New(Configuration.Default.WithDefaultLoader()).OpenAsync(Url).Result;
var element = document.QuerySelector(querySelector);
Console.WriteLine($"blogtitle is {element.InnerHtml}");

このライブラリはとても良いのですが、一つ問題があります。スクレイピングするのですが・・・これjavascriptがOFFの状態でスクレイピングされるのですね。どうもこのコードではJSがONにはならないようですね。因みに自分はそのことを知っていなかったのでどハマリしました。大手の検索サイトなどはjavascriptがOFFの状態でも閲覧できるようになっている事を知りました、試しにブラウザをOFFの状態にしてみるとソースコードがかなり違っていてJSのONの状態とは情報が差異がある事が理解できると思います。

Anglesharpのコンフィグ設定(init)でエージェントなどを設定してあげると上手くJSがONの状態をスクレイピングすることが可能なのかもしれません。動画を見る限りではまだかもしれません・・・。

AngleSharp NET Headless Browsing

近況:クラウドで単発のお仕事を探しつつ。前のページ

つかみに滑った感があるけど、中身はスベってない機械学習の数学講座。次のページ

関連記事

  1. man in black pants and black and white sneakers sitting on chair

    記録

    Next.jsやNuxt.js.コレやアレやでport80は使えない。

    おはようございます、土日は雨が降るとか降らないとか🥕。さて、…

  2. 記録

    FBのQの意味。

    3つの戯言。◎フェイスブックのQイメージは謎めいている感じや賢いな…

  3. 記録

    うまくいく人とうまくいかない人の違い。

    うまくいく人とうまくいかない人の違いは、わからないけれど。うまくいか…

  4. 記録

    人の否定ばかりしている人は、その人も他人から否定されている。

    今日のお題は「人の否定ばかりしている人は、その人も他人から否定されて…

  5. 記録

    Twitterの画像を抽出、非API

    Twitterの画像を抽出、非APIGoutteライブラリを使用して…

2021年3月
1234567
891011121314
15161718192021
22232425262728
293031  

カテゴリー

アーカイブ

PAGE TOP