Logging

グーグル画像検索リンク抽出とYahoo画像検索リンク抽出!!

昨日Qiitaで公開したコードです。プラスYahooも作ってみたよ。
php5.6 ライブラリ Goutte 説明:コマンドラインから巨人ぐーぐるさんの画像検索に検索内容を投げHTMLを抽出後、 HTML解析を行い画像リンクだけを抽出するものです。コメントを外しダウンロードディレクトリを 作成すればダウンロードが可能ですが、あくまでもローカルで動かす事を前提としています。 尚、機械学習の為に画像収集するには少し数が少ないですね・・・(水増し)orz。 リンクはこちら
  ライブラリはググってインストールして下さい。 おそらくレンタルサーバーなら大体、標準がPHP5.6だと思います。 PHP7とかで動いている場合もあるだろうけれど・・・。 ライブラリはバージョン2系を自分はインストールして作成しました。
<?php
date_default_timezone_set('Asia/Tokyo');
include '/composer/vendor/autoload.php';
use Goutte\Client;
$p=count($argv)>=2?$argv[1]:"cat";
$client = new Client();
$client->setHeader('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36');
$crawler = $client->request('GET',"https://www.google.co.jp/search?hl=fr&tbm=isch&source=hp&biw=1920&bih=959&q={$p}&oq={$p}&gws_rd=cr&dcr=0");//'https://www.google.com/search?hl=fr&tbm=isch&source=hp&biw=1920&bih=959&q='.$p.'&oq='.$p);
$img = $crawler->filter('div.rg_bx.rg_di.rg_el.ivg-i')->each(function($element){
    if(preg_match("/\"ou\":\".*\"\,\"ow\"/",$element->text(),$link)){
        $url = str_replace(array('"ou":"','","ow"'), "",$link[0]);
        $ext = pathinfo($url, PATHINFO_EXTENSION);
        $name = pathinfo($url,PATHINFO_FILENAME);
        echo $url."\n";
        if(preg_match('/((jpg)|(jpge)|(png)).*/',$ext)){
            //$data = file_get_contents($url);
            //file_put_contents('./download/dl_'.$name.".".$ext,$data);
            //echo '<img src="'.'./download/dl_'.$name.".".$ext."\">\n";
        }
    }
});
  こちらがYahoo版ですが、あまり抽出出来てません。
<?php
date_default_timezone_set('Asia/Tokyo');
include '/composer/vendor/autoload.php';
use Goutte\Client;
$p=count($argv)>=2?$argv[1]:"cat";
$client = new Client();
//$client->setHeader('User-Agent', 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/63.0.3239.132 Safari/537.36');
$crawler = $client->request('GET','https://search.yahoo.co.jp/image/search?p='.$p.'&rkf=1&oq=inu&ei=UTF-8&imc=&ctype=&dim=large');
$img = $crawler->filter('.gridmodule .SeR .tb a')->each(function($element){
    if(!preg_match("/.*search\.yahoo\.co\.jp/",$element->attr('href'),$link)){
        $url = $element->attr('href');
        $ext = pathinfo($url, PATHINFO_EXTENSION);
        $name = pathinfo($url,PATHINFO_FILENAME);
        echo $url."\n";
        if(preg_match('/((jpg)|(jpge)|(png))$/',$ext)){
            //$data = file_get_contents($url);
            //file_put_contents('./download/dl_'.$name.".".$ext,$data);
            //echo '<img src="'.'./download/dl_'.$name.".".$ext."\">\n";
        }
    }
});







    26-38::12年:IT業界を転々としてきた。前のページ

    アマゾンウェブサービスってどうなの?次のページ

    関連記事

    1. Logging

      Yahooパートナーをはじめてみた。

      Yahooパートナーをはじめてみた。どうなるか分からないけど、いろ…

    2. Logging

      慣れるな慣れろ。誰が言った言葉か分からないけど分かる😌

      おはよう御座います。自分は賢い人ではないと思います、どちらかと言えば…

    3. Logging

      YOUTUBEプレミアムの年間契約キャンペーンはあと3日で終了する。

      YOUTUBEプレミアムの年間契約キャンペーンはあと3日で終了するの…

    4. white gaming console on wooden surface

      Logging

      FF(ファイナルファンタジーシリーズ)35周年らしいですね。

      おはよう御座います。日曜日晴れますように😌。今日のお題は「F…

    5. Logging

      WEBで独り言。

      ツイッターやWEBで独り言を語ると大きく広がることもあります。自分…

    6. Logging

      親同伴。バケモノの子。時代の流れ。

      現代社会の変容とともに、家族観も変化するものは必然です。旧来の伝統…

    2018年1月
    1234567
    891011121314
    15161718192021
    22232425262728
    293031  

    カテゴリー

    アーカイブ

    PAGE TOP