日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」でとさでん時刻表を解析

2024.12.17

Logging

おはようございます.日本語に特化したOCR、文書画像解析Pythonパッケージ「YomiToku」でとさでん時刻表を解析出来るかやってみました.とさでん交通は未だに時刻表がPDFなのでとても見にくいのです、業者さんは提案しないのかな.

ちなみにとさでん交通さんとは高知県の路面電車になります.地元のために頑張ってる公共交通機関ですが過去には経営が厳しい時期もあったようです.今も大変は大変だと思います、高知県は基本的には公共交通機関を使用する人よりも車通勤が多いです、そして少子高齢社会が進んでいる県でもあるので.

そんな公共交通機関の時刻表PDF解析してHTML化してみようと機械学習のPythonライブラリ「YomiToku」を使用してみました、結果、なかなか精度は良いのですがHTML化された物をそのままでは使用できないので手直しが必要です.

恐らく普通のPDF表だったら、綺麗にHTML化出来ると思いますが、とさでん交通さんの時刻表が特殊過ぎるのでこういう結果になったのだと自分は結論付けました.

ちなみに巷では一回画像へ変換しないといけないなどと記載している記事を見かけますが、PDFファイルのまま、OCR解析出来ます.

自分はこんな感じのコマンドラインで実行しました.

yomitoku ./pdfs/akebono.pdf -f html -o output_html

明日へ続く

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

コマンドライン, でん交通さん, ファイル, ライブラリ, 公共交通機関, 厳しい時期, 地元, 少子高齢社会, , 手直し, 文書画像解析パッケージ, 時刻表, 未だ, 機械学習, , 精度, 経営, 路面電車, 車通勤, 高知県,

Photo by Leah Kelley on Pexels.com

𓅓𓇌𓏏𓇋𓎡𓅱𓂋𓇋𓏏𓇋𓄿𓂋𓇌𓎼𓄿𓏏𓍯𓅱

2022.06.02

Logging

おはようございます。おはようしか言えません…。

田舎県のお給料事情は結構すごいですよ。知っている人は知っていると思いますが、沖縄県と毎回、最低ランクを競っている県では、お給与がかなり低いです。しかしながら食べ物だけは美味しいです。低い人では丸八時間働いても支給される、手取りは12万とかありますからね。一人暮らしなんて無理です。

大学生が個性を身につけたければ勉強をすれば良いという話

食べ物美味しいけども、田舎県は意外にも物価も高くてガソリン代金なんて・・未だに!全国1番目ぐらいの価格の高さで提供していています。でもお給与は低い、かなり大変なのですが、このコロナ禍でなんとフルリモートで働ける現場が増えています。何が言いたいかといえば、そうです。

その通りです。

ではでは~.

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

お給与, お給料事情, ガソリン代金, かなり, コロナ禍, フルリモート, 丸八時間, 低い人, 価格, 全国1番目, 手取り, 最低ランク, 未だ, 毎回, 沖縄県, 物価, 現場, 田舎県, , 食べ物,

Twitterのツイートアクティビティ(アナリティクス)って知っている人も多いと思うけど。

2021.04.14

Logging

Twitterのツイートアクティビティ(アナリティクス)って知っている人も多いと思うけど、Gさんのアクセス解析ツールみたいなのがTwitterにもあります。自分の知る所、どこの県からアクセスが有ったとかいう機能はないけれど。つぶやいた事にたいして、どれぐらいの人が呟きを見ているのか?そのつぶやきに反応した人はどれぐらいいるのかなどは確認できるようになっている。

Twitterアナリティクスの見方を覚えてフォロワー数を爆上げしよう!

アクセス解析を見るとどんなことにみんなが興味を持っているかや、どんなつぶやきをすると反応を得ることが出来るかなどがわかりとても勉強になります。ツイッター社もエモーション(感情:ライク)を増やすことを検討中らしいのでアクセス解析とエモーションの反応数を比較するともっとわかりやすくなるかと思います。ちなみに、自分はいいねの数は少ないので、つぶやきの閲覧人数と反応した人数などを参考にしています。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

Twitter, アクセス, アクティビティ, アナリティクス, エモーション, こと, ツール, ツイート, ツイッター, どこ, どれぐらい, みんな, ライク, , , 人数, 勉強, 参考, 反応, 感情, , , 検討, 機能, 比較, , 確認, 自分, 興味, 解析, 閲覧,

Yahooが567(コロナ)の情報を取り扱っているそれも県単位でURLまとめたよ。

2020.12.20

Logging

Yahooが567の情報を取り扱っている。567(コロナ)を県単位で情報を配信しているまとめリンクサイトを作りましたので、ご自由にお使いください。
リンクはこちらです。https://zip358.com/tool/demo28/

ソースコードとJSONを貼っときます。IT土方さんみたいな事をした?。

<script>
	fetch("./assets/js/ken47.json").then(response => response.json()).then((data)=>{
		let ken = [];
		ken.push('<div class="list-group">');
		for (const key in data) {
			ken.push("<a  class='list-group-item list-group-item-action' href='https://hazard.yahoo.co.jp/article/covid19" + data[key].roman + "' target='_"+ data[key].roman +"'>" + data[key].name +":::https://hazard.yahoo.co.jp/article/covid19" + data[key].roman + "</a>");
		}
		ken.push("</div>");
		document.getElementById("covid19-link-list").innerHTML = ken.join("")
	});
</script>
{
	"1": {
		"name": "北海道",
		"roman": "hokkaido"
	},
	"2": {
		"name": "青森",
		"roman": "aomori"
	},
	"3": {
		"name": "岩手",
		"roman": "iwate"
	},
	"4": {
		"name": "宮城",
		"roman": "miyagi"
	},
	"5": {
		"name": "秋田",
		"roman": "akita"
	},
	"6": {
		"name": "山形",
		"roman": "yamagata"
	},
	"7": {
		"name": "福島",
		"roman": "fukushima"
	},
	"8": {
		"name": "茨城",
		"roman": "ibaraki"
	},
	"9": {
		"name": "栃木",
		"roman": "tochigi"
	},
	"10": {
		"name": "群馬",
		"roman": "gunma"
	},
	"11": {
		"name": "埼玉",
		"roman": "saitama"
	},
	"12": {
		"name": "千葉",
		"roman": "chiba"
	},
	"13": {
		"name": "東京",
		"roman": "tokyo"
	},
	"14": {
		"name": "神奈川",
		"roman": "kanagawa"
	},
	"15": {
		"name": "新潟",
		"roman": "niigata"
	},
	"16": {
		"name": "富山",
		"roman": "toyama"
	},
	"17": {
		"name": "石川",
		"roman": "ishikawa"
	},
	"18": {
		"name": "福井",
		"roman": "fukui"
	},
	"19": {
		"name": "山梨",
		"roman": "yamanashi"
	},
	"20": {
		"name": "長野",
		"roman": "nagano"
	},
	"21": {
		"name": "岐阜",
		"roman": "gifu"
	},
	"22": {
		"name": "静岡",
		"roman": "shizuoka"
	},
	"23": {
		"name": "愛知",
		"roman": "aichi"
	},
	"24": {
		"name": "三重",
		"roman": "mie"
	},
	"25": {
		"name": "滋賀",
		"roman": "shiga"
	},
	"26": {
		"name": "京都",
		"roman": "kyoto"
	},
	"27": {
		"name": "大阪",
		"roman": "osaka"
	},
	"28": {
		"name": "兵庫",
		"roman": "hyogo"
	},
	"29": {
		"name": "奈良",
		"roman": "nara"
	},
	"30": {
		"name": "和歌山",
		"roman": "wakayama"
	},
	"31": {
		"name": "鳥取",
		"roman": "tottori"
	},
	"32": {
		"name": "島根",
		"roman": "shimane"
	},
	"33": {
		"name": "岡山",
		"roman": "okayama"
	},
	"34": {
		"name": "広島",
		"roman": "hiroshima"
	},
	"35": {
		"name": "山口",
		"roman": "yamaguchi"
	},
	"36": {
		"name": "徳島",
		"roman": "tokushima"
	},
	"37": {
		"name": "香川",
		"roman": "kagawa"
	},
	"38": {
		"name": "愛媛",
		"roman": "ehime"
	},
	"39": {
		"name": "高知",
		"roman": "kochi"
	},
	"40": {
		"name": "福岡",
		"roman": "fukuoka"
	},
	"41": {
		"name": "佐賀",
		"roman": "saga"
	},
	"42": {
		"name": "長崎",
		"roman": "nagasaki"
	},
	"43": {
		"name": "熊本",
		"roman": "kumamoto"
	},
	"44": {
		"name": "大分",
		"roman": "oita"
	},
	"45": {
		"name": "宮崎",
		"roman": "miyazaki"
	},
	"46": {
		"name": "鹿児島",
		"roman": "kagoshima"
	},
	"47": {
		"name": "沖縄",
		"roman": "okinawa"
	}
}

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

39, 47, 567, assets, class, const, data, div, fetch, For, gt, in, IT, JS, json, ken, key, let, list-grou, list-group, list-group-item, lt, push, quot, response, script, then, url, Yahoo, コード, こちら, コロナ, サイト, ソース, それ, まとめ, リンク, , 単位, 土方, 情報, , 配信,

常識を数字にすると、えっ日本。

2020.08.06

Logging

日本の人口分布をグラフ化すると、やっぱ東京に日本は一極集中になっている事が分かる。そうなの?そうなの?こんなにも東京とその近辺に県に人口が集中していることが分かるのです。

東京の人口が多いのは、9割のひとは知っている日本の常識だと思いますが、実はこんなにも偏って人口が東京に集中しているとは、正直な所知らなかった。

他の県よりもまぁ多いだろうとそういう考え方だったので、これは衝撃だ!、数字見て『えっ』って絶句してました。

これは東京に大地震きたら日本沈没するかもなと思います、そろそろ都市集中はまずいなと思います。567でどれぐらいこの人口を分散することが出来るのだろうか?

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

567, , グラフ, こと, これ, どれぐらい, ひと, 一極, , 人口, , 分布, 分散, 大地震, 常識, , 数字, 日本, 東京, 正直, 沈没, , 絶句, 考え方, 衝撃, 近辺, 都市, 集中,

半年過ぎましたね、フリーランサーという無職w。

2020.06.23

Logging

無職になり半年過ぎましたね。基本的に勤めていたときと生活習慣は変わらず規則正しい生活のままです。まぁそろそろ働かないといけないなという焦りも出てきましたが、どうなるかは分からないです。就活はしています?。

ハローワークの高知県賃金など

さてハローワークへ求人出している企業さんには悪いのですが、ハローワークサイトから高知県に求人を出している会社の求人データを全て引っこ抜いてきました(スクレイピング)。そして最低賃金とか最高賃金とかを調べてみました。結果、正社員求人は2000社ほどあり、その中で比較的、賃金の良いのは建築・土木と薬剤師でした。日給で一番低いのは断続的な仕事で505円、そして恐らく高知県の最低賃金790円が続きます。これを見ていると高知県は土木関係が多いですね、これは昔の名残だと思います、今では台風銀座ではなくなりましたが昔は毎年のように台風が通る県だったので、それに伴う災害が頻繁に発生する県だったこともあり、建築・土木関係のお仕事が比較的に多いですね。

次に多い仕事は介護職の仕事です、高知県は日本で一番ぐらいに高齢者が多い県ではないだろうか?あとよさこい祭りがあるので美容関係のしごとも実は比較的に多いです。自分が勤めていたIT関係の仕事は他の県比べて求人数が少ないですね。これから増えていって欲しいですが、、、サポートセンターばかりが増えていっているのが現状です。6000件超のデータを見て思ったことは高知県、頑張れ・・・!!と思いたくなります。『いや違うだろ、お前が頑張れ・・・』とツッコまれそうですが、そこは・・・忘れてください?。

ちなみにハローワークを検索するアプリを使用すると同じような結果が得られるかもしれませんが、このデータを取って三ヶ月ごとに比較してみようかと思います。時間があればジャンルごとにグラフとか作って視覚化するのも面白いかもしれません。今回、スクレイピングするのにC#とsqliteを使ってます。コードの公開はありませんが、高知県の現状を伝えていきたいと思います。

次回の求人レポートの記事予定は9月23日です。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

2000, 505, 790, , お仕事, こと, これ, サイト, スク, それ, データ, とき, ハローワーク, ピング, フリーランサー, まま, レイ, , , 仕事, 企業, 会社, 全て, 半年, 台風, 名残, 土木, 就活, 建築, 日給, , 最低賃金, 最高, 正社員, 毎年, 求人, 災害, 無職, 焦り, 生活, 発生, , 結果, 習慣, 薬剤, 賃金, 銀座, 関係, 頻繁, 高知県,

野市あじさい街道へ行ってきた2020年。

2020.04.03

Logging

野市あじさい街道へ行ってきました、ほぼほぼ満開の桜なのですが皆さん自粛ムードなのか誰一人、桜を見に来てはなかったです。新型コロナが早く終息すれば良いのになと思います。おそらく7,8月にはインフルエンザと同じ感じなら一度、終息して冬にまた再来しそうですね。それぞれの県の人口と感染者数で確率を計算してみても、インフルエンザぐらいの感染率なのです。あのホリエモンが言っていた事が正しいような気がします。またWHOの言っていた様にSNS拡散による問題が大いにあるなと思います。これは自分の主観ですが大多数の意見より少数の意見が正しいような気がします。

https://www.youtube.com/watch?v=CoBuhP31p8A

身近な人が感染すると驚異に感じるかもしれませんが、感染者と接触しても感染しない人もいるぐらいなので普通のインフルエンザと同じぐらいの感染率かつ死者率なんだと思います。正直な所、騒ぎすぎだと…。飲食業界は大変な状態に陥っている。世界的な過剰反応を早く終息すれば良いのになと思います。そのためにはワクチンと新薬開発が鍵になると思います。正しく怖がりましょう。

著者名  @taoka_toshiaki

※この記事は著者が40代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

2020, 7,8, SNS, WHO, あじさい, インフルエンザ, これ, コロナ, それぞれ, ホリエモン, ムード, 一度, 主観, , , 人口, 再来, , 反応, 問題, 多数, 大変, 少数, 意見, 感じ, 感染, 感染者, , 拡散, 接触, 新型, 普通, , 業界, 正直, 死者, , 満開, 状態, 皆さん, , 確率, 終息, 自分, 自粛, 街道, 計算, 身近, 過剰, 野市, 飲食, 驚異,

電車で通ってみました。

2014.11.28

Logging


自分が住んでいる県は、電車で通うことが結構不便な感じの県なのですが、試しに通ってみることにしました。結論から言えば不便です。理由は簡単でダイヤが少ないということです。また、駅から会社までや、自宅家から駅までに距離が結構かかるということなのです・・・。
一回、始めてみればさほど苦労はしないかなぁと思うものの、出勤時間と電車のダイヤが咬み合わないのが、難です。ちなみに、一週間分、定期?を買ったので出勤時間とある程度噛み合う時間帯は電車通勤を行ってみたいと思います。(雨天は車ですね)
自分が住んでいる県の不便さで一番、問題なのが電車とバスのダイヤがあまりにも兼ねあっていないということです。それを何とかすれば、赤字決算から多少なりともプラスの方向に行くのではないかと自分は思っています。
 
 

著者名  @taoka_toshiaki

※この記事は著者が30代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

, ダイヤ, プラス, 不便さ, 出勤時間, 多少, 定期, 方向, 時間帯, , 結論, 自宅家, 苦労, 赤字決算, 距離, , 雨天, 電車, 電車通勤, ,

映画「繕い裁つ人」公式サイトを(# ゚Д゚)

2014.11.08

Logging

映画「繕い裁つ人」公式サイトよると上映されたみたい、いまのところブルーレイが発売されていません(;゚Д゚)ガ|ク!!。そのうち発売されたら買うつもりでいます・・・・。ちなみにウチの県では上映されていなかったみたいですって・・・・。((繕い裁つ人っていう映画予告を見たのですが、結構良い感じです。まぁあまり受けない人もいるかもしれませんが・・・))
追記:ちなみにこの頃、観た映画の追記編がないものは、更新はない可能性があります。あしからず。
※紛らわしい、2015年1月31日に上映されたみたいです。

著者名  @taoka_toshiaki

※この記事は著者が30代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

2015年1月31日, うち, ウチ, , , ところブルーレイ, , 公式サイト, 可能性, 大事, 始末, 映画予告, 更新, , 良い感じ, 追記, 追記編,

Photo by Rakicevic Nenad on Pexels.com

映画、ガーディアンズ・オブ・ギャラクシー{字幕版2D}の感想:ネタバレなし。

2014.09.16

Logging

映画、ガーディアンズ・オブ・ギャラクシー{2D字幕版}を観てきましたので感想を記載しときます。この映画は映像や迫力がありましたね。3Dで観るとまた全然違った印象を受けそうです{3Dで観るとかなり臨場感のある作りになってそう}!!
※自分の県では3D吹き替え版しか上映されていなかったので2D字幕版を選択しました。あと、笑える要素が所々にあります😁。

映画『ガーディアンズ・オブ・ギャラクシー』予告編

迫力やVFX(視覚効果)はかなレベルが高いです。それだけでもSF好きには観る価値ありかも?
あと、エンドクレジットにオマケの動画が流れます{エンドクレジットの最初だけだと思います}。

著者名  @taoka_toshiaki

※この記事は著者が30代前半に書いたものです.

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます.たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅.
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

タグ

2D字幕版, 3D, SF好き, VFX, エンドクレジット, オマケ, ガーディアンズ・オブ・ギャラクシー, かなり臨場感, 価値, 動画, 印象, 感想, 映像, 映画, 最初, , 自分, 要素, 視覚効果, 迫力,