学習 | First Wave

Photo by Pixabay on Pexels.com

デュオリンゴで毎日学習中.スタディサプリよりもお手軽感.

2025.07.25

Logging

おはようございます.デュオリンゴで毎日学習中.スタディサプリよりもお手軽感とゲーム感覚で英語学習が出来ているので毎日学習が出来ている.

有料プランにはまだ切り替えていないけど、お金に余裕が出来た月に切り替えを行うつもりでいますが、あと数ヶ月は無料枠で勉強をしていきます.

デュオリンゴが良いなと思ったのは、上記以外にも理由があってデュオリンゴを始めた創業者の理念が良かったから使おうと改めて思いました.その理念は貧しい生活をしている人にもチャンスの機会を与えるというような考え方です.

自分も世界で一番使われている英語を勉強することでチャンスは確実に広がると思っていますなので、勉強をしている感じですね.勉強することで世界は広がると思います、何もしないよりも何かした方が良いです.

でもまぁまだ学習時間は短時間なんだけどね、それでも毎日学習していけてます.今回は続きそうな気がしているのはまだ初級者向けだからというのもあるかもしれない.

明日へ続く

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

Profile
高知県在住の@taoka_toshiakiです、記事を読んで頂きありがとうございます.
数十年前から息を吸うように日々記事を書いてます．たまに休んだりする日もありますがほぼ毎日投稿を心掛けています😅．
SNSも使っています、フォロー、いいね、シェア宜しくお願い致します🙇.
SNS::@taoka_toshiaki

OFUSEで応援を送る

投稿日時 2025年07月25 07:00日

タグ

あと, お金, ゲーム, ヶ月, こと, スタディサプリ, そう, チャンス, つもり, デュオ, プラン, よう, リンゴ, 一番, 上記, 世界, 今回, 以外, 余裕, 切り替え, 初級, 創業, 勉強, 向け, 学習, 感じ, 感覚, 手軽, 明日, 時間, 有料, 機会, 毎日, 無料, 理念, 理由, 生活, 短時間, 確実, 考え方, 自分, 英語,

YouTubeに力を入れていこうと思っているけど夢ですね.

2025.07.10

Logging

おはようございます.YouTubeに力を入れていこうと思っているけど夢ですね.登録者数が5000人で15万円も夢ではないそうです.5000人っていうのは底辺YOUTUBERと言われるランクなのですが、それでも全体の13％の割合だそう.

今ではチャンネルの売り買いもされているそうなので、お金を出せばチャンネルを買うことが出来るそうなのでいきなり登録者数1万人から始めることも出来ます.たまに芸能人でもないのに数本の投稿で1万人ってのはお金の力が働いている気がします.

因みに自分のチャンネル数は45人です、ここから収益が得られる500人まで頑張ってYOUTUBE投稿を行っていこうと思っているけど何せネタが無いネタが無い.YOUTUBEでは成功しているひとの人前するのが一番良いらしいですね.

なので、今までダラダラ見ていたYOUTUBEをちょっと見方を変えて研究していこうと思います.上手く行ってない人と成功している人の違いなどを学習しつつ週一UPで行っていこうと意気込んでいます.

明日へ続く

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2025年07月10 07:00日

タグ

お金, ここ, こと, そう, チャンネル, ネタ, ひと, ランク, 一番, 人前, 全体, 割合, 収益, 売り買い, 学習, 底辺, 成功, 投稿, 明日, 登録, 研究, 自分, 芸能人, 見方, 違い,

英語学習にお金を使うように考えを変えます.今まで何度も

2025.07.04

Logging

おはようございます.英語学習にお金を使うように考えを変えます.今まで何度も挫折してきた英語学習にお金をかけようと思っています.自分が望むものはサブスクでスマホやPCで勉強が学べるものです.

そういうものを考えたときに浮かぶのがスタディサプリです.スタディサプリみたいなアプリが他にもないのか調べてみました.

自分で調べるのは面倒なのでGeminiさんに調べてもらいました、下記が返答結果になります.

スタディサプリ以外にも、オンラインで学習できるサービスはたくさんあります。対象年齢や学習内容によって様々な選択肢があるので、ご自身の目的やレベルに合わせて検討してみてください。

いくつか代表的な類似サービスやカテゴリーを挙げます。

大手予備校・通信教育系のオンラインサービス

Z会: 小学生から高校生、大学受験生まで幅広い層に対応した通信教育の老舗。映像授業と丁寧な添削指導が特徴です。
進研ゼミ: ベネッセが提供する、小・中・高校生向けの通信教育。タブレット学習やAIを活用した個別最適化された学習が強みです。
東進ハイスクール在宅受講コース / 東進オンライン学校: 有名講師による質の高い映像授業が特徴。大学受験に強いです。
学研プライムゼミ: 高校生・浪人生向けのハイレベルな映像授業が中心。難関大学対策に特化しています。
河合塾One: 河合塾が提供するオンライン学習サービスで、短時間で手軽に学べるコンテンツが特徴です。

AI学習・個別最適化に特化したサービス

アタマプラス (atama+): AIが生徒の理解度に合わせて最適なカリキュラムを生成し、個別指導のように学習を進められるサービスです。塾や学校への導入も進んでいます。
すらら: AIが生徒の学習状況を分析し、最適な問題を提供。特に苦手克服や学習習慣の定着に力を入れています。無学年式なので、さかのぼり学習も可能です。
スマイルゼミ: タブレットを活用した小・中学生向けの通信教育。AIが学習状況に合わせた問題を出題し、定着を促します。

資格取得・ビジネススキル系のオンライン学習サービス

Schoo (スクー): ビジネススキルやITスキルなど、幅広い分野のオンライン授業をライブ配信や録画で提供しています。
Udemy (ユーデミー): 世界中の講師が様々な分野の講座を販売しているプラットフォーム。買い切り型で、セール時には大幅割引もあります。
スタディング: 簿記やITパスポートなど、資格取得に特化したオンライン講座を多数提供しています。
ユーキャン / ヒューマンアカデミー / 資格のキャリカレ / フォーサイトなど: 各種資格取得に特化した通信講座を提供しています。

その他

N予備校: KADOKAWAとドワンゴが運営する、高校生向けのオンライン学習サービス。多様な講座やプログラミング学習もできます。
Classi (クラッシー): 学校で導入されていることが多い学習支援プラットフォームで、学習動画やドリルなどが提供されます。

自分で調べるより本当にチャットAIで調べたほうが早いですね便利です、ちなみに生成AIに勉強を教えてもらうという方法もあるようです、自分もある程度身についたらそういう方向にシフトしていくつもりでいますが、何せ土台がガタガタなのでお金をかけて勉強をしようと思っています.

明日へ続く

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2025年07月04 07:00日

タグ

```, アカデミー, アタマ, アプリ, いくつ, オンライン, お金, ガタガタ, カテゴリー, カリキュラム, キャリカレ, クラッシー, コース, こと, コンテンツ, サービス, サブスク, サン, シフト, スキル, スクー, スタディサプリ, スタディング, スマイル, スマホ, セール, セミ, その他, たくさん, タブレット, チャット, つもり, とき, ドリル, ドワンゴ, ハイスクール, ハイレベル, パスポート, ビジネス, ヒューマン, フォーサイト, プライム, プラス, プラットフォーム, プログラミング, ベネッセ, ほう, みたい, もの, ユーキャン, ユーデミー, よう, ライブ, レベル, 丁寧, 下記, 世界中, 中心, 予備校, 代表, 以外, 便利, 個別, 克服, 内容, 出題, 分析, 分野, 割引, 勉強, 動画, 取得, 受講, 受験, 受験生, 可能, 各種, 向け, 問題, 土台, 在宅, 多数, 多様, 大学, 大幅, 大手, 学年, 学校, 学研, 学習, 定着, 対応, 対策, 対象, 導入, 小・中学生, 小学生, 年齢, 強み, 手軽, 指導, 挫折, 授業, 提供, 支援, 教育, 方向, 方法, 明日, 映像, 最適, 有名, 東進, 検討, 様々, 河合塾, 活用, 浪人, 添削, 特徴, 状況, 理解, 生徒, 生成, 目的, 短時間, 簿記, 結果, 習慣, 老舗, 考え, 自分, 自身, 苦手, 英語, 講師, 講座, 販売, 資格, 返答, 通信, 運営, 選択肢, 配信, 録画, 難関, 面倒, 類似, 高校生,

Llama-3-ELYZA-JP-8Bとは何か？モデルという奴です.

2025.07.03

Logging

おはようございます.Llama-3-ELYZA-JP-8Bは、MetaのLlama 3（8Bパラメータ）をベースに、日本語の指示応答能力を強化するためELYZAがファインチューニングした日本語特化型の大規模言語モデルです。

ではモデルとは何か？モデルとは、データからパターンやルールを学習し、新しい入力に対して予測や生成を行うための数学的・計算的な仕組みやプログラムのことです。

今回、自分が試したのはLlama-3-ELYZA-JP-8Bの一番軽量ものを試してみました.軽量すぎてたまに回答が無限ループに陥ることがあります.これはカーソル（cursor）やディビン系でも無限ループに陥ることがあるらしいです.俗に言うトークン食いですね.

トークン食いが一度発生すると次のプロンプトにも影響が出る場合があるので、一度離脱して再度プロンプトを投げることで回避出来るようです.

因みにモデルをCPUで動かしたい場合は、llama.cpp で動かすようにするのだけど、既存のモデルをggufに一度、変換してあげる必要があります.そうすることでグラボが貧弱でも動きます.

明日へ続く

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2025年07月03 07:00日

タグ

カーソル, グラボ, クン, こと, これ, ため, データ, ディビン, トー, パターン, パラメータ, ファインチューニング, プログラム, プロンプト, ベース, モデル, もの, よう, ループ, ルール, 一番, 予測, 今回, 仕組み, 入力, 回答, 回避, 場合, 変換, 学習, 強化, 影響, 必要, 応答, 指示, 数学, 既存, 日本語, 明日, 無限, 生成, 発生, 能力, 自分, 規模, 言語, 計算, 貧弱, 軽量, 離脱, 食い,

AIで今後どうなるだろうな.自然言語処理で指示出し出来てきた今日.

2025.07.01

Logging

おはようございます.何だか梅雨明けした休日にGeminiCliでコードを生成しています.仕事ではまだ自分はChatに分からない事を質問するぐらいの事しかしていないのだけども絶対にCliなどで作業すると時間短縮になるのは間違いです（仕事でも導入しているのですが自分は使用していない）.

休日に作業するときはコパイロットとGeminiを使用して開発しているのです、どちらも無料版なのだけど自分は無料板で事足りています.

因みにコパイロットとGemini、どちらが優秀かという問いに関しては今のところコパイロットの方が優秀なソースコードを書いてくれるというイメージが強いです.有料版ではカーソルやデビィンなどが優秀らしいけども余裕資金があんま無いので試していない.

お金に余裕があればいろいろと試したいことはあります.例えばグラボ（グラフィックボード）を取り替えて機械学習の学習をローカルで試してみたいなどがあります.

この頃思うのだけど、何かとこの業界は移り変わりが激しいのと新しい技術を学ぶときにたまに技術投資が必要になります.昔はオープンソース的な感じだったけどこのIT業界ビックテックはお金を取り出して来ています.

その中でMETA社？だけがオープンソースでいろいろと提供してくれていてとても有り難いです.それでもやっぱそれを動かす端末の推奨環境という物があるので古いPCだと動かなかったりします.

今後、Llm（大規模言語モデル）は容量が小さくなっていくということとローカル端末で動かすのが当たり前になる時代が来るそうです.

明日へ続く

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2025年07月01 07:00日

タグ

あんま, イメージ, オープン, お金, カーソル, グラフィック, グラボ, コード, こと, コパイロット, ソース, そう, それ, たま, デビィン, とき, ところ, どちら, ビックテック, ボード, みたい, モデル, ローカル, 今後, 仕事, 休日, 余裕, 作業, 使用, 優秀, 問い, 学習, 容量, 導入, 当たり前, 必要, 感じ, 技術, 投資, 推奨, 提供, 明け, 明日, 時代, 時間, 有料, 梅雨, 業界, 機械, 無料, 環境, 生成, 短縮, 移り変わり, 端末, 絶対, 自分, 規模, 言語, 資金, 質問, 開発, 間違い,

Photo by Victor Dunn on Pexels.com

AIで記事を学習して新たな記事を生み出すにはお金が必要だと思っていたがそうでも.

2025.06.22

Logging

おはようございます.AIで記事を学習して新たな記事を生み出すにはお金が必要だと思っていたがそうでもなくローカルPCでそこら辺に落ちているLlamaモデルを持ってきてチューニングすれば何とかなるじゃねぇという思いに至った.

実はあなたの手元にあるPCと、そこら中に「落ちている」オープンソースのAIモデル、特にLlama 3があれば、十分記事が生成できるんです。

ローカルAI記事生成は、もはや夢物語じゃない

「AIで記事生成」と聞くと、SFのような世界や、大企業だけが使える特権のように感じるかもしれません。しかし、今は違います。オープンソースの強力な言語モデル、特にMetaが公開したLlama 3の登場は、この常識を大きく覆しました。

Llama 3は、その性能の高さにもかかわらず、誰でも無料で利用できるという点が最大の魅力です。さらに、80億パラメータの8Bモデルであれば、最新のゲーミングPCとまではいかなくとも、ある程度の性能を持つPCであれば十分に動作します。これにより、高額なクラウドサービスを利用せずとも、自分のPCでAI記事生成の環境を構築することが現実的になりました。

なぜLlama 3があなたのPCと相性抜群なのか？

Llama 3がローカルPCでの記事生成に適している理由はいくつかあります。

完全無料のオープンソース: 利用に費用がかからないため、予算を気にせずAIを試したり、本格的に導入したりできます。
選べるモデルサイズ: Llama 3には様々なサイズのモデルがあり、PCのスペックに合わせて選べます。特に8Bモデルは、個人利用に最適なバランスを持っています。
活発な開発者コミュニティ: 世界中の開発者がLlama 3を使った新しいツールや効率的なチューニング方法を日々共有しています。困ったときには助けを借りられる心強い味方です。
「量子化」でさらに軽量に: モデルのサイズを大幅に小さくする「量子化」という技術を使えば、より少ないメモリでLlama 3を動かせるようになります。これにより、より多くのPCで利用の道が開けます。

あなたのPCを「記事生成マシン」に変える秘訣

もちろん、いきなりプロのライター並みの記事をAIに書かせるのは難しいかもしれません。しかし、ちょっとした工夫で「何とかなる」レベルの記事生成は十分に可能です。

少量のデータでファインチューニング: 大量の記事データは不要です。あなたが書きたい記事のテーマやスタイルに合った、質の良い記事を数十〜数百程度集めてLlama 3を学習（ファインチューニング）させれば、その分野に特化した記事生成能力が格段に向上します。
プロンプト（指示文）の工夫: AIへの「指示の出し方」は非常に重要です。具体的で明確なプロンプトを与えることで、チューニングが完璧でなくても、驚くほど質の高い記事が生成できます。これはまるで、優秀なアシスタントに的確な指示を出すようなものです。
効率的な学習方法の活用: 「LoRA（Low-Rank Adaptation）」のような効率的なファインチューニング手法を使えば、少ないGPUメモリでも短時間でモデルを特定のタスクに最適化できます。

あなたの創造性が、今、AIで加速する

かつては一部の専門家や企業にしか手の届かなかったAIによる記事生成が、今やあなたのPCで実現できる時代になりました。これはまさにAI技術の「民主化」です。

とまぁそういう訳なので何とかしてみますが、ファインチューニングにどれぐらい時間がかかるのかが未知数だったりする.

ファインチューニングPythonコード

以下のPythonコードは、Llama 3モデルをロードし、提供されたテキスト記事でファインチューニング（LoRA使用）を実行し、結果を保存します。上記の入力値は、このコードに自動的に反映されます。このコードをPythonファイル（例: `finetune_llama.py`）として保存し、実行してください。

import os
import torch
from datasets import load_dataset
from transformers import AutoTokenizer, AutoModelForCausalLM, BitsAndBytesConfig, TrainingArguments, Trainer
from peft import LoraConfig, get_peft_model, prepare_model_for_kbit_training, TaskType

# GPUの利用可能性を確認
print("GPUが利用可能か確認中...")
if not torch.cuda.is_available():
    print("GPUが見つかりません。Fine-tuningにはGPUが強く推奨されます。")
    # GPUがない場合は、ここでスクリプトを終了するか、CPUモードで続行するか選択できます。
    # exit("GPUがないため終了します。")
else:
    print(f"GPUが利用可能です: {torch.cuda.get_device_name(0)}")

# --- 1. モデルとトークナイザーのロード ---
# Llama 3モデルのパスを指定します。Hugging Faceのモデル名（例: "meta-llama/Llama-3-8B"）
# またはローカルにダウンロードしたモデルのパスを指定してください。
MODEL_NAME = "meta-llama/Llama-3-8B" # ユーザーが入力したパスがここに挿入されます

print(f"モデルとトークナイザーをロード中: {MODEL_NAME}")

# 4bit量子化設定 (GPUメモリの節約に役立ちます)
# bnb_4bit_compute_dtypeは、Ampere以降のNVIDIA GPUに推奨されるbfloat16を使用しています。
bnb_config = BitsAndBytesConfig(
    load_in_4bit=True,
    bnb_4bit_use_double_quant=True,
    bnb_4bit_quant_type="nf4", # NF4 (NormalFloat4) 量子化タイプ
    bnb_4bit_compute_dtype=torch.bfloat16 
)

# トークナイザーをロード
tokenizer = AutoTokenizer.from_pretrained(MODEL_NAME, trust_remote_code=True)
# Llama 3はデフォルトでbos_tokenを付与しないことがあるため、明示的に追加。
# また、padding_side='right'はLlamaモデルに推奨される設定です。
tokenizer.pad_token = tokenizer.eos_token
tokenizer.padding_side = "right"

# モデルをロードし、量子化設定を適用し、自動的にGPUにマッピングします。
model = AutoModelForCausalLM.from_pretrained(
    MODEL_NAME,
    quantization_config=bnb_config,
    device_map="auto", # 利用可能なデバイス（GPU）に自動的にモデルを分散
    trust_remote_code=True # リモートコードの実行を許可
)
print("モデルロード完了。")

# k-bit学習用にモデルを準備 (PEFTライブラリのため)
# gradient_checkpointingを有効にすることで、メモリ使用量をさらに削減できます。
model.gradient_checkpointing_enable()
model = prepare_model_for_kbit_training(model)
print("k-bit学習用にモデルを準備しました。")

# --- 2. データセットの準備 ---
# あなたのテキスト記事ファイルが格納されているディレクトリを指定します。
# 例: 'your_article_data/' の中に 'article1.txt', 'article2.txt', ... と置かれている場合
DATA_DIR = "./your_article_data/" # ユーザーが入力したパスがここに挿入されます

print(f"データセットをロード中: {DATA_DIR}")

# 'text'形式でデータセットをロードします。指定されたディレクトリ内のすべての.txtファイルを読み込みます。
# 各ファイルが1つのエントリとして扱われます。
try:
    dataset = load_dataset('text', data_files={'train': os.path.join(DATA_DIR, '*.txt')})
    print(f"データセットのサンプル数: {len(dataset['train'])}")
except Exception as e:
    print(f"データセットのロード中にエラーが発生しました。ディレクトリとファイル形式を確認してください: {e}")
    exit("データセットロード失敗。")

# データセットをトークン化する関数
# 長い記事をモデルの最大入力長に分割します。
def tokenize_function(examples):
    # Llama 3の最大入力長は通常8192ですが、お使いのGPUのVRAMに合わせて調整してください。
    # ここでは一般的な値として2048を設定しています。
    max_length = 2048 
    # truncate=Trueで最大長を超えるテキストを切り捨てます。
    return tokenizer(examples["text"], truncation=True, max_length=max_length)

# データセットをトークン化します。
# num_procはCPUコア数に応じて並列処理を行い、処理を高速化します。
tokenized_dataset = dataset.map(
    tokenize_function,
    batched=True,
    num_proc=os.cpu_count(),
    remove_columns=["text"] # 元のテキスト列は学習に不要になるため削除します。
)
print("データセットのトークン化が完了しました。")

# --- 3. PEFT (LoRA) の設定 ---
# LoRA (Low-Rank Adaptation) は、元のモデルの重みをフリーズし、
# 小さなアダプター層を追加して学習させることで、効率的にファインチューニングを行います。
# これにより、GPUメモリの使用量を抑えつつ、高い性能を実現できます。
lora_config = LoraConfig(
    r=16, # LoRAのランク。値を大きくすると表現力が増すが、メモリ消費も増える。
    lora_alpha=32, # LoRAのスケーリング係数。rの2倍程度が推奨されることが多いです。
    target_modules=["q_proj", "k_proj", "v_proj", "o_proj", "gate_proj", "up_proj", "down_proj"], # LoRAを適用する層。Llamaモデルで一般的な層。
    bias="none", # バイアスを学習しない設定。
    lora_dropout=0.05, # ドロップアウト率。過学習を防ぐために設定します。
    task_type=TaskType.CAUSAL_LM, # タスクタイプを因果言語モデルに設定。
)

# モデルにLoRAアダプターを追加します。
model = get_peft_model(model, lora_config)
print("モデルにLoRAアダプターを適用しました。")
model.print_trainable_parameters() # 学習可能なパラメータ数を確認します。

# --- 4. 学習の実行 ---
# 学習済みモデルを保存するディレクトリ
OUTPUT_DIR = "./llama3_finetuned_model/" # ユーザーが入力したパスがここに挿入されます

# 学習の設定
training_args = TrainingArguments(
    output_dir=OUTPUT_DIR,
    num_train_epochs=3, # エポック数。データセットのサイズと希望する精度に応じて調整してください。
    per_device_train_batch_size=1, # GPUあたりのバッチサイズ。VRAMが少ない場合は1に設定。
    gradient_accumulation_steps=4, # 勾配を蓄積するステップ数。実質的なバッチサイズは per_device_train_batch_size * gradient_accumulation_steps になります。
    optim="paged_adamw_8bit", # 8bit AdamWオプティマイザを使用し、メモリ効率を向上させます。
    save_steps=500, # 500ステップごとにモデルを保存します。
    logging_steps=100, # 100ステップごとにログを出力します。
    learning_rate=2e-4, # 学習率。
    fp16=True, # 混合精度学習を有効化 (GPUが対応している場合)。VRAM削減と高速化に寄与します。
    max_steps=-1, # num_train_epochsに基づいて学習します。
    group_by_length=True, # 同じ長さのシーケンスをグループ化し、パディングを削減します。
    lr_scheduler_type="cosine", # 学習率スケジューラーのタイプ。
    warmup_ratio=0.03, # ウォームアップ比率。
    report_to="none", # レポート先を指定しない (wandbなどを使用しない場合)。
)

# トレーナーの初期化
# data_collatorは、モデルの入力形式に合わせてデータを整形します。
trainer = Trainer(
    model=model,
    train_dataset=tokenized_dataset["train"],
    args=training_args,
    data_collator=lambda data: {
        'input_ids': torch.stack([f['input_ids'] for f in data]),
        'attention_mask': torch.stack([f['attention_mask'] for f in data]),
        'labels': torch.stack([f['input_ids'] for f in data]), # 因果言語モデルでは、入力自体がラベルとなります。
    },
)

# 学習の開始
print("Fine-tuningを開始します...")
trainer.train()
print("Fine-tuningが完了しました。")

# --- 5. 学習済みモデルの保存 ---
# LoRAアダプターのみを保存します。これにより、ファイルサイズが小さく、効率的に管理できます。
trainer.save_model(OUTPUT_DIR)
print(f"学習済みLoRAアダプターが '{OUTPUT_DIR}' に保存されました。")

# 保存したアダプターを使って推論を行う方法の例 (コメントアウトされています):
# このコードは、ファインチューニング後にモデルをロードして推論を行うための参考例です。
# from peft import PeftModel
#
# # 元のモデルをロード (学習時と同じ量子化設定を使用します)
# base_model = AutoModelForCausalLM.from_pretrained(
#     MODEL_NAME,
#     quantization_config=bnb_config,
#     device_map="auto",
#     trust_remote_code=True
# )
#
# # 保存したLoRAアダプターを元のモデルに結合します。
# peft_model = PeftModel.from_pretrained(base_model, OUTPUT_DIR)
#
# # 推論モードに設定します。
# peft_model.eval()
#
# # テキスト生成の例
# prompt = "ローカルPCでのLlama 3ファインチューニングの利点とは"
# inputs = tokenizer(prompt, return_tensors="pt").to("cuda") # 入力をGPUに移動
#
# with torch.no_grad(): # 勾配計算を無効化し、メモリ使用量を削減
#     outputs = peft_model.generate(
#         **inputs,
#         max_new_tokens=200, # 生成する新しいトークンの最大数
#         do_sample=True, # サンプリングによる生成を有効化
#         top_p=0.9, # Nucleusサンプリングの閾値
#         temperature=0.7, # 生成の多様性を制御する温度
#         eos_token_id=tokenizer.eos_token_id # 終了トークンID
#     )
# print("\n--- 生成されたテキスト ---")
# print(tokenizer.decode(outputs[0], skip_special_tokens=True))

明日へ続く

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2025年06月22 07:00日

タグ

```, ;;）, )。, アウト, アシスタント, アダプター, あたり, アップ, あなた, いくつ, ウォーム, エポック, エラー, エントリ, オープン, オプティマイザ, お金, クラウドサービス, グループ, クン, ゲーミング, コード, コア, ここ, こと, コミュニティ, コメント, これ, サイズ, サンプリング, サンプル, シーケンス, スクリプト, スケーリング, スケジューラー, スタイル, ステップ, スペック, すべて, ソース, そこら, タイプ, ダウンロード, タスク, ため, チューニング, ツール, データ, データセット, テーマ, ディレクトリ, テキスト, デバイス, デフォルト, トー, トークナイザー, とき, どれ, トレーナー, ドロップ, バイアス, パス, バッチ, パディング, パラメータ, バランス, ファイル, ファイルサイズ, ファインチューニング, ファインチューニングコード, フリーズ, プロ, プロンプト, マシン, マッピング, メモリ, モード, モデル, もの, ユーザー, よう, ライター, ライブラリ, ラベル, ランク, リモート, レベル, レポート, ローカル, ロード, ログ, 一般, 一部, 上記, 不要, 世界, 世界中, 並み, 並列, 予算, 付与, 以下, 以降, 企業, 使い, 使用, 係数, 保存, 個人, 優秀, 入力, 公開, 共有, 具体, 処理, 出力, 分割, 分散, 分野, 初期, 利点, 利用, 制御, 削減, 削除, 創造, 加速, 助け, 効率, 動作, 勾配, 十分, 参考, 反映, 可能, 向上, 味方, 因果, 場合, 多様, 夢物語, 大幅, 大量, 失敗, 学習, 完了, 完全, 完璧, 実現, 実行, 実質, 寄与, 対応, 専門, 導入, 少量, 工夫, 希望, 常識, 強力, 形式, 必要, 思い, 性能, 手元, 手法, 技術, 抜群, 指定, 指示, 挿入, 推奨, 推論, 提供, 整形, 新た, 方法, 日々, 明日, 明確, 明示, 時代, 時間, 最大, 最新, 最適, 有効, 未知数, 本格, 格段, 格納, 構築, 様々, 比率, 民主, 活用, 活発, 消費, 混合, 済み, 温度, 準備, 無効, 無料, 特定, 特権, 現実, 理由, 環境, 生成, 発生, 登場, 的確, 相性, 短時間, 確認, 秘訣, 移動, 程度, 管理, 節約, 精度, 終了, 結合, 結果, 続行, 能力, 自体, 自分, 自動的, 蓄積, 表現, 言語, 計算, 記事, 設定, 許可, 調整, 費用, 軽量, 追加, 通常, 適用, 選択, 重み, 重要, 量子, 開始, 開発, 関数, 閾値, 非常, 高速, 高額, 魅力,

強制アプリ開発します.8月半ばまでに作らないとアカウントが停止.

2025.06.12

Logging

おはようございます.強制的にアプリ開発します.8月半ばまでに作らないとアカウントが停止されるので解除条件として定義されている、既存のアプリをアップデートさせるか、新たなアプリをリリースするか.

既存のアプリは非公開にしているので自分の場合、無条件で何でも良いのでアプリをひとつリリースの選択肢しかない.

Publishing to Google Play Store · React Nativehttps://t.co/qMdYkOfCYd
— 田岡寿章(taoka_toshiaki) (@taoka_toshiaki) June 9, 2025

まだ一ヶ月ぐらい先なので余裕はあるものの、アイデアが出ないので今の既存のサービスをアプリ化しようと思っています.

今回は広告掲載とか出来ればしたいなと思っているのだけども審査を通過するかは未知数ですね.ちなみに今回はReact Nativeで作ろうと思っています.少しだけReactを触ったことがあるのでReactNativeは開発するに当たって学習コストがかなり低いという事もありリアクトネイティブで開発します.

明日へ続く

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2025年06月12 07:00日

タグ

アイデア, アカウント, アップデート, アプリ, ヶ月, コスト, こと, サービス, ひとつ, リアクトネイティブ, リリース, 今回, 余裕, 停止, 半ば, 場合, 学習, 定義, 審査, 広告, 強制, 掲載, 新た, 既存, 明日, 未知数, 条件, 無条件, 自分, 解除, 通過, 選択肢, 開発, 非公開,

AIレコメンド機能を乗せれるかもしれない.VPSだから微妙 #TFIDFベクトライザ

2025.06.03

Logging

おはようございます.AIレコメンド機能を乗せれるかもしれないけど無理かもしれないということで、まだ試してはいないのだけど機械学習で学習済みのモデルをVPSに乗せ動かすことが出来れば、AIレコメンド機能が出来そうです.

いまある記事のデータのタグ付け部分をTF-IDFベクトライザの学習させれば案外簡単に学習させることが出来そうなので生成AIにコードを書いてもらいました.

尚、この方法はECサイトの商品のレコメンド機能にも同じような感じでデータを与えるとレコメンドしてくれたりします.

最後にPythonコードを貼っときます.VPSサーバで再学習できれば良いだけども難しいかもしれない、、、.

import pickle
import os

from sklearn.feature_extraction.text import TfidfVectorizer
from sklearn.metrics.pairwise import cosine_similarity
import pandas as pd

# モデル保存ファイル名
MODEL_PATH = "tfidf_vectorizer.pkl"  # TfidfVectorizer
DATA_PATH = "article_tags.pkl"       # 記事IDとタグ

# 類似度モデル構築（再学習対応）
def build_similarity_model(article_tags_input, save_model=True, retrain=False):
    # 再学習時は既存データを読み込んで結合する
    if retrain and os.path.exists(DATA_PATH):
        with open(DATA_PATH, "rb") as f:
            existing_data = pickle.load(f)
        existing_data.update(article_tags_input)  # 新しいデータを追加
        article_tags_input = existing_data

    article_ids = list(article_tags_input.keys())
    processed_corpus = [" ".join(tags) for tags in article_tags_input.values()]

    # 再学習またはモデル未保存時に新たにモデルを学習・保存
    if retrain or not os.path.exists(MODEL_PATH):
        vectorizer = TfidfVectorizer()
        tfidf_matrix = vectorizer.fit_transform(processed_corpus)

        if save_model:
            with open(MODEL_PATH, "wb") as f:
                pickle.dump(vectorizer, f)  # ← ここでモデルを保存
            with open(DATA_PATH, "wb") as f:
                pickle.dump(article_tags_input, f)  # ← ここで元データを保存

    else:
        # 保存済みモデルを使って変換する
        with open(MODEL_PATH, "rb") as f:
            vectorizer = pickle.load(f)
        tfidf_matrix = vectorizer.transform(processed_corpus)

    cosine_sim_matrix = cosine_similarity(tfidf_matrix)
    cosine_sim_df = pd.DataFrame(cosine_sim_matrix, index=article_ids, columns=article_ids)

    return cosine_sim_df, article_ids

# 類似記事を取得する関数
def get_recommendations(article_title, similarity_matrix, articles_map, top_n=3):
    if article_title not in articles_map:
        print(f"エラー: 記事 '{article_title}' が見つかりません。")
        return []

    sim_scores = list(enumerate(similarity_matrix[article_title]))
    sim_scores = sorted(sim_scores, key=lambda x: x[1], reverse=True)

    recommended_articles = []
    for i, score in sim_scores:
        if articles_map[i] != article_title and len(recommended_articles) < top_n:
            recommended_articles.append((articles_map[i], score))
        if len(recommended_articles) >= top_n:
            break

    return recommended_articles

# 入力記事データ ( 例 )
article_tags_input = {
    "記事1": ["Python", "機械学習", "データサイエンス"],
    "記事2": ["Python", "Web開発", "Django"],
    "記事3": ["機械学習", "自然言語処理"],
    "記事4": ["データサイエンス", "統計学"],
    "記事5": ["Python", "データサイエンス", "可視化"]
}

# 類似度モデル構築 + モデル保存 ( 初回学習 )
cosine_sim_df, article_ids = build_similarity_model(article_tags_input)

# 使用例
target_article = "記事1"
recommendations = get_recommendations(target_article, cosine_sim_df, article_ids, top_n=2)
print(f"\n「{target_article}」へのおすすめ記事 ( 上位2件 ):")
for article, score in recommendations:
    print(f"- {article} (類似度: {score:.4f})")

# 新しい記事を追加して再学習
new_article_id = "記事6"
new_article_tags = ["Python", "統計学"]
article_tags_input = {new_article_id: new_article_tags}

# 再構築＋再学習
cosine_sim_df, article_ids = build_similarity_model(article_tags_input, retrain=True)
target_article = new_article_id
recommendations = get_recommendations(target_article, cosine_sim_df, article_ids, top_n=2)
print(f"\n「{target_article}」へのおすすめ記事 ( 上位2件 ):")
for article, score in recommendations:
    print(f"- {article} (類似度: {score:.4f})")

明日へ続く

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2025年06月03 07:00日

タグ

エラー, コード, サーバ, タグ, データサイエンス, ベクトライザ, レコメンド機能, 上位件, 初回学習, 学習, 学習済み, 既存データ, 最後, 機械学習, 統計学, 自然言語処理, 良いだけ, 関数, 類似度, 類似度モデル構築,

生成AIって著作権違法行為している？．あながち．

2024.06.17

Logging

おはようございます、アメリカも中国も生成AIの学習でかなり著作違反している気がしてならないけど権力があるので押し切れている気がします．これが日本が開発したものだったら他の国から圧力がかかって何も作れなかったんじゃないかと思うですよね．

￣￣￣￣￣￣￣￣￣￣￣￣
プラグスーツ娘 / PLUGSUITGIRL

「おはよ！」
＿＿＿＿＿＿＿＿＿＿＿＿ pic.twitter.com/enlv0IJQdk
— てんねん (@munou_ac) June 13, 2024

日本の生成AIが弱いのは、正規のルートで学習させているからだと思います．もし正規のルートで品質の良いものを作れたら日本はワンチャンスあるじゃないかなって思うですよね．

生成AIは衝撃的だったけども、いまはもう人が慣れてきている感が強いですし、ちょっと生成AIの進化も鈍化してきている感じがします．これから生成AIは各国の規制強化によりあまり飛躍的に進化はしないと思っていて、シンギュラリティは来ないじゃないかと思います．

ムーアの法則のようなことは起きそうにない、理由は生成AIとCPUでは違いがあり生成AIはソフトであり複雑系でもある、一方でCPUは物理的なものでソフトからすると単純なものであり人が理解しているものであるからムーアの法則が成り立ったと思っています．

シンギュラリティは夢があるしそうなったら面白そうだけども、現実は理想の斜め横ぐらいになるのでSFの世界は数百年先の話かも知れないです．

明日へ続く．

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2024年06月17 06:00日

タグ

CPU, SF, アメリカ, シンギュラリティ, ムーア, ルート, 一方, 各国, 品質, 圧力, 学習, 権力, 横, 法則, 現実, 理想, 生成AI, 複雑系, 規制強化, 進化,

Photo by Ylanite Koppens on Pexels.com

chatGPTとひきこもり．

2024.05.19

Logging

おはようございます、生成AIによって学校いかなくても学べる時代になってきている．IQが高くて学校で学習するのが退屈だと感じている子供達はこれからchatGPTなどの生成AIを使用して学習しだすのかもしれないと感じました．そう感じさせた動画は下記になります、生成AIの進化は凄いなって思いますが、ここから飛躍するのが今後の課題なのかもしれないですね．

person wearing gray nike shoes — Photo by Rafa De on Pexels.com

学習の手助けするのも凄いなって思いますが、生成AIと生成AIの会話が凄く奇妙な感じがしました、まさにSFの世界が現実になった瞬間なのかもしれない．今回のOpenAIの発表は結構衝撃的な内容でしたね😌

明日へ続く．

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2024年05月19 06:00日

タグ

ChatGPT, IQ, OpenAI, Photo by Rafa De on Pexels.com, SF, 下記, 世界, 会話, 動画, 子供達, 学校, 学習, 感じ, 時代, 現実, 生成AI, 発表, 瞬間, 課題, 進化,

Photo by fauxels on Pexels.com

フルリモートでは隙間時間が

2024.01.28

Logging

おはようございます、フルリモートでは隙間時間が生まれます。皆さんはその時間をどのように使用しているのでしょうか？、自分が勤めている会社では自主学習しても良いよって話なので学習に当てていますが、皆さんはどのような事をしているのか気になります。

今のところ自宅でリモートしか経験がないのですが、よくXのタイムラインなどを見ると喫茶やコワーキングスペースを使用してリモートのお仕事をしている人を見かけます。高知県にもコワーキングカフェがあるのですが一度も使用したことがないです。

自分が知っている高知県のコワーキングカフェは次の通りです、カフェノバ、KSB（高知スタートアップベース）です、その他にもあると思いますが自分は知りません。普通にカフェを使用してリモートワークされている方もいらっしゃるようです。自分もたまには環境を変えてお仕事をしてみたいなと思います。

明日へ続く。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2024年01月28 06:00日

タグ

KSB, X, カフェ, カフェノバ, コワーキングカフェ, コワーキングスペース, その他, タイムライン, フルリモート, リモート, 喫茶, 学習, 引用元, 皆さん, 経験, 自主, 通り, 隙間時間, 高知スタートアップベース, 高知県,

laravelの次はvue.jsとTypeScript。 #Vue

2022.12.28

Logging

おはようございます、予約投稿を忘れていま書いています😅。

先日までLaravel入門書で再学習をしていましたが、昨日の夕方からvue.jsとTypeScriptなどのお勉強をしています。参考にしている本は「これからはじめる人のJavaScript/Vue.jsの教科書」という本です。

昨日、ペラペラと本を読みつつ進めていたのですが、JavaScriptの基本的な部分は自分は大丈夫ぽっいので、今日からTypeScriptの学習へ入り数日でVue.jsへ進めそうな気がします。

年末年始なので、時間配分が難しいので、正月はお酒を飲みつつ学習するとかあるかもですが、基本的な入門書をサクサクっと進めていきたいと思います。

尚、学習している内容はGithubにアップしていってます😄。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年12月28 06:33日

タグ

github, javascript, Laravel入門書, TypeScript, vue.js, お酒, 予約投稿, 入門書, 内容, 再学習, 参考, 夕方, 学習, 年末年始, 教科書, 時間配分, 本, 正月, 部分,

Photo by Pixabay on Pexels.com

何気なく書いていた事が結構な確率で当たる。#未来予知 #高的中か？

2022.10.09

Logging

おはようございます、コロナが収まりそうなのに戦争はまだ収まりそうにないです。ロシアは領土を奪って何得なんでしょうか。意味が分かりません。

さて、過去のブログ記事を定期的に見たり修正したりしています。これを行う理由は一つだけ意味不明な文章表現があり本人しか意味がわからないモノが存在します。その為、定期的に変な文章は直したりしています。

毎日書けば文章力や表現力は、どんな人でもUPします。泥臭いことですが技術力を上げようと思ったらひたすら真っすぐ頑張るしか無いです。必要な知識は日々の勉強でしか埋め合わせは出来ないです、技術や知識を身につける方法はひたすら覚える事から始まります。覚えて基礎が身につけば応用学習するその反復を行って身につく。この方法しかなく脳にデータをインストールは今のところ出来ない、記憶力は人それぞれなので、身につく事が早い人と遅い人がいるけれど反復学習をすれば身につきます（脳に障害がある人は難しいけども）。

タイトルの話になりますが、結構な確率で自分の未来予想があたっているなって最近思います。特に科学的な進歩や社会にどう浸透していくなどは、結構、的を得た予想をしているなと自画自賛😐。未来予測が当たっても何の得にもならないけれどもアタルのは良いことです。

此処で一つ未来予想を書きます、昨日きな臭い記事の書いたけど、来年の夏までにはロシアVSウクライナの戦争は終わるじゃないかって思っています、なんかそんな気がします。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年10月09 06:00日

タグ

UP, インストール, こと, これ, コロナ, それぞれ, データ, ところ, ブログ, もの, ロシア, 一つ, 不明, 予知, 事, 人, 今, 修正, 勉強, 反復, 基礎, 変, 存在, 学習, 得, 必要, 応用, 意味, 戦争, 技術, 技術力, 文章, 文章力, 方法, 日々, 未来, 本人, 毎日, 為, 理由, 的中, 知識, 確率, 結構, 脳, 表現, 表現力, 記事, 記憶力, 身, 過去, 障害, 領土,

Photo by Abby Chung on Pexels.com

基本情報技術者試験ワード集と単語帳作りアプリで学習の下準備をする方法！ #FE #英語 #効率

2022.10.06

Logging

おはようございます、朝、３時半頃から起きています😪。

先日から英語の勉強をアプリではじめました、自分が使用しているのはモノグサというアプリです。このアプリをインストールしたのは二年前の話です、そのアプリを使用して効率良く英単語を覚えていってます、なんかよく分からないけど覚えて行けている🙄。

夜のピックアップモノグサというアプリ🙄
— 田岡寿章@taoka_toshiaki🦌 (@taoka_toshiaki) October 2, 2022

さて、それとは別に本題のお話です、単語帳作りアプリを使って基本情報技術者試験に出てくるワードを再学習しています。ワードの方は基本情報技術者試験ドットコムから引っ張ってきています、そのワードをCSV化してアプリに入れました。個人的に使用している分にはOKですが、これを公開や共有するとNGになりますので使用時はお気をつけてください🙇。

ワードを収取する方法はブラウザのコンソール画面に下記のコードを貼り付けて収集しました。
基本情報技術者試験ドットコムのキーワード集「あ」から「ん」までのリンクページをそれぞれ開きコンソール画面でコードを実行して、それをUTF8のファイルにペーストして一つのファイルにしてCSV保存。本当はnode.jsでコードを書いて実行でもしようかなと思っていたのですが、それすら面倒くさいと思ったので、こちらの地味な方法を選択しました。尚、行末に必要なカンマを追加して上げてくださいね🙄。

let s = [];
let $moji = function(m){
   return String(m).replace(/[\,|\n|'|"]/g," ");
};
Object.keys(document.querySelectorAll(".big")).forEach((e)=>{
    s[e] = "'" + $moji(document.querySelectorAll(".big")[e].innerText) + "'" + "," + "'" + $moji(document.querySelectorAll("ul > li > div > div")[e].innerText) + "'";
});
copy(s.join("\n"));

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年10月06 06:00日

タグ

３, CSV, FE, NG, OK, アプリ, インストール, お気, お話, キーワード, コード, これ, コンソール, それ, ドットコム, ブラウザ, モノグサ, ワード, 下準備, 下記, 二, 使用, 先日, 公開, 共有, 分, 効率, 勉強, 半, 単語帳, 収, 収集, 取, 基本, 学習, 情報, 技術者, 方, 方法, 朝, 本題, 画面, 自分, 英単語, 英語, 試験, 話,

Photo by Adam Fejes on Pexels.com

YOUTUBEで伸びそうな人の共通点は何だろうか？

2022.09.16

Logging

おはようございます、昨日は昼から雨でしたね、秋の雨はまだ良いけど冬の雨は辛いですね。

さてYOUTUBEを見ると、この人は伸びそうだなって思える人とこの人は伸びそうにないと思える人がいると思います、どういう作りにしたら再生回数が伸び、チャンネル登録者が増えるのか、この頃、分かってきた事があります。まず、容姿が良い人尚且つ声の良い人でサムネ画像と動画が綺麗だと伸びます。顔出しせずに声と映像が良い場合も再生回数は結構良いですね。

何だかよく分からないのですが、上記の質が良ければ、語っている内容がそれ程でも再生回数は良いです、そして学習系だと自分でも出来そうな事の方が伸びて難しいことは伸びない感じですね🤔。

駄目なのは、なんかスッキリしていない背景で何か語っている人は伸びない。どんなに良いことを言っていても再生回数は伸びないみたいです。特に汚い部屋より視聴者はオシャレな部屋を好むみたいです。自分の部屋が汚くても他人の部屋の汚い部屋を見たくないようです😌。

そういう所は食事と同じなのかも知れませんね。

因みに自分もYOUTUBEをたまにUPしていますが、サムネ画像も良くなく、滑舌悪いので突出してチャンネル登録数も伸びそうにありませんが、徐々に更新頻度をUPしていくかも知れません。今、考え中です、あとこの頃、コードを記事をあまり書いていませんが来週あたりから、所々に挟んでいきますので、よろしくお願い致します。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年09月16 06:00日

タグ

6, com, https, LWp, pOW, R-Q, watch, www, youtube, こと, サムネ, チャンネル, 上記, 事, 人, 何, 作り, 共通点, 内容, 再生, 冬, 動画, 回数, 場合, 声, 学習, 容姿, 感じ, 方, 映像, 昨日, 昼, 画像, 登録者, 秋, 綺麗, 背景, 自分, 質, 雨, 頃, 顔出し, 駄目,

Photo by Rodolfo Clix on Pexels.com

ヘンテコな学習ヘンテコな呟き😌。説明不足はいつものこと🤔

2022.09.13

Logging

おはようございます、夜中のほうが学習効率高いです🌃。

昨日、一つ出来そうなことを連続的につぶやいたので、それを皆さんが理解できる内容に文章としてまとめたいと思います。まず昨日の晩に下記のつぶやきをしました。これを追って何をしたいのかや何が理解できたのか、分かった方はこれから書くことを読まなくても良い人です。

こういうツールを自前して購入履歴までのデータやカゴ落ちしたデータを収集する。データを機械学習にかける。そのデータからサイト構造なんかを見直す。こういう事が出来るエンジニア増えてきている気がするけど？
問題はどれぐらいの容量が必要なのかという事ぐらいかな？
— 田岡寿章@taoka_toshiaki🦌 (@taoka_toshiaki) September 11, 2022

まず、次のアイディアが生まれました、アクセス解析を自前してサイトの訪問者の動向を事細かに蓄積する事は出来ないだろうか、もし出来たらどのような事が出来るだろうか🤔？考えた結果、ECサイトなら購入する確率、ページ推移の予測などが出来ること、ページ単位だとどの場所にどんなデザインを置けばクリック率が上がるのかなどそういう事が、アクセス解析のデータから割り出す事が出来るのではないかと。

次にページを可視化するには、どうすれば良いのだろうかという疑問。調べていくうちに隣接行列で可視化（数値化）出来ることがわかった。これからどうすれば予測出来るのだろうかと考えた結果。ページの可視化は隣接行列で表わすことが出来るが、今の自分ではココから予測データを導き出せないなと思い、隣接行列は可視化するために使おうと考えを改める。

では、どうすれば予測できるかを考察した。まず機械学習の予測にはどのような種類があるのか、どのようなデータを与えれば適切な予測を導き出すことが出来るのかを調査。最終的にランダムフォレストという手法で予測するのが今の自分でも出来そうな方法ではないかと判断に至った😌。

尚、機械学習で注意しないといけないのは過学習【過剰適合 / オーバーフィッティング】により上手く予測出来なることがあることを注意しないといけない。

そして思ったことは、自分でも出来そうだなって事🤐。もう機械学習は参考書を買わなくてもYOUTUBEやネットで調べれば、なんちゃって機械学習予測は出来るようになっているということ。後はどんなデータを機械に与えるか、そしてどれぐらい学習させるのか。そういう事が大事になってくる事を理解したのだった。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年09月13 06:00日

タグ

EC, アイディア, アクセス, いつも, うち, クリック, こと, これ, サイト, それ, データ, デザイン, ページ, ヘンテコ, 一つ, 下記, 予測, 事, 人, 何, 内容, 効率, 動向, 単位, 可視, 場所, 夜中, 学習, 推移, 数値, 文章, 方, 昨日, 晩, 次, 理解, 疑問, 皆さん, 確率, 結果, 自前, 蓄積, 行列, 解析, 訪問者, 説明, 購入, 隣接,

Photo by Pixabay on Pexels.com

効率が良いかって？一番効率が良いのは手を動かさないことですよ🙄。 #花形

2022.09.10

Logging

おはようございます。今日はどんより曇り空。

さて、NHKプロフェッショナルに真鍋大度さんが出てた時にNHKのスタッフさんが質問した回答をタイトルにしてみました。やってみたら分かると思いますが、プログラムってキラキラした仕事ではないですよ、何方かと言えば努力と労力がかかる世界です。好きでないと続かないという様な世界です。

スーパーオーシャンマン

因みにAIなどで花形職も当然、大変なお仕事ですそんなに簡単なものではない。機械学習で大事なのはデータなんですよ。それは手を動かしてやってみないと分からないこと。だからデータサイエンティストなんて職業が生まれたわけですからね。

追記して意味深な事を少し書いときます。昔から自分は見えないので俯瞰して見ないといけないとこれだけは心がけています。何故なら人の評価は当てにならないです、上手く行けばって話ですからね。上手くいっていない時に評価してくれていた人、そういう人に自分はなりたいと思います。人の批判ばかりは何とやらです。

最後にNHKプロフェッショナルの真鍋大度さんのアーカイブ載せときます。プロフェッショナル　仕事の流儀　「まず動け、未来はその先にある～プログラマー／アーティスト・真鍋大度」

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年09月10 07:12日

タグ

AI, NHK, オーシャン, お仕事, こと, これだけ, サイエンティスト, スーパー, スタッフ, それ, タイトル, データ, プログラム, プロフェッショナル, マン, もの, わけ, 世界, 事, 人, 今日, 仕事, 何方, 俯瞰, 努力, 労力, 効率, 回答, 大事, 大変, 大度, 学習, 少し, 手, 昔, 時, 曇り空, 機械, 真鍋, 簡単, 職業, 自分, 花形, 評価, 話, 質問, 追記,

機械学習は学習するのにどれぐらいのデータが必要？

2022.09.06

Logging

今日は大荒れ☔との事です、おはようございます。

８月の半ばにとある事情で機械学習で人の顔かどうかを判別させるモデルをTensorFlowで作ってみたのですが、結果、学習のデータが少なかったのが原因なのか分からないけども・・・。人工無能と言いたくなるほど無能な機械学習が出来上がりました。犬の画像を見せてもこれは人ですと判定してくれるので正直、ホントげんなりでした。

画像分類の作り方は簡単です、学習したいディレクトリとテスト用のディレクトリを作り、それぞれの階層に分類ディレクトリを設置し、その中に学習の画像データとテスト用の画像データを入れてサンプルコードをちょちょっと修正してテンソル（Pythonを実行）で学習してもらうだけです。

画像分類器を作る（機械学習ゼーロからヒーローへ – 第4部）

尚、自分のテストデータは100枚ほどしかなかったので、全然駄目な結果になりましたが３０００枚以上の画像データがあればちゃんとした判別が出来たのかも知れません。

スマホの顔認証は動画データを画像データー変換して学習させているのでしょうね。そうすれば数千枚の画像は生成出来ると思います。

例えばopencv-pythonなんかで画像変換するのが良さそうですよ。

pip install opencv-python

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年09月06 06:22日

タグ

100, 3000, 4, 8, Python, tensorflow, コード, これ, サンプル, ゼーロ, それぞれ, ちょ, データ, ディレクトリ, テスト, テンソル, どれぐらい, ヒーロー, ホント, モデル, 中, 事, 事情, 人, 人工, 今日, 作り方, 修正, 分類, 判別, 判定, 半ば, 原因, 器, 大荒れ, 学習, 実行, 必要, 機械, 正直, 無能, 犬, 画像, 簡単, 結果, 自分, 設置, 階層, 顔, 駄目,

Photo by eberhard grossgasteiger on Pexels.com

英語学習用、サイトを構築中。基本自分用（お裾分け😌）

2022.08.05

Logging

おはようございます。今日はウォーキングしてきましたよ。自分が歩いているのは超早期です（笑

作りかけ pic.twitter.com/pjStv5NgI2
— 田岡寿章@taoka_toshiaki🦌 (@taoka_toshiaki) August 4, 2022

さて、自分用に英語学習用サイトを構築中です（現在進行形）。主に単語を覚えるためだけのサイトです、毎日数十単語の入力しています。1800単語まで数日はかかりそうですが全部、手動で入れます。因みに自分が学習しているのは中学生レベルです。中学生の英語を網羅するには1800単語を覚えないといけないらしいです。その作業が終わって自分が1800単語を覚えたら次は高校生で覚える単語も別途ページを構えて作ろうと思っています。

因みにサイトはシンプルで自分にとっては効率が良い作りを追求しようと思っていますので、あまりごちゃごちゃしたサイトにはしないで、必要最低限の作りのサイトで運用しようと思っています。その為、広告などは貼らないです。また、Topページ（358tool.com）では今後、いろいろなツールを作っていきますので、TOPページではそのリンクと概要を記載していきます。サービスは自分が欲しいと思ったものを中心に構築していきます、尚、広告を貼るサービスもありますので悪しからず！

では、今後とも宜しくお願い致します🙇。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年08月05 06:49日

タグ

1800, 358, com, tool, TOP, いろいろ, ウォーキング, お裾分け, サイト, シンプル, ため, ツール, ぺ, ページ, レベル, 中学生, 今後, 今日, 作り, 作業, 入力, 全部, 別途, 効率, 単語, 基本, 学習, 広告, 必要, 手動, 数十, 数日, 早期, 最低限, 構築, 次, 毎日, 為, 現在, 笑, 網羅, 自分, 英語, 追求, 進行形, 運用, 高校生,

Photo by Johannes Plenio on Pexels.com

お金2.0を今頃読んだので感想とか書いてみました。

2022.07.30

Logging

おはようございます、結局、映画ジュラシックワールドは見送ろうと思っています（Twitterのつぶやきより）

ジュラックワールド🦖の完結映画が今日から上映されるのだけど、コロナ急増中なので考え中。#映画vsコロナ
— 田岡寿章@taoka_toshiaki🦌 (@taoka_toshiaki) July 28, 2022

さて、今日は積本になっていた、お金2.0を今頃読んだので感想を書いていきます。まず自分が気になったところの目次（大・目次と小・目次）を紹介します。

AIとブロックチェーンによる無人ヘッジファンド
デジタルネイティブからトークンネイティブへ
第4章「お金」から解放される生き方
若者よ、内面的な「価値」に着目せよ
おわりに

これらの所が気になったのところです、特にAIヘッジファンドのお話は興味深い話でした。機械学習したモデルを提供することでそのモデルの能力により報酬が得られるなどの情報は知らない人からすれば貴重な話です。次に今まさにそういう様になってきている価値主義の話（お金より○×）です、お金目当てより自分に価値を出す方が最終的には良い結果になるというお話、その為にはどうしたら良いかなどや具体的な話が書かれてあって良かったと思います。

おわりに書かれていたアインシュタインの言葉なども響きましたね、そして著者：佐藤航陽氏は本当に先見の明のある人だと思いました、これを書かれたのは２０１７年のことなんですからね。本当に凄いなってとても世の中を俯瞰して見ているなって感じました。そして世界2.0も電子書籍で購入済みなので時間の合間に徐々に読んでいきます。読了したらまた感想記事として記載します。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年07月30 10:03日

タグ

○×, 2.0, 4, AI, Twitter, おわり, お話, お金, こと, これら, ジュラシック, チェーン, デジタル, トークン, ところ, ネイティブ, ブロック, ヘッジファンド, モデル, ワールド, 主義, 人, 今, 今日, 今頃, 価値, 報酬, 大, 学習, 小, 情報, 感想, 所, 提供, 方, 映画, 機械, 気, 為, 無人, 生き方, 目当て, 目次, 着目, 積本, 紹介, 結果, 能力, 自分, 若者, 解放, 話,

円安だから。貯金を進めてくるのは悪徳商法？

2022.07.12

Logging

おはようございます。NHKのYOUTUBE動画に「一見、悪徳に見えて、ただ貯金を勧めているだけの男たち」という動画あるのだけどアレ円安になってから見ると悪徳業者に見えてしょうがない・・・。

だからといって海外へ投資を進める記事ではないけれどね。地頭力がある人は１０万円を元手にそれを何倍に増やすことが出来るそうです。株取引などはやってみると分かると思うけど、低いところで買って高くなりかけで売れば、その差額が利益になります。

但し、注意事項があってそういう事は誰でも出来るわけでもないみたいです。だから自分は投資信託をオススメします。特に人工知能（機械学習）が組み込まれている投資信託を使用すればそれなりに利益を得ることが出来ます。ここで重要なのはドルコスト平均法で買う（積立投資）という事が大事になります。あと追加資金を投入する時期なども大事です。

例えば何かの経済指標の発表がある前に買うのかそれとも発表後に買うのかなど、これは自分が下がりそうだな、上がりそうだなで買うタイミングを変えた方が良いです。投資信託でも同じで追加投資の資金は毎月同じ日にするよりか、自分で投資タイミングを考えて投資したほうが良いです。その方が利益に繋がりやすいです（同じことを２回書いているけど、其れぐらいタイミングは大事です）。

尚、前から言っているように投資・投機は自己責任ですので、、、以上、現場からでした。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年07月12 05:24日

タグ

10, NHK, youtube, アレ, おすすめ, かけ, ここ, コスト, こと, これ, それ, ところ, ドル, わけ, 一見, 万, 事, 事項, 人, 人工, 但し, 何か, 何倍, 使用, 元手, 円安, 利益, 前, 動画, 商法, 地頭, 大事, 学習, 差額, 平均法, 悪徳, 投入, 投資, 投資信託, 指標, 時期, 株取引, 業者, 機械, 注意, 海外, 男, 発表, 知能, 積立, 経済, 自分, 記事, 誰, 貯金, 資金, 追加, 重要,

Photo by Michal Hajtas on Pexels.com

物体認識ではラズパイが必ず必要でもないとふと思った。

2022.06.24

Logging

おはようございます。記事の投稿の時間帯から変えようか悩んでいます。

さて、今日のお題は「物体認識ではラズパイが必ず必要でもないとふと思った。」です。Iot（Internet of Things）で脚光を浴びたのが小さなパソコンとも言われるラズベリーパイです。これを使用して温度計や湿度、気圧などを測ったりそれを記憶出来たりします。ラズパイにカメラを接続し機械学習させて物体認識なども可能です。

ラズパイ pic.twitter.com/YUIhjTsVTB
— 田岡寿章@taoka_toshiaki🦌 (@taoka_toshiaki) June 19, 2022

ただ、物体認識に言えばお使いのWindowsやMacの入ったパソコンでもそういや出来てしまうなと思ったので、それを記事にしました。物体認識で重要なのはやはり学習なのですが世の中にはオープンソースで機械学習をある程度してくれているモデルが出回っています。なので、そちらをベースに再学習させる事により学習が可能かと思います。

物体認識するためには、WEBカメラが必要ですし、機械学習が出来る環境構築も必要になります。例えばTensorFlow(テンソルフロー)が動作出来る環境だとか、、、因みに古いパソコンでもTensorFlow(テンソルフロー)のバージョンを変えれば動きます。githubのmasterを使用せず古いバージョンを使いさえすれば。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年06月24 05:37日

タグ

Internet, IoT, Mac, of, te, Things, web, Windows, オープン, お使い, カメラ, これ, ソース, そちら, それ, ため, はい, パソコン, ベース, モデル, ラズ, ラズベリー, 世, 中, 事, 今日, 使用, 可能, 学習, 帯, 必要, 投稿, 接続, 時間, 構築, 機械, 気圧, 温度計, 湿度, 物体, 環境, 脚光, 記事, 記憶, 認識, 重要, 題,

JavaScriptのdocumentがドキュメントな訳。

2022.06.07

Logging

おはようございます。そろそろ梅雨入りなのかもなって。

さて、タイトル通りドキュメントな訳を知りたい方もいると思います、自分も何故、document（資料）なのかなって数秒間考えた結果、インターネットやHTMLの歴史を調べれば分かると思いますが、もともと研究者同士の情報交換（資料共有）に使用されていたのがモノがあるきっかけで注目を浴びた結果、今日では世界中で使用されるようになったのだと考えるとdocumentの意味がわかる。

因みにJavaScript（JS）はプログラミング学習、初学者には最適な言語だと思います、何故ならブラウザの開けるパソコンが一台有れば学習できる言語だからです。尚、JavaScriptを学んでVue.jsなどのフレームワークを学ぶのが定石だと思います。JavaScriptで独自プラグインを作ることが出来ればフレームワークの勉強に進んでも挫折しないと思います。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年06月07 05:01日

タグ

document, html, javascript, JS, vue, インターネット, きっかけ, こと, タイトル, ドキュメント, パソコン, ブラウザ, プラグイン, フレームワーク, プログラミング, もの, 一, 世界, 交換, 今日, 使用, 共有, 初学者, 勉強, 同士, 学習, 定石, 情報, 意味, 挫折, 数秒, 方, 最適, 梅雨入り, 歴史, 注目, 研究者, 結果, 自分, 言語, 訳, 資料,

Photo by Billel Moula on Pexels.com

いろいろと抜け落ちている事に気付けた本。

2022.04.24

Logging

おはよう御座います。先週の土曜日は風が半端なかったですね…😌。

問題解決のための「アルゴリズム×数学」が基礎からしっかり身につく本で再学習中です。いろいろと抜け落ちていることばかりだなって思います。因みに自分は基礎がいろいろと出来ていない、英語もそうだけど数学的なものも抜け落ちているし、ドキュメントを書く能力などもない。それらを少しずつ少しずつ身につけていきたいと思っている。何かを始めるというのは遅いことはない、人より時間がかかっても身につければ良いだけのことだろうと思っている。

問題解決のための「アルゴリズム×数学」が基礎からしっかり身につく本が届いた！
休みと時間を作って再勉強します。🫥 pic.twitter.com/fTyn6j2MQt
— 田岡寿章@taoka_toshiaki🦌 (@taoka_toshiaki) April 17, 2022

なので、英語とアルゴリズム、ドキュメントを身につけたいだよね。因みにそれらを身に着けていなくともプログラマーになる事は可能ですが、後々、いろいろと無いと悔しい気持ちになることもあるので、身につけるべきだと思っています。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年04月24 04:57日

タグ

アルゴリズム, いろいろ, こと, それら, ため, ドキュメント, プログラマー, もの, 事, 人, 何か, 先週, 半端, 可能, 問題, 土曜日, 基礎, 学習, 後々, 数学, 時間, 本, 気持ち, 能力, 自分, 英語, 解決, 身, 風,

「パッと咲いて散って灰に」を聴きながら妄想を膨らましてみました。

2022.04.03

Logging

おはよう御座います。

この頃、思うのですがヒットする曲や聴いていて良いなという曲は、ある法則があるだろうなって思います。その法則は機械学習で解を出すことは可能なのかなって・・・。もう業界ではそういう事を使用しているかも知れない。機械学習に必要なのは曲と購入者数の年代や性別を叩き込めば結果がでるような気がします。

だからなのか、この頃の曲は昔と違って大体、ある程度洗練された状態の曲が多いような気がします。特に若い世代の曲は、あまりHIT法則を取り入れることにあまり抵抗がないのかもしれないと・・・思ってたり実際、業界の人ではないので実際はどうなのか分からないですが、自分は詩も大事ですが、音（テンポ）とボーカルの声が凄く大事になると。

そのうち、プログラミングされた人工的な声と曲、詩でヒットする曲がでるかも知れませんね。

「パッと咲いて散って灰に」を聴きながら妄想を膨らましてみました。

著者名 @taoka_toshiaki

※この記事は著者が40代前半に書いたものです．

OFUSEで応援を送る

投稿日時 2022年04月03 05:30日

タグ

HIT, うち, こと, テンポ, ヒット, プログラミング, ボーカル, 世代, 事, 人, 使用, 可能, 声, 大事, 大体, 妄想, 学習, 実際, 年代, 必要, 性別, 抵抗, 昔, 曲, 業界, 機械, 気, 法則, 洗練, 灰, 状態, 結果, 自分, 解, 詩, 購入者, 音, 頃,

@Blog

日常日誌からプログラムやYOUTUBER紹介、旅日記まで日々更新中です。

デュオリンゴで毎日学習中.スタディサプリよりもお手軽感.

YouTubeに力を入れていこうと思っているけど夢ですね.

英語学習にお金を使うように考えを変えます.今まで何度も

Llama-3-ELYZA-JP-8Bとは何か？モデルという奴です.

AIで今後どうなるだろうな.自然言語処理で指示出し出来てきた今日.

AIで記事を学習して新たな記事を生み出すにはお金が必要だと思っていたがそうでも.

ローカルAI記事生成は、もはや夢物語じゃない

なぜLlama 3があなたのPCと相性抜群なのか？

あなたのPCを「記事生成マシン」に変える秘訣

あなたの創造性が、今、AIで加速する

ファインチューニングPythonコード

強制アプリ開発します.8月半ばまでに作らないとアカウントが停止.

AIレコメンド機能を乗せれるかもしれない.VPSだから微妙 #TFIDFベクトライザ

生成AIって著作権違法行為している？．あながち．

chatGPTとひきこもり．

フルリモートでは隙間時間が

laravelの次はvue.jsとTypeScript。 #Vue

何気なく書いていた事が結構な確率で当たる。#未来予知 #高的中か？

基本情報技術者試験ワード集と単語帳作りアプリで学習の下準備をする方法！ #FE #英語 #効率

YOUTUBEで伸びそうな人の共通点は何だろうか？

ヘンテコな学習ヘンテコな呟き😌。説明不足はいつものこと🤔

効率が良いかって？一番効率が良いのは手を動かさないことですよ🙄。 #花形

機械学習は学習するのにどれぐらいのデータが必要？

英語学習用、サイトを構築中。基本自分用（お裾分け😌）

お金2.0を今頃読んだので感想とか書いてみました。

円安だから。貯金を進めてくるのは悪徳商法？

物体認識ではラズパイが必ず必要でもないとふと思った。

JavaScriptのdocumentがドキュメントな訳。

いろいろと抜け落ちている事に気付けた本。

「パッと咲いて散って灰に」を聴きながら妄想を膨らましてみました。