Foren Aktuelles Erstellen Mitglieder Anmelden

ChatGPT

Benutzer, welche sich diesen Thread anschauen:

und ich nehme an du versuchst dein OCR mit tesseract durchzuführen pytesseract oder tesseract.js.

Handschrift erkennen kannst du vergessen, du müsstest auch das Tesseract erst trainieren - und das pro Handschrift. Das was an Modellen bei tesseract mitkommt ist alles kappes. Kannst froh sein, wenn das arial und times new roman halbwegs ordentlich ausspuckt.
Das Ding ist hörpelig, hat bugs und memoryleaks wie sau.

Für handschrifterkennung würde ich nicht OCR sondern ComputerVision verwenden.

Das was du machen willst, kannst du im Grunde für lau haben, müsstest aber python lernen :D

Mach dir eine kostenlose Azure Subscription, mit der du Azure Services ausprobieren kannst. Kannst dann im Monat glaub ich 200$ verbrennen. (geht schneller als du denkst - cloud ist nicht billig)
https://github.com/azure-samples/do...thon(v4.0)/Read_model/sample_analyze_read.py/


Das ganze gibts auch als no code approach in Azure einfach als Service
Hier wäre die Demo - den Azure Account brauchst du trotzdem: https://documentintelligence.ai.azure.com/studio/

Das ganze sieht dann so aus: (blöderweise nennen sie es hier auch ocr)
upload_2025-5-21_22-52-29.png


Irgendwo kanst du dir da auch ein workflow zusammenclicken und dein zeug durchlaufen lassen.

Gibt auch 10000 youtube tutorials wie man das machen kann.
 
und ich nehme an du versuchst dein OCR mit tesseract durchzuführen pytesseract oder tesseract.js.

Handschrift erkennen kannst du vergessen, du müsstest auch das Tesseract erst trainieren - und das pro Handschrift. Das was an Modellen bei tesseract mitkommt ist alles kappes. Kannst froh sein, wenn das arial und times new roman halbwegs ordentlich ausspuckt.
Das Ding ist hörpelig, hat bugs und memoryleaks wie sau.

Für handschrifterkennung würde ich nicht OCR sondern ComputerVision verwenden.

Das was du machen willst, kannst du im Grunde für lau haben, müsstest aber python lernen :D

Mach dir eine kostenlose Azure Subscription, mit der du Azure Services ausprobieren kannst. Kannst dann im Monat glaub ich 200$ verbrennen. (geht schneller als du denkst - cloud ist nicht billig)
https://github.com/azure-samples/do...thon(v4.0)/Read_model/sample_analyze_read.py/


Das ganze gibts auch als no code approach in Azure einfach als Service
Hier wäre die Demo - den Azure Account brauchst du trotzdem: https://documentintelligence.ai.azure.com/studio/

Das ganze sieht dann so aus: (blöderweise nennen sie es hier auch ocr)
Anhang anzeigen 178498

Irgendwo kanst du dir da auch ein workflow zusammenclicken und dein zeug durchlaufen lassen.

Gibt auch 10000 youtube tutorials wie man das machen kann.
jo genau hatte es mit tesseract probiert, hat lediglich in einer mit Paint erstellen Datei mit Arial funktioniert, hatte das dann aber auch festgestellt, dass er keine handschriften erkennt (stand dann auch irgendwo im faq) und wollte dann eigentlich einfach über die ChatGPT API gehen, wie wenn ich die pdf im Chat hochladen würde. Ging aber irgendwie auch nicht so richtig.

Danke mal für deinen Input schau ich mir mal an, sollte aber tatsächlich mal was arbeiten statt programmieren zu lernen :> ist zwar für die Arbeit aber heute dachte ich es wäre 15:00 Uhr während die Leute auf einmal alle gegangen sind (es war bereits 17:00 Uhr) und jetzt hock ich privat bis 23:00 Uhr davor weil ich irgendwie angefixt bin auch mein PDF Verkleinerungstool weiter zu verbessern :ugly:
 
Ein besserer Approach wäre das du dir mal anschaust wie man lokal ollama3 ans laufen bekommt. Du wirst dafür sicherlich eine Grafikkarte auftreiben können.
zweitens bräuchtest du openWebUI um eine Oberfläche für das ganze Zeug zu haben um nicht mit commandozeilen rumzueiern

und wenn das alles läuft, könntest du schauen wie du das alles lokal ans laufen bekommst.
https://medium.com/@yuly098703/from...ashcards-with-ollama-ocr-and-ag2-dd3409db7842

Das Beispiel dort ist etwas speziell, aber müsste mit ollama und ollava und viel Glück Handschrift erkennen können.
https://github.com/imanoop7/ollama-ocr

Aber es ist schon sehr technisch, müsstest also schon irgendwie ein bischen python lernen.. Aber das gute ist - nix kann dir besser programmieren beibringen als chatGPT and Friends. Niemand ist frustresistenter oder geduldiger.
 
Ein besserer Approach wäre das du dir mal anschaust wie man lokal ollama3 ans laufen bekommt. Du wirst dafür sicherlich eine Grafikkarte auftreiben können.
zweitens bräuchtest du openWebUI um eine Oberfläche für das ganze Zeug zu haben um nicht mit commandozeilen rumzueiern

und wenn das alles läuft, könntest du schauen wie du das alles lokal ans laufen bekommst.
https://medium.com/@yuly098703/from...ashcards-with-ollama-ocr-and-ag2-dd3409db7842

Das Beispiel dort ist etwas speziell, aber müsste mit ollama und ollava und viel Glück Handschrift erkennen können.
https://github.com/imanoop7/ollama-ocr

Aber es ist schon sehr technisch, müsstest also schon irgendwie ein bischen python lernen.. Aber das gute ist - nix kann dir besser programmieren beibringen als chatGPT and Friends. Niemand ist frustresistenter oder geduldiger.
ich hab tatsächlich noch eine 3090 übrig :grins: die hätte vermutlich auch genügend Arbeitsspeicher für mein vorhaben. (übrig ist jetzt übertrieben, hab ich im ZweitPC auf dem die Freundin ab und zu mit mir Dead Island im Koop gedaddelt hab)
sie hatte leider kein sonderlichen Spaß dran, weil ich das fluchen angefangen hab, weil sie mich nie gerettet hat, sondern mit dem Zombies beschäftigt war :ugly: die 3090 hat ich für 450€ bekommen und gedacht, dass ich sie notfalls für das Geld auch wieder los bekomme :kaffee:
 
Veo 3 (KI Videos von Google) bietet nun auch Sound und ein paar weitere Features an:

Um diese Inhalte anzuzeigen, benötigen wir die Zustimmung zum Setzen von Drittanbieter-Cookies.
Für weitere Informationen siehe die Seite Verwendung von Cookies.

Musikvideos:
Um diese Inhalte anzuzeigen, benötigen wir die Zustimmung zum Setzen von Drittanbieter-Cookies.
Für weitere Informationen siehe die Seite Verwendung von Cookies.

Filmszenen:
Um diese Inhalte anzuzeigen, benötigen wir die Zustimmung zum Setzen von Drittanbieter-Cookies.
Für weitere Informationen siehe die Seite Verwendung von Cookies.

usw.
 
Ich habe mich die letzten Tage mal etwas intensiver mit den verschiedenen Chat Bots auseinander gesetzt und muss (leider) sagen dass Grok merklich bessere Antworten liefert und weniger Fehler macht als Chat GPT und Gemini. Ist ja immer nur eine Momentaufnahme und ich habe auch nicht die bestmögliche Bezahlversion von Chat GPT, aber dass Grok überhaupt so schnell aufholen konnte ist schon erstaunlich. Und befeuert die Annahme, dass die A.I. in Zukunft einfach nur ein beliebiger Rohstoff sind, den die "echten" Nutzer Programme/Apps dann nutzen. Es gibt da ja auch überhaupt keine Markentreue. Man benutzt das, was am besten funktioniert.
 
ich in echt übel im Vibe Coding angekommen.. so viele kaufmännische Prozesse die ich automatisieren konnte.. ich darf niemanden davon erzählen, weil ich jetzt Dinge innerhalb Minuten mache, für dich vorher Stunden gebraucht hätte. (Mittelstand, Kack Software, usw.)
 
Das ist der richtige Zeitpunkt dafür sich selbstständig zu machen und mit einfachen vibecodeten tools nervige kacksoftware zu automatisieren. 100€ pro monat lizenz..verkaufen als zeitersparnis.. fertig. Die Vermarktung ist halt das schlimmste und nervigste.
 
Zuletzt bearbeitet:
Das ist der richtige Zeitpunkt dafür sich selbstständig zu machen und mit einfachen vibecodeten tools nervige kacksoftware zu automatisieren. 100€ pro monat lizenz..verkaufen als zeitersparnis.. fertig. Die Vermarktung ist halt das schlimmste und nervigste.
Ist eigentlich tatsächlich eine Idee. Homepage steht auch schon. Chillig als Nebengewerbe dann, falls der Markt irgendwann gesättigt ist.
Bin nur kein Fan von Lizenzen, ist an sich ja nicht ausschließlich mein Werk. Quasi einmal Zahlung und dann lass mich in Ruhe damit :D
 
Und mit welchen Tools, sowas wie cursor oder bolt ai?
Coding mit KI. Keine Tools an sich sondern halt mit KI wie ChatGPT, Gemini oder Deepseek über deren GUI Oberfläche.

genspark scheint so ein KI Personal Agent zu sein, können die anderen ja auch. Für sowas finde ich glaube ich CoPilot und Gemini besser wegen Office bzw. Google Apps Anbindung
 
Hey Ho :)!

Derzeit spame ich mein Chat GPT mit Fragen rund ums Heimkino zu.
Ganz ehrlich, vieles hätte ich nur über Umwege ergooglen können.
Von Kabeldicke, Subwoofer Einstellung bis hin zu der Tatsache, wie meine Sounbar jetzt ohne eARC den Ton vom Fernseher bekommt. Bei letzterem hatte ich siegessicher ein optisches Lichtleiterkabel genommen. Funktioniert hatte es erst, nachdem mir Chat GPT die Einstellungen in Pfadform für TV und Soundbar grafisch darstellte :ugly:.

Ja, spricht nicht unbedingt für mein Grips, aber ich bin heut echt begeistert. War eine riesige Hilfe!
 
Zurück
Oben